lesson3-神经序列模型I-小象

时间:2023-03-09 23:04:04
lesson3-神经序列模型I-小象

优化目标函数:
 batch gradient descent:必须便利all训练数据 --》随机梯度下降,但不稳定~一个数据点就更新,快但不稳定--》minibatch,取m个随机数据点,求偏导数
 why mini就ok:因为大数据是有冗余的,就像看24史-》万历十五年-》三国,稳定更新快,因为很多历史的轮回是相似的

超参数选择:
 权重维数、min bantch中batch的大小
 方法:grid search~遍历每个点,random search ~better~有些超参数是没有多大影响的
              超参数调参经验~随机实验,资源
判别式模型:只关注映射x-》y,如情感分析
生成式模型:可以生成故事

非线性变化:tath倒数不会接近0,总是为1(x>0),所以不会像sigmoid一样x很大时为0
      softmoid:向量转换为概率,求导时是向量y对向量x求导-》矩阵
      embedding lookup:将int-》embedding,求导为取改行,其他行为0
loss function:交叉熵= -求和真实值ylog预测值y ,求导拉格朗日-》当y真实=y预测时,交叉熵最小
  loss交叉熵对y预测求导在one-hot中 = -1/预测y
         交叉熵loss 与 softmax结合后-》倒数非常简单,y真=1时,倒数=y预测-1
  -》“推所有,拉一个”,梯度下降是都推y预测,但是y真=1的地方再拉回来1

NNLM:n-gram,对词理解有限
     why embedding效果比one-hot好:因为对词的理解更好,相当于词变为了n维的feature~woman和man相似的词在可视化平面中是紧邻的,语法、语义等相似就会靠近--》embedding的每一维相当于机器学出来的特征
word2vec:相当于对NNLM的简化,只有线性模型 ,所以快+大数据
 种类:CBOW,Skip-gram(中间word预测周围的词)

Coordinate Descent:假设两个超参数,固定此调整彼,不断迭代直到xy稳定

代码:

LM/toy.py:可视化反向传播;找出五处错误,正确输出10ite.correct.txt
 Word2vec文件夹