lesson3-神经序列模型I-小象

优化目标函数：
batch gradient descent：必须便利all训练数据 --》随机梯度下降，但不稳定~一个数据点就更新，快但不稳定--》minibatch，取m个随机数据点，求偏导数
why mini就ok：因为大数据是有冗余的，就像看24史-》万历十五年-》三国，稳定更新快，因为很多历史的轮回是相似的

超参数选择：
权重维数、min bantch中batch的大小
方法：grid search~遍历每个点，random search ~better~有些超参数是没有多大影响的
超参数调参经验~随机实验，资源
判别式模型：只关注映射x-》y，如情感分析
生成式模型：可以生成故事

非线性变化：tath倒数不会接近0，总是为1（x>0),所以不会像sigmoid一样x很大时为0
      softmoid：向量转换为概率，求导时是向量y对向量x求导-》矩阵
      embedding lookup：将int-》embedding，求导为取改行，其他行为0
loss function：交叉熵= -求和真实值ylog预测值y ，求导拉格朗日-》当y真实=y预测时，交叉熵最小
  loss交叉熵对y预测求导在one-hot中 = -1/预测y
         交叉熵loss 与 softmax结合后-》倒数非常简单，y真=1时，倒数=y预测-1
  -》“推所有，拉一个”，梯度下降是都推y预测，但是y真=1的地方再拉回来1

NNLM：n-gram，对词理解有限
why embedding效果比one-hot好：因为对词的理解更好，相当于词变为了n维的feature~woman和man相似的词在可视化平面中是紧邻的，语法、语义等相似就会靠近--》embedding的每一维相当于机器学出来的特征
word2vec：相当于对NNLM的简化，只有线性模型，所以快+大数据
种类：CBOW，Skip-gram（中间word预测周围的词）

Coordinate Descent：假设两个超参数，固定此调整彼，不断迭代直到xy稳定

代码：

LM/toy.py：可视化反向传播；找出五处错误，正确输出10ite.correct.txt
Word2vec文件夹

秒客网

lesson3-神经序列模型I-小象

相关文章