传送门

Post author: Yifan
Post link: <a href="http://sanshuiii.github.io/2022/09/04/NLP/NLP-CS224n-2-%E8%AF%8D%E4%BC%A0%E6%84%9F%E5%99%A8/" title="NLP-CS224n-2-词传感器">http://sanshuiii.github.io/2022/09/04/NLP/NLP-CS224n-2-词传感器/
Copyright Notice: All articles in this blog are licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/en" rel="noopener" target="_blank"> BY-NC-SA unless stating additionally.

Word2Vec

梯度下降，随机梯度下降。

实质上是无监督学习，每个batch的最小单位可以是一组word2word的映射，输入值是一个中心词，输出值是一个其对应的outside词，要学习是从中心词要其对于outside词的映射，训练结束后只需要过程中的隐藏层信息，即词向量。

一个词要两个向量的原因？
- 为了更容易优化，但是一个也行
- 事后可以对两个向量取平均值
两种变种模型
- Skip Grams 即由中心词预测上下文（第一节课所述模型即SG）
- Continunous Bag of Words 即由上下文推测中心词
  - Negative Sampling 负采样
  - 每个训练sample只有一个输出为1，剩下的都为0，所以只需要选取个 0 输出点（即其对应的outside词向量）进行更新即可，如 $J_{neg-sample}(o,v_c,U)=-\log(\sigma(u_o^Tv_c))-\sum_{k=1}^K\log(\sigma(-u_k^Tv_c))$ 其中表示sigmoid函数。这样就可以将一个多分类问题变成一个二分类问题来处理。

即将上一章中的无向完全图用矩阵表示写出，问题明显，即过于稀疏，体积过大，鲁棒性差

Solution：只储存那些更重要的信息，压缩维度，类似WORD2VEC

对共现矩阵做奇异值分解，再重新组合，形成一个更小的矩阵

Update: 将出现次数特别多的词，如the，he，has 单独处理

内部方法：规定一个中间方法，在词向量应用算法得到另一个词之后，我们对比词向量得到的词是否与我们人为规定的词相符。我们统计其预测的正确率，以此来代表词向量的好坏。
外部方法：用一个真正的NLP任务来评价