斯坦福NLU笔记之情感分析

时间:2024-04-06 17:58:05

1.情绪分析的一般实用技巧

分词

介绍了三种分词:

Whitespace tokenizer, 就是空格分词。

Treebank tokenizer, 斯坦福大学的树状分词。

Sentiment-aware tokenizer, 情感感知分词器,隔离表情符号,使用基础标记,在看起来有意义的地方保留大写... ...(A good start: nltk.tokenize.casual.TweetTokenizer)

比较:

斯坦福NLU笔记之情感分析

斯坦福NLU笔记之情感分析

 

 

词干化

The dangers of stemming:

词干会使不同的词形崩溃;

在情感背景下的三种常见词干算法:the Porter stemmer, the Lancaster stemmer, the WordNet stemmer;

Porter and Lancaster破坏了太多的情感差异;WordNet词干分析器几乎没有这么严重的问题,但通常它带来的价值不足以值得运行它所需的资源。

斯坦福NLU笔记之情感分析

斯坦福NLU笔记之情感分析

WordNet词干分析器(NLTK)是高精度的。 它需要单词-POS对。 唯一的普遍情绪问题是它消除了比较形态。

斯坦福NLU笔记之情感分析

斯坦福NLU笔记之情感分析

词性标注

词性标注的作用是能够根据词性的区别来辅助判断情绪,比如'fine'作为形容词时候一般表示的情绪就是积极的,但是作为名词一般就是消极的。但是词性标注的风险在于,同一单词同一词性也有可能是不一样的情感,比如'mean'作为形容词,形容人是消极的情绪,形容苹果派就是积极的了。

简单的否定标记

The method (Das & Chen 2001; Pang et al. 2002) 在否定和子句级标点符号之间出现的每个单词后面加上一个_NEG后缀。

斯坦福NLU笔记之情感分析

斯坦福NLU笔记之情感分析

2.The Stanford Sentiment Treebank (SST)

这里因为我对树状模型不太了解所以就简单记录一下:

斯坦福NLU笔记之情感分析

斯坦福NLU笔记之情感分析

SST使用方法:

斯坦福NLU笔记之情感分析

3.Methods: hyperparameters and classifier comparison

超参数搜索:基本原理

  1. 模型的参数是那些在优化模型本身的过程中获悉的值。
  2. 超参数优化对于建立有说服力的论点至关重要:每个模型都必须处于最佳状态!
  3. 否则,一个人似乎有证据表明,仅通过策略性地选择有利于结果的超参数,一个模型就比其他模型更好。

分类器比较:基本原理

  1. 假设您已经评估了基准模型B和您偏爱的模型M,并且您选择的评估指标偏爱了M。M真的更好吗?
  2. 如果B和M之间的区别显然具有实际意义,那么除了显示数字之外,您可能不需要执行任何其他操作。 但是,B或M的表现是否有所不同?
  3. Demsar (2006) advises the Wilcoxon signed-rank test for situations in which you can afford to repeatedly assess B and M on different train/test splits. 
  4. 对于无法重复评估B和M的情况,McNemar的测试是一种合理的选择。 它对两个模型产生的混淆矩阵进行操作,检验了两个模型具有相同错误率的原假设。