《商业WEB挖掘关键技术研究》之语义模板笔记

时间:2021-10-29 13:33:58

 《商业WEB挖掘关键技术研究》是2011年川大博士张磊的博士学位论文,除去一堆看起来高深的知识点,我比较感兴趣的是里面提出的很多基于语义的特征模板。模板没有复杂的算法,但因想面面俱全,使得整体模板看起来较为庞大。按照层次分类,在实际应用中取其所需,想来也不错。现将模板构造方法关键点总结如下:

1.     基本模板:

F1:目标词左右1、2个词的词性

Eg:P(FW+1),特征词右边第一个词的词性。

P(SW-2),情感词左边第二个词的词性。

F2:目标词左右1、2个词。(没用)

F3:目标词左边第一个词为“的” DE

F4:目标词为字母或数字         ALP 

F5:目标词为字母               CAP 

 

F6:情感词之前为程度副词       DEG 

F7:情感词之前为否定副词       NEG        

2.     复合模板:

特征词复合模板,用到F1~F5

情感词复合模板,用到F1、F2、F6、F7

Eg:整个 车 的 内饰 非常 糟糕 。

B    n  u   n   d     a  wp

   针对特征词“内饰”,可以发现匹配复合模板F1F2F3

   P(FW-1)=”u”&P(FW-2)=”n”&P(FW+1)=”d”&P(FW+2)=”a”&DE=TRUE

   针对情感词“糟糕”,可以发现匹配复合模板F1F2F6

   P(SW-1)=”d”&P(SW-2)=”n”&P(SW+1)=”wp” &DEG=”非常”

 

基于依存关系的特征-情感对的分类

1.     依存关系标记(24个):

定中关系ATT;数量关系QUN;并列关系COO;同位关系APP;前附加关系LAD; 后附加关系RAD;动宾关系VOB;介宾关系POB;主谓关系SBV;比拟关系SIM;核心HED;连动结构VV;关联结构CNJ;语态结构MT;动补结构CMP;“的”字机构DE;“地”字结构DI;“得”字结构DEI;“把”字结构BA;“被”字结构BEI;独立分句IC;依存分句DC

2.     依存关系结构模板:

一个依存关系是一个非对称的二分关系,其中一个词作为首词,另外一个词称为依存词。(依存词在首词前面)

一个依存关系可以简写成:(首词,依存词)

Ge:诺基亚 手机 的 外观 很 漂亮

主要的依存关系有:ATT(手机,诺基亚) SBV(漂亮,外观)

ADV(漂亮,很)

依存关系基本模板:

F(in) :特征词作为依存词

F(out) :特征词作为首词

S(in) :情感词作为依存词

S(out) :情感词作为首词

3. 依存关系距离模板:

D(FS):特征词与情感词之间的距离,即两者之间的词的个数

O(FS):特征词与情感词的前后顺序,特征词在情感词前面取“1”

反之,取“0”

N1   :特征词与情感词之间,其它特征词个数

N2 :特征词与情感词之间,其它情感词个数

4. 依存关系距离模板:

1)P(child):儿子关系,情感词到特征词的路径

说明:特征词为情感词的“儿子”

Eg:我喜欢这个相机

VOB(喜欢,相机)

2)P(parent):父亲关系,特征词到情感词的路径

说明:特征词为情感词的“父亲”

Eg:这款手机的独特外观使得用户很惊讶

ATT(外观,独特)

3)P(sibling):兄弟关系,共同祖先到特征词和情感词的路径

说明:特征词和情感词是同一个祖先词的“儿子”

Eg:照片质量有时会模糊

依存关系是:(质量,模糊),他们有一个共同的祖先,“会”

4)P(grandchild):子孙关系,情感词经过中间词到特征词的路径

说明:特征词为情感词的“子孙”,中间依赖于若干个词作为关系的传递。

Eg:即使使用LCD和FLASH,电池的性能也很好

依存关系(好,LCD),依赖于一个中间词“使用”

5)P(grandfather):祖父关系,特征词经过中间词到情感词的路径

说明:特征词为情感词的“祖父”,中间依赖于若干个词作为关系的传递。

Eg:专业的图像处理器,操控性好

依存关系(处理器,专业),依赖于一个中间词“的”

说明:目标词(包括特征词和情感词)