【分享】细粒度的评论标注语料

时间:2021-09-07 20:08:08

数据简介


用户评论分析可以帮助商家倾听用户声音,分析用户满意度,从而及时进行营销策略制定、危机公关等商业决策。但现在的评论语料主要对评论做褒义/贬义的粗粒度标注,而对评论内容本身无法理解。


我们提供了一个细粒度的评论标注语料,详细标注了用户评论中的评价对象和评价特征。本语料可以用于情感计算、评论抽取、口碑分析等用途。


数据格式


本语料以xml的形式提供,数据量有160多M大小。共收集了36万篇来自各大汽车论坛的帖子,并人工区分出2.7万篇包含用户对汽车评论的帖子,然后做了细粒度的标注,得到5.7万条标注结果。标注结果包括评价对象以及该对象的评价特征。


评价对象包括:

1)厂商:一汽、大众、日产、本田等

2)品牌:奔驰、宝马、奥迪、凯美瑞等

3)型号:ES240、1.8T手自一体等

4)属性:整体、外观、油耗、动力、性价比、售后、内饰等


评价特征包括:

1)评价内容:用户对厂商、品牌、型号或者属性的主观性评价描述,例如“省油”、“好看”

2)描述值:用户对属性的客观性描述,例如”油耗是12”

3)倾向性:用户评价是褒义、贬义还是中性


标注时还考虑了很多细节:

1)如果评论里包含多个评价对象,则分别进行标注。例如对“某车外观挺好看,就是空间不够宽敞”,分别对某车外观和某车空间进行了标注

2)对用户没有明确说出来的隐含对象,也做了标注。例如对“某车很漂亮”,标注出属性“外观”

3)对比较句也做了标注。例如“某车的内饰不如某车丰富”

4)对用户评价适用的条件也做了标注。例如“某车在跑高速的时候很省油”,将“跑高速”也做了标注

5)记录了程度副词。例如“很漂亮”、“太贵”


数据样例


标注例子1:蒙迪欧致胜2.3豪华版在市区开的时候,油耗到14了,太高了!


品牌 型号 属性 描述值 评价内容 倾向性 条件 原帖是否没明确说出该属性
蒙迪欧 致胜2.3豪华版 油耗 14 太高 贬义 市区开 0(明确说出了)


标注例子2:跟迈腾和奥迪相比,速腾太省油了


品牌 属性 对比品牌 评价内容 倾向性 原帖是否没明确说出该属性
速腾 油耗 奥迪 省油 褒义 1(没明确说出)
速腾 油耗 迈腾 省油 褒义 1(没明确说出)


数据下载:http://www.datatang.com/data/15722

数据堂-数据共享服务平台