【文件属性】:
文件名称:参考文献-js实现聊天对话框
文件大小:832KB
文件格式:PDF
更新时间:2021-06-17 01:06:54
MATLAB SPSS python
八、模型的评价
8.1 模型一的评价
优点:对于同一本书著作,一个作者的思想和思维方式都是有规律可循的,
我们找出了具有代表性的 27个人物名称和 47个虚词,大大的减少运算量。将前
80回与后 40回分开统计,计算出词频,利用写作风格的差别来判断前后作者差
异,非常具有说服力。
缺点:对于问题一、二,在选取具有代表性的人物名称或者虚词的时候,因
为整本著作的人物和词数种类太多,我们有可能会忽略掉某些关键性的或者对结
果影响比较大的信息,导致最终结果不准确。而且有很多人物的出场时间不同,
甚至会有一些在前 80回出现并死亡的情况,这些都会导致最终结果有误差。
8.2 模型二的评价
优点:词与词之间的相关性有诸多种,我们选取同义异词的好处在于,对于
不同的作者,在撰写文章的时候对某些意思的表达不同,比如会参杂自己家乡的
方言等等。我们抓住这一特点进行分析,得到的效果显著。
缺点:同义异词的种类和数量太过繁杂,因为篇幅的限制,我们选取的 7组
词可能不具有代表。
8.3 模型三的评价
优点:我们建立了两个不同的模型来处理问题,对于第一个模型,对标点符
号的频数进行分析。因为对于不同的作者,标点符号可能表达出了自己的情感,
比如问号和感叹号,所以可以根据这个差异进行比较。对于第二个模型,我们做
的是平均词长分析,因为平均词长同样可以判断出一个作者的写作用词习惯,能
够用来判断作者文风。这两个模型都非常贴切实际,抓住了作者的各种写作色彩,
具有说服力。
缺点:在做平均词长分析的时候,会将部分人物的姓名分割开来,这就会导
致在统计单个字词数量的时候引入了干扰,会对最终的结果产生影响。
九、参考文献
[1]李贤平,《红楼梦》成书新说,复旦大学学报社科版,1987,(5):3-16
[2]韦博成,红楼梦前 80回与后 40回某些文风差异的统计分析,应用概率统计,
2009,25(4):441-448
[3]施建军,基于支持向量机技术的《红楼梦》作者研究,红楼梦学刊,2011
[4]任永功,基于特征权重与词间相关性的文本特征选择算法,计算机应用与软
件,2012.9
[5]王雪飞,词间相关性对文本分类的影响,计算机应用技术,2007.7
[6]刘悦,基于语料库的红楼梦各部分的写作风格研究,华中师范大学,2014.1
[7]邓维斌,唐兴艳,SPSS19统计分析使用教程(中文版),北京:电子工业出版
社,2011.12