• 机器学习之文本挖掘

    时间:2022-12-03 08:57:50

    1. 文本分类    (1)分词: 中文分词系统 -- NLPIR(也叫ICTCLAS2013), 还有人它叫庖丁解牛分词器的。    召回率(Recall):是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。    精度(Precise):是指检索出的相关文档数与检...

  • 文本挖掘预处理之TF-IDF

    时间:2022-09-23 12:24:29

    在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。1. 文本向量化特征的不足在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文...

  • 文本挖掘预处理之向量化与Hash Trick

    时间:2022-05-31 09:05:49

    在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例HashTrick,本文我们就对向量化和特例HashTrick预处理方法做一个总结。1.词袋模型在讲向量化与HashTrick之前,我们先...

  • R语言文本挖掘之jieba分词与wordcloud展现

    时间:2021-10-18 23:47:39

    引言由于语言的特殊性,中文在进行文本挖掘时需要进行分词,R中对中文分词支持较好的有jiebaR包(快速指南)和李键大哥的RWordseg包,从自己使用情况来看,jiebaR分词的效果要更好一些,本文就使用jiebaR包进行中文分词和去除停止词,再构建词频统计表,最后利用RWordseg进行词云可视化...

  • 【Social listening实操】从社交媒体传播和文本挖掘角度解读《欢乐颂2》

    时间:2021-08-10 14:26:21

    本文转自知乎作者:苏格兰折耳喵—————————————————————————————————————————————————————作为数据分析爱好者,本文作者将想从数据的角度去解读《欢乐颂2》这部热播剧的方方面面,包括舆情传播、网络口碑、人物社交网络分析及,以及小说内容的文本分析。5月11日,...