文本挖掘相关文章

机器学习之文本挖掘
时间：2022-12-03 08:57:50
1. 文本分类（1）分词：中文分词系统 -- NLPIR（也叫ICTCLAS2013），还有人它叫庖丁解牛分词器的。召回率（Recall）：是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。精度（Precise）：是指检索出的相关文档数与检...
标签：词频待分类向量化深度学习人工智能 yyds干货盘点
文本挖掘预处理之TF-IDF
时间：2022-09-23 12:24:29
在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中，向量化之后一般都伴随着TF-IDF的处理，那么什么是TF-IDF，为什么一般我们要加这一步预处理呢？这里就对TF-IDF的原理做一个总结。1. 文本向量化特征的不足在将文本分词并向量化后，我们可以得到词汇表中每个词在各个文...
文本挖掘预处理之向量化与Hash Trick
时间：2022-05-31 09:05:49
在文本挖掘的分词原理中，我们讲到了文本挖掘的预处理的关键一步：“分词”，而在做了分词后，如果我们是做文本分类聚类，则后面关键的特征预处理步骤有向量化或向量化的特例HashTrick，本文我们就对向量化和特例HashTrick预处理方法做一个总结。1.词袋模型在讲向量化与HashTrick之前，我们先...
R语言文本挖掘之jieba分词与wordcloud展现
时间：2021-10-18 23:47:39
引言由于语言的特殊性，中文在进行文本挖掘时需要进行分词，R中对中文分词支持较好的有jiebaR包(快速指南）和李键大哥的RWordseg包，从自己使用情况来看，jiebaR分词的效果要更好一些，本文就使用jiebaR包进行中文分词和去除停止词，再构建词频统计表，最后利用RWordseg进行词云可视化...
标签：cloud 可视化 r语言文本 word 分词
【Social listening实操】从社交媒体传播和文本挖掘角度解读《欢乐颂2》
时间：2021-08-10 14:26:21
本文转自知乎作者：苏格兰折耳喵—————————————————————————————————————————————————————作为数据分析爱好者，本文作者将想从数据的角度去解读《欢乐颂2》这部热播剧的方方面面，包括舆情传播、网络口碑、人物社交网络分析及，以及小说内容的文本分析。5月11日，...

机器学习之文本挖掘

文本挖掘预处理之TF-IDF

文本挖掘预处理之向量化与Hash Trick

R语言文本挖掘之jieba分词与wordcloud展现

【Social listening实操】从社交媒体传播和文本挖掘角度解读《欢乐颂2》