深入研究中文分词利器——Jieba

时间:2024-03-19 13:29:55

jieba的分词

  1. jieba安装后的位置:
    深入研究中文分词利器——Jieba
    可以修改里面的dict.txt文本,或者把自定义的词典直接改到这个目录,当jieba初始化的时候会创建索引。jieba.load_userdict()其实也是把额外的词典放加入的默认的词典里的。

使用jieba.load_userdict()的方式:
深入研究中文分词利器——Jieba
深入研究中文分词利器——Jieba
使用前没有把“区块链分开”,使用后就分开了。
还有另一种方法是直接修改默认的词典:
深入研究中文分词利器——Jieba
但是需要删除缓存,则运行原来的代码,jieba会重新构建:
深入研究中文分词利器——Jieba
效果如下:
深入研究中文分词利器——Jieba
参考:
jieba加载自定义大词典(100MB)太慢的问题:
https://www.jianshu.com/p/dbaa4421b4ce

jieba词性标注

jieba的词性,比如x代表字符串:
https://blog.csdn.net/bozhanggu2239/article/details/80157305

jieba提取关键字

使用tf-idf的方法

使用text rank的方法