【文件属性】:
文件名称:synonym_detection:同义词挖掘算法
文件大小:1.26MB
文件格式:ZIP
更新时间:2021-05-03 14:38:25
synonyms synonym-detection Python
同义词挖掘
同义词挖掘方法:
(1)百度百科同义词
(2)word2vector
(3)语义共现网络的节点相似度
(4)Levenshtein距离
(5)DPE模型(undo)
主要功能
1. 百度百科同义词
如上图所示,是在百度百科中搜索“凤梨”返回的页面结果,左边这个图为凤梨的description,右边这个图为凤梨的info box。
description中有这么一句话“原产美洲热带地区。俗称菠萝,为著名热带水果之一。”,那么我们可以把凤梨“俗称”菠萝提取出来就到了同义词
info box中有“别称”、“英文名称”、“又称”等属性,我们同样可以当做同义词提取出来,这样就完成了同义词的挖掘
代码示例
def baike_invoke():
import baike_crawler_model
print(baike_crawler_model.baike_se
【文件预览】:
synonym_detection-master
----source()
--------data_utils.py(4KB)
--------synonym_detect.py(4KB)
--------word2vec_model.py(4KB)
--------main.py(160B)
--------__init__.py(36B)
--------Levenshtein_model.py(4KB)
--------semantic_network_model.py(9KB)
--------baike_crawler_model.py(4KB)
--------thread_utils.py(555B)
----output()
--------Levenshtein_model_synonym.txt(480B)
--------semantic_network_model_synonym.txt(458B)
--------w2v_synonym.txt(467B)
--------baike_synonym.txt(1B)
----input()
--------img()
--------stop_words.txt(13KB)
--------三体.txt(2.62MB)
--------word.dict(0B)
----README.md(5KB)
----temp()
--------input_word.txt(94B)