simhash:中文文档simhash值计算

时间:2021-02-24 09:36:21
【文件属性】:
文件名称:simhash:中文文档simhash值计算
文件大小:4.37MB
文件格式:ZIP
更新时间:2021-02-24 09:36:21
C++ 专门针对中文文档的simhash算法库 简介 此项目用来对中文文档计算出对应的simhash值。simhash是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。 详见 特性 使用作为分词器和关键字抽取器 使用作为hash函数 hpp风格,所有源码都是.hpp文件里面,方便使用。没有链接,就没有伤害。 本项目的副产品项目: 提供了简单的simhash HTTP服务。 依赖 g ++(建议版本> = 4.1)或clang ++。 用法 mkdir build cd build cmake .. make 测试 make test 演示 ./demo 结果如下: 文本:"我是蓝翔技工拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上总经理,出任CEO,走上人生巅峰。" 关键词序列是: ["蓝翔:11.7392", "CEO:11.7392", "升职:10.8562", "加薪:1
【文件预览】:
simhash-master
----.gitignore(67B)
----.travis.yml(275B)
----deps()
--------limonp()
--------cppjieba()
----README.md(2KB)
----include()
--------simhash()
----example()
--------demo.cpp(1KB)
--------CMakeLists.txt(81B)
----dict()
--------idf.utf8(5.72MB)
--------stop_words.utf8(9KB)
--------jieba.dict.utf8(4.84MB)
--------hmm_model.utf8(508KB)
----test()
--------load_test.cpp(820B)
--------testdata()
--------CMakeLists.txt(123B)
--------unittest()
----CMakeLists.txt(434B)
----ChangeLog.md(1KB)
----README_EN.md(2KB)

网友评论