coccoc-tokenizer:越南语的高性能令牌生成器

时间:2021-04-29 18:41:11
【文件属性】:
文件名称:coccoc-tokenizer:越南语的高性能令牌生成器
文件大小:55.68MB
文件格式:ZIP
更新时间:2021-04-29 18:41:11
C++ 越南语的C ++标记程序 该项目提供了用于越南语的令牌化程序库,以及两个用于令牌化的命令行工具以及一些简单的针对越南语的文本操作(即删除变音符号)。 它在CốcCốc搜索和广告系统中使用,其发展的主要目标是达到高性能,同时保持合理质量以满足搜索排名需求。 正在安装 从源代码构建并安装到沙箱(或系统)中: $ mkdir build && cd build $ cmake .. # make install 要包括Java绑定: $ mkdir build && cd build $ cmake -DBUILD_JAVA=1 .. # make install 要包括python绑定-安装软件包并编译包装器代码(仅支持Python3): $ mkdir build && cd build $ cmake -DBUILD_PYTHON=1 .. # make install 可以使用de
【文件预览】:
coccoc-tokenizer-master
----.clang-format(663B)
----.gitignore(52B)
----CMakeMacro.cmake(9KB)
----dicts()
--------tokenizer()
--------vn_lang_tool()
----LICENSE(7KB)
----tokenizer()
--------config.h.in(351B)
--------tokenizer.hpp(35KB)
--------auxiliary()
--------token.hpp(3KB)
--------helper.hpp(2KB)
----debian()
--------compat(2B)
--------control(1024B)
--------coccoc-tokenizer-java.install(23B)
--------coccoc-tokenizer.install(40B)
--------changelog(1KB)
--------rules(763B)
----utils()
--------tokenizer.cpp(5KB)
--------vn_lang_tool.cpp(3KB)
--------dict_compiler.cpp(9KB)
----java()
--------src()
--------build_java.sh(890B)
----README.md(10KB)
----python()
--------setup.py(778B)
--------build_python.sh(418B)
--------CocCocTokenizer.pyx(2KB)
----CMakeLists.txt(3KB)
----RELEASE.md(1KB)

网友评论