文件名称:IDSpiece:具有CHISE-IDS的表意令牌生成器
文件大小:2.64MB
文件格式:ZIP
更新时间:2024-04-09 05:16:32
Python
IDS件 具有表意描述序列的汉字/汉字标记器(来自 。 仅使用九个IDC(U + 2FF0,U + 2FF1,U + 2FF4至U + 2FFA)。 IDC永远不会在另一个IDC之后立即发生。 在IDC之后,最好立即使用Kanxi Radicals和Supplement(U + 2E80至U + 2FD5)。 否则,首选CJK统一表意文字和扩展A(U + 3400至U + 9FFC)。 基本用法 >> > from idspiece import idstable >> > def tokenize ( text ): ... tokens = [] ... while text > "" : ... c = text [ 0 ] ... if c in idstable : ... tokens . append ( idstable [ c ][
【文件预览】:
IDSpiece-main
----idspiece()
--------cjk2.py(2MB)
--------cjk1.py(211KB)
--------cjk0.py(620KB)
--------__init__.py(260B)
--------idstable.py(172B)
--------cjk3.py(159KB)
----chise-ids()
--------IDS-UCS-Ext-B-4.txt(231KB)
--------cjk2.py(2MB)
--------IDS-UCS-Ext-E.txt(137KB)
--------radicals.txt(3KB)
--------IDS-UCS-Compat-Supplement.txt(16KB)
--------IDS-UCS-Ext-G.txt(115KB)
--------IDS-UCS-Ext-C.txt(110KB)
--------IDS-UCS-Ext-B-6.txt(48KB)
--------cjk1.py(211KB)
--------samechar.txt(85B)
--------IDS-UCS-Ext-B-2.txt(234KB)
--------IDS-UCS-Ext-D.txt(7KB)
--------makecjk.sh(854B)
--------cjk0.py(620KB)
--------IDS-UCS-Ext-B-5.txt(229KB)
--------txt2py.py(2KB)
--------IDS-UCS-Ext-B-3.txt(231KB)
--------IDS-UCS-Basic.txt(437KB)
--------IDS-UCS-Ext-A.txt(139KB)
--------ampersand.txt(21KB)
--------cjk3.py(159KB)
--------IDS-UCS-Compat.txt(10KB)
--------IDS-UCS-Ext-B-1.txt(235KB)
--------IDS-UCS-Ext-F.txt(203KB)
----upload.sh(125B)
----setup.py(874B)
----README.md(1KB)
----LICENSE.txt(34KB)