文件名称:sumerian-lemmaparser:使用词形还原词性信息标记 Sumerian 语料库
文件大小:180KB
文件格式:ZIP
更新时间:2024-07-14 12:00:23
Python
sumerian-lemmaparser 分析 Sumerian 语料库以将它包含的任何引理与引理行所指的单词相关联。 例如,在语料库中,尤其是对于较旧的音译,在每一行音译文本之后都有引理注释,例如: 4. GAN2 ur-{gesz}gigir nu-banda3 gu4 #lem: iku[unit]; PN; nubanda[overseer]; gud[ox] 这些引理对学习语言非常有帮助,但也可用于测试自然语言算法以测试回忆。 在上述情况下,音译的苏美尔语词与其词干匹配,并识别个人姓名 (PN)。 这个存储库创建了一个“迷你外壳”,它从 CDLI、楔形文字数字图书馆倡议 ( ) 下载和解压缩苏美尔语料库,解压缩它,解析语料库以关联它包含的任何引理使用引理描述的行,然后提供一个类似 shell 的界面来查询数据。 要开始,请执行make all以下载和准备语料库。 然后
【文件预览】:
sumerian-lemmaparser-master
----window_pn.py(4KB)
----rmNoise.py(11KB)
----prepare.py(7KB)
----cdli_months.txt(579B)
----tablet.py(4KB)
----tag.py(5KB)
----baseline.py(5KB)
----false_positive.py(974B)
----hide_pos.py(3KB)
----patterns.py(4KB)
----window.py(4KB)
----README.md(4KB)
----generate_corpus.py(2KB)
----Makefile(16KB)
----fp.txt(376KB)
----tag_corpus.py(17KB)
----tag_words.py(13KB)