sumerian-lemmaparser:使用词形还原词性信息标记 Sumerian 语料库下载

【文件属性】：

文件名称：sumerian-lemmaparser:使用词形还原词性信息标记 Sumerian 语料库

文件大小：180KB

文件格式：ZIP

更新时间：2024-07-14 12:00:23

Python

sumerian-lemmaparser 分析 Sumerian 语料库以将它包含的任何引理与引理行所指的单词相关联。例如，在语料库中，尤其是对于较旧的音译，在每一行音译文本之后都有引理注释，例如： 4. GAN2 ur-{gesz}gigir nu-banda3 gu4 #lem: iku[unit]; PN; nubanda[overseer]; gud[ox] 这些引理对学习语言非常有帮助，但也可用于测试自然语言算法以测试回忆。在上述情况下，音译的苏美尔语词与其词干匹配，并识别个人姓名 (PN)。这个存储库创建了一个“迷你外壳”，它从 CDLI、楔形文字数字图书馆倡议 ( ) 下载和解压缩苏美尔语料库，解压缩它，解析语料库以关联它包含的任何引理使用引理描述的行，然后提供一个类似 shell 的界面来查询数据。要开始，请执行make all以下载和准备语料库。然后

立即下载

【文件预览】：
sumerian-lemmaparser-master
----window_pn.py(4KB)
----rmNoise.py(11KB)
----prepare.py(7KB)
----cdli_months.txt(579B)
----tablet.py(4KB)
----tag.py(5KB)
----baseline.py(5KB)
----false_positive.py(974B)
----hide_pos.py(3KB)
----patterns.py(4KB)
----window.py(4KB)
----README.md(4KB)
----generate_corpus.py(2KB)
----Makefile(16KB)
----fp.txt(376KB)
----tag_corpus.py(17KB)
----tag_words.py(13KB)

秒客网

sumerian-lemmaparser:使用词形还原词性信息标记 Sumerian 语料库

网友评论

相关文章