【文件属性】:
文件名称:simalign:使用预训练的语言模型(例如,mBERT)获得单词对齐
文件大小:51KB
文件格式:ZIP
更新时间:2021-04-23 09:39:52
Python
SimAlign:基于相似度的单词对齐器
SimAlign是一种高质量的单词对齐工具,它使用静态和上下文化的嵌入,并且不需要并行训练数据。
下表显示了它与流行的统计对齐模型的比较:
消费电子展
ENG-DEU
英文
英文
英轩
英伦
快速对齐
.78
.71
.46
.84
.38
.68
股骨的
.85
.77
.63
.93
.52
.72
mBERT-精氨酸
.87
.81
.67
.94
.55
.65
显示的是F1,子词和词级别的最大值。 有关更多详细信息,请参见。
安装及使用
已在Python 3.7,Transformers 3.1.0,Torch 1.5.0中进行了测试。 Networkx 2.4是可选的(仅匹配算法需要)。 有关依赖项的完整列表,请参见setup.py 。 有关安装变压器的信息,请参见其。
下载回购协议以供使用
【文件预览】:
simalign-master
----setup.py(676B)
----requirements.txt(1B)
----assets()
--------example.png(40KB)
----LICENSE(1KB)
----examples()
--------visualize.py(4KB)
--------align_example.py(303B)
--------align_files.py(9KB)
----README.md(5KB)
----simalign()
--------__init__.py(55B)
--------utils.py(600B)
--------simalign.py(9KB)