【文件属性】:
文件名称:XLM:PyTorch跨语言模型预训练的原始实现
文件大小:110KB
文件格式:ZIP
更新时间:2021-05-02 09:54:26
Python
XLM
新增:添加了模型。
PyTorch训练的原始实现。 包括:
XLM支持多GPU和多节点训练,并包含以下代码:
语言模型预训练:
因果语言模型(CLM)
屏蔽语言模型(MLM)
翻译语言模型(TLM)
胶微调
XNLI微调
有监督/无监督的机器翻译培训:
去噪自动编码器
并行数据训练
在线回译
安装
使用可编辑模式安装python软件包
pip install -e .
依存关系
的Python 3
(当前在版本0.4和1.0上测试)
(生成并应用BPE代码)
(仅用于清理和标记文本的脚本-无需安装)
(用于fp16培训)
I.单语语言模型预训练(BERT)
在下面的内容中,我们将说明如何下载和使用我们的预训练的XLM(仅英语)BERT模型。 然后,我们解释了如何训练自己的单语言模型,以及如何在GLUE任务上对其进行微调。
预先训练的英语模型
我
【文件预览】:
XLM-master
----prepare-xnli.sh(3KB)
----glue-xnli.py(4KB)
----xlm()
--------model()
--------evaluation()
--------utils.py(10KB)
--------__init__.py(0B)
--------slurm.py(6KB)
--------optim.py(10KB)
--------data()
--------logger.py(2KB)
--------trainer.py(36KB)
----get-data-glue.sh(6KB)
----train.py(15KB)
----generate-embeddings.ipynb(9KB)
----PKM-layer.ipynb(13KB)
----get-data-xnli.sh(3KB)
----src(3B)
----translate.py(5KB)
----get-data-para.sh(7KB)
----prepare-glue.sh(2KB)
----CONTRIBUTING.md(572B)
----LICENSE(19KB)
----tools()
--------tokenize.sh(1KB)
--------segment_th.py(355B)
--------README.md(845B)
--------lowercase_and_remove_accent.py(1KB)
----setup.py(280B)
----README.md(38KB)
----get-data-nmt.sh(15KB)
----CODE_OF_CONDUCT.md(244B)
----.gitignore(2KB)
----preprocess.py(1KB)
----install-tools.sh(2KB)
----get-data-wiki.sh(2KB)