plur:NLP中代表性不足的语言的预训练语言模型

时间:2021-02-20 07:12:43
【文件属性】:
文件名称:plur:NLP中代表性不足的语言的预训练语言模型
文件大小:2KB
文件格式:ZIP
更新时间:2021-02-20 07:12:43
nlp flair elmo under-represented plur:P重新训练ünder-内容r L anguage模型epresented语言 该存储库包含针对NLP中代表性不足的语言的预训练语言模型。 语言模型适用于Flair和ELMo(即将推出:XLNet)。 使用Flair在NER和PoS标记下游任务上评估所有受过训练的语言模型。 巴斯克 语料库 Flair Embeddings和ELMo在最近的Wikipedia转储中接受了培训,并从OPUS和Leipzig Corpora Collection中收集了各种文本。 一些统计: 代币数量:57,110,741(未标记),72,683,662(已标记) 大小:417M(未标记),440M(已标记) 切记:Flair嵌入在原始和未标记的文本上受过训练,因此不需要标记化。 与ELMo相比,底层语言模型是基于字符的模型:ELMo需要标记化输入。 对于令牌化,我们使用了一个非常简单的令牌化
【文件预览】:
plur-master
----README.md(8KB)

网友评论