【文件属性】:
文件名称:BERT:直接实施BERT
文件大小:8.5MB
文件格式:ZIP
更新时间:2021-04-19 13:29:18
Python
伯特与罗伯塔
RoBERTa不利用NSP损失(采用此方法)
利用动态고정된 Masking蒙版(我将只使用고정된 Masking )
Pretrain-MLM + NSP(将使用Namuwiki数据对数据进行预训练+ NSMC将进行微调)
使用namuwikiextrator提取Namuwiki数据
仅使用50,000个文档(大约500万个句子)
评论
BERT论文中提到的顺序是一个句子或两个句子包装在一起
令牌嵌入:使用WordPiece
由句子组成
嵌入包括令牌嵌入+段嵌入+位置嵌入
段嵌入:适用于成对句子(也可以使用QnA)
传销
在序列的15%中被选为[MASK]的候选者 :check_mark: 由于仅使用15%的损失,因此比LM需要更多的步骤。
80%: [MASK]
my dog is hairy -> my dog is [MASK]
10%:原样 :check_box_with_check: 这样表示就可以反映现实(偏
【文件预览】:
BERT-main
----README.md(7KB)
----finetunning.md(2KB)
----namuwiki_preprocessing.py(1KB)
----model.py(8KB)
----img()
--------bert train.png(3KB)
--------ln.png(32KB)
--------eq2.png(6KB)
--------eq3.png(11KB)
--------eq4.png(6KB)
--------transformer.png(64KB)
--------mlm total loss.png(9KB)
--------embedding.png(57KB)
--------bert.png(136KB)
--------nsp_loss.png(10KB)
--------bnln.png(66KB)
--------eq1.png(7KB)
--------transformerencoder.png(44KB)
--------gelu.png(7KB)
----embedding.py(2KB)
----train_bert_new.py(5KB)
----data()
--------ratings_test.txt(4.67MB)
--------ratings_train.txt(13.95MB)
--------read.me(84B)
----dataset_new.py(8KB)
----tokenizer.py(1KB)