【文件属性】:
文件名称:BERT_MRC_CLS
文件大小:99KB
文件格式:ZIP
更新时间:2021-04-18 22:18:57
Python
任务目标
一篇新闻属于哪个类别(时政、科技、娱乐.....)
核心技术
TextRank召回长文本中top-3个关键句;对LSTM使用残差网络;为BERT设置损失函数bert_loss
特征工程
长文本处理:
使用TextRank召回top-3个关键句以代表整篇新闻。
TextRank算法是PageRank的改进,将每个句子视为一个顶点,句子之间的连接视为边,建立一张图,通过计算边的值得到权重进而召回top-k个关键句。
该任务中,新闻的内容呈现规律是开头和结尾是点睛之笔,因此我们截取开头和结尾召回核心内容:前128个字 和 后 382个字。
2种召回方法在该任务中结果相差不大,但是使用TextRank召回top-k个关键句则更具泛化性。
Pooling:BERT 12层隐藏层的向量进行加权
Ganesh Jawahar等人[3]证明BERT每一层对文本的理解都不同,因此将BERT的十二层
【文件预览】:
BERT_MRC_CLS-main
----MRC_Reading comprehension()
--------train_fine_tune.py(12KB)
--------down_layer()
--------tokenization.py(22KB)
--------utils.py(8KB)
--------predict.py(6KB)
--------requirements.txt(1KB)
--------optimization.py(13KB)
--------model.py(10KB)
--------snippts.py(13KB)
--------config.py(3KB)
--------README.md(10KB)
--------NEZHA()
----README.md(7KB)
----text_classification()
--------train_fine_tune.py(12KB)
--------utils.py(6KB)
--------predict.py(3KB)
--------preprocess()
--------optimization.py(13KB)
--------model.py(20KB)
--------snippts.py(40KB)
--------config.py(2KB)
--------README.md(7KB)
--------NEZHA()
--------postprocess()