文件名称:nlu_sim:all kinds of baseline models for sentence similarity 句子对语义相似度模型
文件大小:17.28MB
文件格式:ZIP
更新时间:2024-05-28 07:17:52
qa word2vec nlu question-answering semantic-similarity
NLU相似度 用于用一对句子对任务进行建模的各种基线模型:语义文本相似度(STS),自然语言推理(NLI),释义识别(PI),问题回答(QA)。 1.描述 该存储库包含一些模型,这些模型可以学习为自然语言理解任务检测句子相似度。 有两种不同的模型: 基于句子编码的模型,该模型将各个句子的编码分开, 允许使用两个句子的编码的联合方法(使用跨功能或从一个句子到另一个句子的注意力) 我们将尝试涵盖这两种方法。 在此处查找有关任务,数据或什至开始AI完成的更多信息: 2.数据处理:数据增强和分词策略 句子的长度。 5代表少于5; 10代表大于5且小于10 .csv文件中的源数据。 数据格式:line_no,sentence1,sentence2,label。 4列用“ \ t”分隔 001\t question1\t question2\t label {5:0.113887053
【文件预览】:
nlu_sim-master
----a1_dual_bilstm_cnn_predict_ensemble.py(7KB)
----a1_dual_bilstm_cnn_train.py(19KB)
----utils()
--------main.py(244B)
--------__init__.py(0B)
--------train_instruct.md(1KB)
--------avg_checkpoint.py(5KB)
----a1_dual_bilstm_char_predict.py(6KB)
----data_util.py(21KB)
----data_mining()
--------__init__.pyc(159B)
--------__init__.py(0B)
--------data_util_tfidf.py(4KB)
--------data_util_stats_word_freq.py(5KB)
--------data_util_stats.py(924B)
--------data_util_tfidf.pyc(3KB)
----run.sh(42B)
----a1_dual_bilstm_cnn_model.py(52KB)
----data_util_test.py(13KB)
----weight_boosting.py(3KB)
----README.md(17KB)
----main_ensemble.py(3KB)
----data()
--------result_20180528_2.csv(91B)
--------word2vec.txt(3.08MB)
--------result13-3.csv(91B)
--------result_20180526.csv(91B)
--------atec_nl_sim_tfidf.txt(117KB)
--------stacked_shortcut_biLSTM.jpg(306KB)
--------atec_nlp_sim_train.csv(3.36MB)
--------fasttext_fin_model_50.vec(12.87MB)
--------enhanced_sequential_inference_model.jpg(251KB)
--------atec_nl_sim_train.txt(7.11MB)
--------result20180528.csv(91B)
--------result13.csv(91B)
--------test.csv(2KB)
--------nlu_similiarity.jpg(125KB)
--------log_predict_error_1_label1predict0_20.txt(817KB)
--------atec_nlp_sim_train2.csv(8.79MB)
--------log_predict_error.txt(21.01MB)
--------resulttt.csv(91B)
--------atec_nlp_sim_train_add.csv(5.43MB)