【文件属性】:
文件名称:mctest:MCTest 数据集和模型
文件大小:1.14MB
文件格式:ZIP
更新时间:2021-07-13 05:41:16
Python
MCTest 数据集
用于在 MCTest 数据集上进行问答的基线模型以及更复杂的模型。
依赖项:
protobuf
numpy
pandas
nltk
可以从创建的模型文件中使用。
运行基线模型
首先,克隆 repo 并编译 protobuf:
git clone https://github.com/mcobzarenco/mctest.git
cd mctest
protoc --python_out=. mctest.proto
要解析原始数据(dev + train 组合),请删除停用词并将其保存为长度分隔的 protobuf 平面文件:
cat data/MCTest/mc160.dev.tsv data/MCTest/mc160.train.tsv | \
./parse.py --rm-stop data/stopwords.txt -o proto >
【文件预览】:
mctest-master
----.gitignore(358B)
----parse.py(8KB)
----data()
--------MCTest()
--------stopwords.txt(4KB)
--------MCTestAnswers()
----mctest.proto(1KB)
----baseline-embed.py(5KB)
----README.md(2KB)
----baseline.py(6KB)