文件名称:github-typo-corpus:GitHub Typo语料库
文件大小:77KB
文件格式:ZIP
更新时间:2024-05-14 03:10:14
Python
GitHub Typo语料库 大规模的多语言拼写错误和语法错误数据集 人和 介绍 您是那种在编写代码时经常打错字的人吗? 或者,您是通过提交“修正拼写错误”来修复它们的人吗? 无论哪种方式,谢谢您-您为NLP领域的最新技术做出了贡献。 GitHub Typo Corpus是大规模拼写错误和语法错误的数据集,以及从GitHub收集的更正。 它包含超过15万种语言的超过350k的编辑和65M字符,使其成为迄今为止最大的拼写错误数据集。 有关更多信息,请参见。 数据集 数据集采用JSONL格式,每行一个提交对象。 这是数据集中的提交对象的示例: { "repo": "https://github.com/user/repository", "commit": "08d8049...", "message": "Edit document.txt; fix a typo",
【文件预览】:
github-typo-corpus-master
----.github()
--------FUNDING.yml(18B)
----src()
--------collect_repositories.py(2KB)
--------extract_diffs.py(4KB)
----overview.png(73KB)
----README.md(3KB)