【文件属性】:
文件名称:arche:分析抓取的数据
文件大小:3.37MB
文件格式:ZIP
更新时间:2021-02-05 06:20:28
data jupyter pandas data-visualization python3
拱门
pip install arche
Arche(发音为Arkey )有助于使用一组已定义的规则来验证刮取的数据,例如:
验证
覆盖范围(项目,字段,分类数据,包括布尔值和枚举)
重复项
垃圾符号
两个工作的比较
除了其他工具,我们还在Scrapinghub中使用了它,以确保抓取数据的质量
安装
Arche需要环境,同时支持和 UI
对于JupyterLab,您将需要正确安装
然后只需pip install arche
为什么
连续检查抓取数据的质量。 例如,如果您抓取了一个网站,则典型的方法是使用Arche验证数据。 您还可以创建一个架构,然后设置
开发人员设定
pipenv
【文件预览】:
arche-master
----setup.cfg(1KB)
----README.md(2KB)
----.github()
--------workflows()
----tests()
--------conftest.py(7KB)
--------test_arche.py(9KB)
--------test_bitbucket.py(3KB)
--------test_report.py(4KB)
--------test_conftest.py(781B)
--------test_integration.py(526B)
--------tools()
--------rules()
--------test_dqr.py(835B)
--------readers()
----docs()
--------source()
----LICENSE(1KB)
----CHANGES.md(6KB)
----.bumpversion.cfg(265B)
----Pipfile(1KB)
----src()
--------arche()
----setup.py(39B)
----.travis.yml(1KB)
----tox.ini(1KB)
----.readthedocs.yml(242B)