【文件属性】:
文件名称:国外java源码网站-SABLE:学习辅助抓取
文件大小:4.77MB
文件格式:ZIP
更新时间:2021-06-06 17:53:15
系统开源
国外java源码网站黑貂
此自述文件正在进行中。
介绍
SABLE
代表
Scraping
Assisted
by
Learning,是一组用于网络爬行和网络抓取的工具。
一些元素涉及监督机器学习来执行文本分类。
这个想法是在网络上发现潜在的
PDF
格式的新数据源,应用文本分类模型来预测
PDF
是否包含有用的数据,然后使用模板、文本分析和其他模型抓取数据。
SABLE
最初开发用于从州和地方*网站上抓取税收数据,但已应用于其他设置,例如在外国国家统计机构的网站上查找人口和住房统计数据。
软件
SABLE
基于以下开源软件:
(命令行实用程序)
(命令行实用程序)
(版本
1.15)
(版本
3.6)
(自然语言工具包)
Linux
命令行实用程序
wget
和
pdftotext
分别用于下载文档和将
PDF
转换为
TXT
格式。
Apache
Nutch
是一种基于
Java
的网络爬虫,用于爬取网站、发现
PDF
以及编译用于模型构建的训练文档集。
Python
用于从
PDF
中抓取数据和文本,并根据各种监督机器学习算法(如朴素贝叶斯、逻辑回归和随机森林)拟合和评估文本分