【文件属性】:
文件名称:pulsar:使用简单SQL将大型网站转换为表格和图表
文件大小:9.05MB
文件格式:ZIP
更新时间:2021-04-28 22:59:26
data-science web-crawler selenium web-scraping web-mining
Pulsar自述文件
Web是您自己的数据库。
使用简单SQL将Web变成表格和图表。
其他语言
特征
X-SQL:扩展SQL以管理Web数据:Web爬网,抓取,Web内容挖掘,Web上的BI。
Web Spider:浏览器渲染,Ajax,调度,页面评分,监视,分布式,高性能,按Solr / Elastic编制索引
BI集成:仅使用一个简单SQL即可将大型网站转换为表格和图表
大数据:大规模,各种存储:HBase / MongoDB
有关更多信息,请查看
X-SQL
抓取产品页面:
select
dom_first_text(dom, '#productTitle') as `title`,
dom_first_text(dom, '#price tr td:contains(List Price) ~ td') as `listprice`,
dom_f