【文件属性】:
文件名称:葛
文件大小:67KB
文件格式:ZIP
更新时间:2021-02-24 09:23:59
Ruby
葛
一个简单的Ruby网络爬虫。
特征
运行单线程或多线程。
池HTTP连接。
通过基于url的模式限制链接。
尊重robots.txt。
通过适配器存储页面内容。
依存关系
Ruby2.3+
利比库
安装
添加到您的应用程序的Gemfile中:
gem 'kudzu'
然后运行:
$ bundle install
用法
在example.com抓取html文件:
crawler = Kudzu :: Crawler . new do
user_agent 'YOUR_AWESOME_APP'
add_filter do
focus_host true
allow_mime_type %w( text/html )
end
end
crawler . run ( 'http://example.com/' ) do
on_success d