时间:2021-02-24 09:23:59
【文件属性】:
文件名称:葛
文件大小:67KB
文件格式:ZIP
更新时间:2021-02-24 09:23:59
Ruby 葛 一个简单的Ruby网络爬虫。 特征 运行单线程或多线程。 池HTTP连接。 通过基于url的模式限制链接。 尊重robots.txt。 通过适配器存储页面内容。 依存关系 Ruby2.3+ 利比库 安装 添加到您的应用程序的Gemfile中: gem 'kudzu' 然后运行: $ bundle install 用法 在example.com抓取html文件: crawler = Kudzu :: Crawler . new do user_agent 'YOUR_AWESOME_APP' add_filter do focus_host true allow_mime_type %w( text/html ) end end crawler . run ( 'http://example.com/' ) do on_success d

网友评论