headless-chrome-crawler:由Headless Chrome驱动的分布式搜寻器

时间:2021-01-30 00:20:06
【文件属性】:
文件名称:headless-chrome-crawler:由Headless Chrome驱动的分布式搜寻器
文件大小:103KB
文件格式:ZIP
更新时间:2021-01-30 00:20:06
jquery crawler chrome scraper promise 无头Chrome履带 | | | 由无头Chrome驱动的分布式搜寻器 产品特点 基于对HTML文件的简单请求的爬网程序通常很快。 但是,有时它最终会捕获空的主体,尤其是当网站建立在 , 和类的现代前端框架上时。 借助无头Chrome浏览器,该搜寻器提供了 ,可通过以下功能来搜寻这些动态网站: 分布式爬网 配置并发,延迟和重试 支持和算法 可插拔缓存存储,例如 支持和以导出结果 在最大请求数时暂停并随时恢复 自动插入以进行抓取 保存抓取证据的屏幕截图 模拟设备和用户代理 优先队列以提高爬网效率 遵守 关注 [承诺]支持 入门 安装 yarn add headless-chrome-crawler # or "npm i headless-chrome-crawler" 注意:headless-chrome-crawler包含 。 在安装过程中,它会自动下载Chromium的最新版本。 要跳过下载,请参阅 。 用法 const HCCrawler = require ( 'headless-chrome-crawler' ) ; ( async ( ) => { con
【文件预览】:
headless-chrome-crawler-master
----.gitignore(91B)
----Dockerfile(1KB)
----package.json(2KB)
----commitlint.config.js(70B)
----exporter()
--------json-line.js(560B)
--------csv.js(1KB)
--------base.js(964B)
----LICENSE(1KB)
----index.js(45B)
----tsconfig.json(172B)
----examples()
--------pause-resume.js(568B)
--------custom-crawl.js(932B)
--------redis-cache.js(1KB)
--------custom-exporter.js(862B)
--------conditional-screenshot.js(856B)
--------.eslintrc.js(182B)
--------override-function.js(508B)
--------priority-queue.js(479B)
--------emulate-device.js(546B)
--------custom-cache.js(2KB)
--------csv-exporter.js(474B)
--------multiple-queue.js(548B)
----.eslintrc.js(323B)
----cache()
--------redis.js(4KB)
--------session.js(2KB)
--------.eslintrc.js(97B)
--------base.js(1KB)
----README.md(6KB)
----lib()
--------hccrawler.js(17KB)
--------crawler.js(7KB)
--------puppeteer.d.ts(155B)
--------types()
--------priority-queue.js(2KB)
--------helper.js(5KB)
--------async-events.js(404B)
----.circleci()
--------config.yml(538B)
----tmp()
--------.gitkeep(0B)
----docs()
--------ISSUE_TEMPLATE.md(321B)
--------CONTRIBUTING.md(1KB)
--------CODE_OF_CONDUCT.md(3KB)
--------CHANGELOG.md(11KB)
--------TIPS.md(3KB)
--------API.md(24KB)
----test()
--------priority-queue()
--------server()
--------async-events.test.js(2KB)
--------hccrawler()
--------.eslintrc.js(198B)
--------cache()
--------exporter.test.js(10KB)
--------helper.test.js(13KB)
----.editorconfig(182B)
----yarn.lock(158KB)

网友评论