【文件属性】:
文件名称:web-crawler:使从动态网页中提取数据变得容易
文件大小:19KB
文件格式:ZIP
更新时间:2021-06-27 10:10:07
JavaScript
网络爬虫
web-crawler允许您以强大而方便的方式从动态网页中提取数据。 这可以通过使用 - 一个无头浏览器 - 将您的抓取代码注入正在运行的页面中。 为了处理复杂的场景,操作序列被表示为一个状态机。
用法
考虑您当地电影院的动态分页网页。 它的 HTML 看起来像这样:
< html >
< head >
< title > The Local Cinema </ title >
< script >
// a script that performs AJAX requests to dynamically load
// and display new pages, depending on the users clicks
</ script >
</ head >
< body >
< h1> The Local Cinema - To
【文件预览】:
web-crawler-master
----.gitignore(4B)
----README.md(11KB)
----examples()
--------README.md(2KB)
--------extract-movie-titles.js(1KB)
--------extract-shop-items.js(1KB)
--------pages()
--------extract-movies.js(3KB)
--------serve-shop-items.js(983B)
----LICENSE(1KB)
----lib()
--------sm.js(4KB)
--------util.js(7KB)