【文件属性】:
文件名称:webporter:基于 webmagic 的 Java 爬虫应用
文件大小:66KB
文件格式:ZIP
更新时间:2021-05-15 10:05:38
elasticsearch kibana zhihu Java
webporter
webporter 是一个基于垂直爬虫框架 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。
webporter 寓意“我们不生产数据,我们只是互联网的搬运工~”
如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。
目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork
webporter 的主要特色:
基于国产 Java 爬虫框架 webmagic,是众多 Python 爬虫中的一股清流
完全模块化的设计,强大的可扩展性
核心简单,但是涵盖爬虫应用的完整流程,是爬虫应用的实践样例
使用 JSON 配置,无需改动源码
支持多线程
支持向 Elasticsearch 批量导入
注意:webporter 不是爬虫框架,而是如何使用爬虫框架进行实战的样例