【文件属性】:
文件名称:spiderman:基于scrapy-redis的通用分布式爬虫框架
文件大小:64KB
文件格式:ZIP
更新时间:2021-03-19 13:18:27
kafka hive hbase scrapy spiderman
蜘蛛侠
基于scrapy-redis的通用分布式爬虫框架
目录
demo采集效果
爬虫元数据
集群模式
独立模式
附件下载
kafka实时采集监控
功能
自动建表
自动生成爬虫代码,只需编写少量代码即可完成分布式爬虫
自动存储元数据,分析统计和补爬都很方便
适合多站点开发,每个爬虫独立定制,互不影响
调用方便,可以根据传参自定义采集的页数以及启用的爬虫数量
扩展简易,可以根据需要选择采集模式,单机Standalone(替代)或分布式集群
采集数据落地方便,支持多种数据库,只需在spider中启用相关的管道
关系型
MySQL的
sqlserver
Oracle
PostgreSQL
sqlite3
非关系型
基础
mongodb
弹性搜索
高清文件
蜂巢
数据文件,例如csv
反爬处理简易,已封装各种反爬中间件
随机UserAgent
定制请求头
定制饼干池
定制代理ip
在
【文件预览】:
spiderman-master
----test_html.py(2KB)
----SP_JOBS()
--------job.py(4KB)
--------zhifang_job.py(2KB)
--------__init__.py(111B)
--------zhifang_job_patch.py(3KB)
----kafka_mon.py(1KB)
----scrapy.cfg(247B)
----SP()
--------pipelines()
--------spiders()
--------items()
--------__init__.py(0B)
--------settings.py(6KB)
--------scrapy_redis_extensions.py(3KB)
--------utils()
--------bloom_dupefilter.py(3KB)
--------middlewares()
----easy_meta.py(4KB)
----requirements.txt(1KB)
----.gitignore(67B)
----execute_download.py(5KB)
----api.py(4KB)
----README.md(14KB)
----easy_scrapy.py(17KB)
----download.py(7KB)