【文件属性】:
文件名称:company-crawler:天眼查爬虫&企查查爬虫,指定关键字爬取公司信息
文件大小:17KB
文件格式:ZIP
更新时间:2021-05-12 13:38:03
proxy python3 ua qichacha web-spider
天眼查、企查查
公司信息爬虫
使用说明
设置数据源
MysqlConfig = {
'develop': {
'host': '192.168.1.103',
'port': 3306,
'db': 'enterprise',
'username': 'root',
'password': 'root@123'
}
}
执行db/data.sql生成数据结构
配置IP代理config/settings
# 全局代理控制
GLOBAL_PROXY = True
PROXY_POOL_URL = "http://localhost:5010"
设置爬取关键字qichacha&tianyancha
keys = ['Google'] # 设置爬取列表
crawler.load_keys(keys)
c
【文件预览】:
company-crawler-master
----config()
--------__init__.py(697B)
--------settings.py(416B)
----db()
--------models.py(2KB)
--------mysql_connector.py(3KB)
--------__init__.py(126B)
--------data.sql(4KB)
----qichacha.py(346B)
----tianyancha()
--------client.py(4KB)
--------__init__.py(950B)
--------crawler.py(573B)
----LICENSE(1KB)
----qichacha()
--------manager.py(2KB)
--------client.py(1KB)
--------__init__.py(2KB)
--------crawler.py(1KB)
----requirements.txt(60B)
----.gitignore(1KB)
----tianyancha.py(317B)
----README.md(944B)
----util()
--------wechat_auth.py(544B)
--------httpclient.py(917B)
--------__init__.py(126B)
--------log.py(762B)
--------date.py(348B)