Dongqiudi:Dongqiudi App的爬网和分析

时间:2021-05-18 15:55:51
【文件属性】:
文件名称:Dongqiudi:Dongqiudi App的爬网和分析
文件大小:858KB
文件格式:ZIP
更新时间:2021-05-18 15:55:51
Python Dongqiudi 这是对"懂球帝"App的数据爬虫与分析。 技术栈: 首先使用 软件Charles 抓包懂球帝App的各个API: 球队信息API: 和 获取 Article ID 的 API: 获取评论用户的API: 获取用户信息的API: 先获取最近5000页的10w篇article,然后获取这些article评论区的用户,再爬取这些用户的个人数据。 使用 Requests 库来爬取数据,其中爬取评论区的用户ID时间比较长,而且只能串行不可并行,需要有断点继续机制。爬取到60w用户ID后,可以并行来获取这些用户的个人数据。 所有数据存储在本地的sqlite3数据库中。 使用PyEcharts来进行数据可视化,其中分词部分使用。 1. 数据准备 将所有数据存储在 sqlite3 中。 数据包括: 球队信息列表。 共 144 个球队,存储在 team 表。 近期的文章列表。 一共提取
【文件预览】:
Dongqiudi-master
----util.py(4KB)
----crawl.py(9KB)
----img()
--------英超.png(68KB)
--------加入时间.png(44KB)
--------国内懂球帝分布.png(102KB)
--------海外懂球帝分布.png(150KB)
--------意甲.png(61KB)
--------性别.png(28KB)
--------echarts.png(250KB)
--------国家队.png(46KB)
--------俱乐部.png(49KB)
--------中超.png(73KB)
----stop_words.txt(17KB)
----analysis.py(10KB)
----dict.txt(39B)
----requirements.txt(49B)
----README.md(3KB)
----.gitignore(30B)

网友评论