Python爬虫豆瓣国产电视剧

时间:2024-03-17 09:24:44

开发工具

**Python版本:**3.6.4
相关模块:
pyecharts模块;
selenium模块;
以及一些Python自带的模块
其他:
chromedriver。

豆瓣国产电视剧相关文件

关注并转发后私信回复“豆瓣国产”获取。

开发环境

安装Python并添加到环境变量,pip安装需要的相关模块即可。

原理简介

一. 数据爬取
首先,我们来采集一下豆瓣里的国产电视剧基本信息,包括电视剧名、豆瓣评分和豆瓣详情页链接,如下图所示:

Python爬虫豆瓣国产电视剧

用Selenium爬的,代码实现起来很简单:

Python爬虫豆瓣国产电视剧

然后根据上面爬取到的国产电视剧基本信息,来爬取每部国产电视剧的详细信息:

Python爬虫豆瓣国产电视剧

代码依旧很简单,用XPath提取的信息(T_T我尽量每次用不同的方法来爬数据):

Python爬虫豆瓣国产电视剧

最后大概爬了几千条数据吧。
二. 数据处理与可视化
老规矩,还是利用pyecharts来实现爬取到的数据的可视化分析。
That’s all,完整源代码详见相关文件。

结果展示

一. 数据爬取
运行Spider1.py文件即可爬取豆瓣里的国产电视剧基本信息;
运行Spider2.py文件即可爬取每部国产电视剧的详细信息。
最后获得的数据大概就这么多:

Python爬虫豆瓣国产电视剧

二. 数据处理与可视化
注:因为爬到最后被豆瓣给禁了,所以部分数据有丢失。
(1)TOP/BOTTOM10
首先让我们来看看国产电视剧里豆瓣评分TOP10和BOTTOM10吧:

Python爬虫豆瓣国产电视剧

Python爬虫豆瓣国产电视剧

上面的数据应该还是可以看出点东西的吧,具体什么东西就不讲了。BOTTOM10就不管了,估计会辣眼睛。我们来看看TOP2在豆瓣里的介绍是什么呗:
走向共和-9.7:
“19世纪末到20世纪初,这当中的二三十年说短不短说长也不长。对于中国,则是风云变化的几十年。在这当中,中国自二次鸦片战争后,又经历了洋务运动、甲午战争、戊戌变法、辛亥革命、二次革命等。其中,中国结束了清朝的统治,走向了民国;新思潮开始传来,旧制度渐渐走向衰退。千疮百孔的中国也正向着更光明的明天前进着。
在这二三十年的历史河流中,留下了许多亦正亦邪的人物,慈禧太后(吕中 饰)、李鸿章(王冰 饰)、袁世凯(孙淳 饰)、孙中山(马少骅 饰)等他们被记载在历史课本里,和中国的历史相挂钩。借由这部剧,让我们再回顾一下那个时代,那个风起云涌变化万千的时代。前路虽然艰辛,但我们也正一步步向前迈进。”
大明王朝1566-9.7:
“本剧讲述的是嘉靖与海瑞的故事。嘉靖三十九年,贪墨横行、民不聊生。奸臣严嵩(倪大红 饰)党羽密布、权倾朝野,清官海瑞(黄志忠 饰)不惧强权,敢于向腐朽封建的皇权发起挑战。皇帝朱厚熜(陈宝国 饰)练道修玄二十载,始终把控着大明朝的军政、经济大权。当时的中国经济发达,市井文化也算繁荣,但社会各阶层矛盾突出,国家大面积实施的土地兼并使千百万农民一夜之间失去了赖以生存的土地。严嵩的专权引起了地方各级官员的不满,“倒严”之声甚嚣尘上,从上至下、从里到外,从朝廷到地方官府,到处充斥着尔虞我诈、勾心斗角的血雨腥风。忠臣良将与乱臣贼子纷纷登上了当时的历史舞台。”

(2)电视剧类型

Python爬虫豆瓣国产电视剧

剧情为主呗,然后就是爱情、古装这些类型的电视剧比较多咯~
(3)看看演员和导演们呗
本来想统计一下每个演员主演的所有电视剧的平均得分的(当然还有统计一下导演的),但是感觉有点得罪人,所以还是统计一下每个演员/导演出演/拍电视剧的次数吧(TOP20):

Python爬虫豆瓣国产电视剧

Python爬虫豆瓣国产电视剧

源代码和数据都在相关文件里附了~