tableau数据分析实战:明星艺人数据分析

时间:2024-05-23 11:49:23

       本文数据来源于艾漫官网7月29日~8月13日共计16天的数据;其中热度用活跃粉丝数表示,活跃粉丝数指统计期内去除水军后提及目标艺人的网民数量),红粉数指统计期内对目标艺人表达正面情感的网民数量,黑粉数指统计期内对目标艺人表达负面情感的网名数量。
       本文将从以下3个方面对数据进行分析:
       1.top20上榜次数分析
       2.总量、日均量分析
       3.比率分析
       首先声明,以下内容若同时出现多名明星,排名不分先后,都是软件直接输出的结果;若某明星单独出现,只是进行举例分析,并未针对该明星。

1.top20上榜次数分析

tableau数据分析实战:明星艺人数据分析
       (以上图片未展示全部数据,需要查看全部数据的请留言或私信)

       在这16天中,一共有63位明星艺人登上过综合热度top20榜单,57位明星艺人登上过红粉数top20榜单,102位明星登上过黑粉数top20榜单,黑粉榜单上榜的明星数量明显高于其余两个榜单,这在一定程度上说明相对于表达喜爱,短时间内网友们更容易表达对某个艺人的负面、抵触情绪


       共同出现在热度top20和红粉top20的明星共52人,共同出现在热度top20和黑粉top20榜单的明星共36人,这一方面说明网友们对某位艺人的负面情绪来的快、去的也快(相对于正面情绪来说),因此黑粉top20的名单才会更新得较为频繁(这点与上一条结论相符);另一方面也说明,明星大部分还是靠网友们的正面情绪(红粉数)来保持热度,红粉数量较大的明星,一般来说综合热度都不会太差(即忠实粉丝贡献了大部分KPI)。


       共同出现在热度top20榜单、黑粉数top20榜单,而未出现在红粉数top20榜单的明星有7位(万茜,宋妍霏,张一山,张雨绮,杨迪,杨颖,黄景瑜),说明这部分明星这段时间内很大程度上是靠网友的负面、抵触情绪获得热度(即黑热搜可能上的比较多);共同出现在热度top20榜单、红粉数top20榜单,而未出现在黑粉数top20榜单的明星有23人(杨洋,张真源,李易峰,张颜齐,陈坤,宋亚轩,范丞丞,田鸿杰,陈立农,任嘉伦,王源,白敬亭,袁弘,华晨宇,贺峻霖,林彦俊,刘耀文,张歆艺,胡歌,马嘉祺,丁程鑫,刘雨昕,张杰),说明这些明星这段时间的热度大部分是积极正面的(即正面热搜上的比较多);出现在热度top20榜单,但未出现在红粉数top20、黑粉数top20的明星有4位(李佳琦,薇娅,李子柒,陈伟霆),说明在这段时间,这四人很大程度上既不是靠红粉也不是靠黑粉获得热度,那他们的热度大部分来源于路人,并且这4人中有3人并不是所谓的艺人,两人是带货主播(李佳琦,薇娅),1人是视频博主(李子柒),说明艺人保持热度基本还是靠忠实粉丝或者黑粉(黑红也是红嘛),单纯靠路人来维持热度的艺人还是比较少


       共同出现在3个榜单中的明星有29人(李现,谭松韵,黄明昊,关晓彤,张靓颖,张艺兴,林俊杰,喻言,严浩翔,易烊千玺,鞠婧祎,王嘉尔,迪丽热巴,胡宇桐,周深,肖战,陆柯燃,王俊凯,张新成,王一博,杨幂,鹿晗,朱一龙,吴亦凡,蔡徐坤,杨超越,杨紫,邓伦,赵丽颖),说明这段时间有很多网友对这些明星表现出了喜爱、积极、正面的情绪,但与此同时,也有较多的网友对这些明星表达出了负面、抵触情绪;而在这其中,通过上面三张表格可以看出,无论是热度、红粉数还是黑粉数,王一博、肖战、蔡徐坤都是上榜次数的top3,说明这三位的争议确实是蛮大,热度、红粉数绝对是顶流,但是不喜欢他们的网友数量也不可忽视。

2.总量、日均量分析

tableau数据分析实战:明星艺人数据分析
       (以上图片未展示全部数据,需要查看全部数据的请留言或私信)
       总体来看,几乎所有艺人的黑粉数量是远远小于红粉数量和热度总量的;从名单重合度来看,热度榜与红粉榜名单重合较多(热度汇总top20与红粉数汇总top20有18人重合(肖战,王一博,蔡徐坤,易烊千玺,王俊凯,朱一龙,迪丽热巴,李现,王源,华晨宇,邓伦,张艺兴,刘雨昕,胡宇桐,杨幂,赵丽颖,黄明昊,严浩翔),热度日均top20与红粉数日均top20有13人重合(肖战,王一博,蔡徐坤,易烊千玺,王俊凯,朱一龙,胡歌,关晓彤,迪丽热巴,白敬亭,王源,鹿晗,严浩翔))、与黑粉榜名单重合较少(热度汇总top20与黑粉数汇总top20只有10人重合(肖战,王一博,蔡徐坤,易烊千玺,朱一龙,邓伦,杨幂,赵丽颖,吴亦凡,严浩翔),热度日均top20与黑粉数日均top20只有4人重合(肖战,王一博,张一山,严浩翔))。这说明,一个明星的热度绝大程度上还是靠红粉,红粉多,热度不会太差;而黑粉给的热度,大多不是很持久,即黑粉对某个明星的抵触、负面情绪大部分是一时口嗨。


       从热度和红粉数来看,不论是总和还是日均,前六位都是肖战、王一博、蔡徐坤、易烊千玺、王俊凯、朱一龙,说明这几位明星热度持久,粉丝的热爱也较为持久,忠实粉丝较多。


       对每类榜单纵向对比(即汇总与日均对比),可以发现,某些明星在汇总榜单上排名较低,而在日均榜单上排名较高,这说明这些明星很大程度上是依赖个别事件短时间获得了较多的关注。以红粉榜为例,我们可以看到关晓彤的日均红粉数排到了第7位,在红粉数汇总榜上,位次在三十名开外,这说明她可能是在某一天因为某件事上了较为积极正面的热搜,因此这一天的红粉数量明显增加,而这一事件的热度过后,网友对她的关注度也下降较快


       对于黑粉榜,上一情况表现得更为明显(黑粉数日均top10与黑粉数汇总top10只有3人重合(肖战、张一山、宋妍霏),而热度榜是6人(肖战,王一博,蔡徐坤,易烊千玺,王俊凯,朱一龙)、红粉榜是7人(肖战,王一博,蔡徐坤,王俊凯,朱一龙,易烊千玺,迪丽热巴))。这进一步说明黑粉大部分是一时口嗨,网友们表达负面、抵触情绪的对象转换得较快,因此有较多的明星在某一天的黑粉数较多,但是汇总起来并不多;也就是说这些明星大部分是某天上了黑热搜,当天的黑粉数暴涨,事件过后,口嗨完的网友也散得较快,大部分不会对这个明星进行旷日持久地输出负面、抵触情绪


       黑粉榜上还有一个情况较为引人注目:肖战的黑粉总数是第二名的2.5倍之多,而后面的明星的黑粉总数之间的差距远远小于这一差距(肖战与第二名相差71k,后面的差距都不超过5k,大部分集中在1~2k),但是从日均黑粉数来看,这一差距却并没有这么大。这说明,从单日来看,肖战的黑粉数并没有比其他明星多很多,但是他的黑粉’战斗力‘比较持久;对于其他明星,黑粉可能骂完就走,而对于他,黑粉是持续多日输出负面、抵触情绪,因此一段时间汇总起来,他的黑粉才会比其他明星多很多。黑粉战斗力比较持久的还有王一博,他的黑粉总数是第2名,但是日均的黑粉数排名是14,这说明单日来看,王一博的黑粉数并不算太多,但是他们对王一博的负面情绪是较为持久的,’聚沙成塔‘,把他推到了黑粉总数的第2名

3.比率分析

       该表格中的明星名单来源:出现在热度top20、红粉数top20、黑粉数top20中的所有明星。比率包含了三个指标:红粉度、黑粉度和综合好感度。


       红粉度计算方式:由于各榜单都只获取了当日top20的数据,所以可能有数据缺失,处理方式如下:若该明星在当日热度top20名单内、但未在当日红粉数top20名单内,则红粉度记为0;若该明星不在当日热度top20名单内,但在当日红粉数top20名单内,则红粉度记为1;若该明星同时在以上两个榜单,则直接用当日红粉数量/当日热度表示红粉度;若该明星都不在以上两个名单(那么说明他一定是在黑粉数top20名单内),则红粉度记为-1。红粉度数值越高表示当日提及该明星的网友中红粉比重越大。


       黑粉度计算方式:由于各榜单都只获取了当日top20的数据,所以可能有数据缺失,处理方式如下:若该明星在当日热度top20名单内、但未在当日黑粉数top20名单内,则黑粉度记为0;若该明星不在当日热度top20名单内,但在当日黑粉数top20名单内,则黑粉度记为1;若该明星同时在以上两个榜单,则直接用当日黑粉数量/当日热度表示黑粉度;若该明星都不在以上两个名单(那么说明他一定是在红粉数top20名单内),则黑粉度记为-1。黑粉度数值越高表示当日提及该明星的网友中黑粉比重越大。


       综合好感度计算方式:若红粉度的绝对值为1(1或者-1,这里补充一句,按照以上赋值方式,若某明星某日的红粉度为1,那么当日他的黑粉度一定为-1;若红粉度为-1,那么当日他的黑粉度一定为1)时,综合好感度用红粉度来表示;当红粉度的绝对值不为1时,综合好感度用红粉度-黑粉度表示。


       在所有498条记录中,红粉度为1的有42条,黑粉度为1的有159条,这一差距进一步说明短时间内,相对于较为明显的正面、喜爱情绪,网友更容易对明星流露出较为明显的负面、抵触情绪


       经过分析发现,热度top20上榜次数少于4次的明星的红粉度或黑粉度容易走向极端,即不是1就是-1,或者接近于±1。这就说明这些明星大部分是靠个别事件,在短时间获得较多来自网友的积极正面评价或消极负面评价,因此总体来说上热度top20的次数少,但是一上就是比较极端的热搜,网友要么基本一致好评(当日红粉度为1,或者接近于1),要么基本一致差评(当日黑粉度为1或接近于1)。


       排除较为极端的情况(即短时间内因为某一个别事件获得大量红粉或黑粉的情况),选择热度top20上榜次数大于3的明星进行分析。

tableau数据分析实战:明星艺人数据分析
       (以上图片未展示全部数据,需要查看全部数据的请留言或私信)


       从红粉度来看,长期获得较大热度的明星红粉度基本都是正数,说明这些明星的热度大部分是来自红粉;从黑粉度来分析,长期获得较大热度的明星,黑粉度的数值基本是明显小于红粉度的,即对于这些明星来说,黑粉贡献的热度占比基本较小。在这其中较为特别的是薇娅,她的平均红粉度和平均黑粉度都为0,说明她的高热度很大程度上既不是来自红粉,也不是来自黑粉,而是来自路人粉。

4.总结

       经过以上分析,我们大致可以得到以下结论:
       1.“热爱可抵岁月漫长”。长期获得较高热度的明星,红粉数量都较大,红粉为他们提供了绝大部分的热度;而偶尔获得高热度的明星,短时间内的高关注度来源于网友负面抵触情绪的概率大于来源于网友正面积极情绪的概率。
       2.相比于长久的热爱,大部分网友更容易一时口嗨。(赞美之情需时间积淀,厌恶之情易脱口而出)
       3.顶流的争议较大(即红粉多、黑粉也多),并且他们黑粉的战斗力更为持久。
       当然,部分数据可能也未能反映真实的情况。比如某日张继科登上了黑粉数top20的榜单,但是经过分析,该日他获得较大关注度的原因是他参加的某个综艺的后期处理出现失误;网友流露出的负面情绪大多不是针对他个人,而是指责节目组后期制作,但是在情感分析时,就将这部分网友归为他的黑粉了,这也是NLP需要继续加强的地方。
       最后再次强调,本文仅代表个人观点,自己也是第一次做这种分析,如有不妥之处,欢迎大家指正。