今日看点

案例 (五)电视剧《沉默的真相》数据分析

发表于话题:沉默的真相解析
发布时间:2021-06-09
image.png

代码及数据下载链接见文章末尾

一、导库

这里主要用的库有数据科学相关的numpy, pandas, 正则表达式re库,中文分词的jieba库,以及画图相关的pycharts库等。另外,为了能够在jupyter lab中直接画图,需要设置一下环境变量,声明画图的环境。

# 数据科学 import numpy as np import pandas as pd # 正则表达式 import re import jieba # 画图相关 from pyecharts.charts import Pie, Bar, Map, Line, Page from pyecharts import options as opts from pyecharts.globals import SymbolType, WarningType WarningType.ShowWarning = False pd.options.display.max_rows = 1000 # 设置画图环境,jupyter lab 中直接画图 from pyecharts.globals import CurrentConfig, NotebookType CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB import stylecloud from IPython.display import Image # 用于在jupyter lab中显示本地图片 from collections import Counter

二、读取数据

2.1、读入数据:

直接读取的豆瓣的评论数据

df = pd.read_excel('../数据/沉默的真相豆瓣短评.xlsx') print(df.shape) print(df.info()) image.png

查看读入数据的前几条。

df.head() image.png

2.2、查看重复值和空值

让我们来看看是否有重复值和空值。

# 查看重复值和空值 print(df.duplicated().sum()) print(df.isnull().sum()) image.png

结果没有重复值,空值,省去了数据的清洗这一步了。

三、数据预处理

3.1、删除列:

删除地址栏这一列,对我们分析没有起到作用。

# 删除列 df = df.drop('page_url', axis=1)

3.2、星级转换:

力荐,推荐,这些字符是纯中文的,没有明确的可量化比较的地方。所以将力荐,推荐,还行,较差,很差这些中文替换成星级的打分。

# 定义字典 def transform_rating(x): if x == '立荐': return '5星' elif x == '推荐': return '4星' elif x == '还行': return '3星' elif x == '较差': return '2星' elif x == '很差': return '1星' else: return '5星' # 异常值使用众数替换 # apply函数 df['rating_num'] = df.rating_num.apply(transform_rating)

查看星级的统计情况:

df.rating_num.value_counts() image.png

我们看到打5分的占到了绝大多数,说明这部电视剧的好评率还是蛮高的。

3.3、时间类型转换:

将时间转换到年月日,小时

comment_hour = df.comment_time.str.split(':').str[0] comment_hour = comment_hour.value_counts().sort_index() comment_hour[:5] image.png

3.4、分词处理:

我们需要从评论中提取关键有用信息,所以要先对评论进行分词处理。同时对停用词进行过滤,减少噪音的干扰。

# 定义分词函数 def get_cut_words(content_series): # 读入停用词表 stop_words = [] with open(r"../数据/stopword.txt", 'r', encoding='utf-8') as f: lines = f.readlines() for line in lines: stop_words.append(line.strip()) # 添加关键词 my_words = ['廖凡', '严良', '白宇', '江阳', '谭卓', '李静', '宁理', '张超', '黄尧', '张晓倩' ] for i in my_words: jieba.add_word(i) # 自定义停用词 my_stop_words = ['真的', '这部', '这是', '一种'] stop_words.extend(my_stop_words) # 分词 word_num = jieba.lcut(content_series.str.cat(sep='。'), cut_all=False) # 条件筛选 word_num_selected = [i for i in word_num if i not in stop_words and len(i) >= 2] return word_num_selected

四、可视化

4.1、星级分布情况:

让我们来具体看看星级的分布情况:

# 数据对 data_pair = [list(z) for z in zip(rating_num.index.tolist(), rating_num.values.tolist())] # 绘制饼图 pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px')) pie1.add('', data_pair=data_pair, radius=['35%', '60%']) pie1.set_global_opts(title_opts=opts.TitleOpts(title='总体评分分布'), legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_right='2%')) pie1.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%")) pie1.set_colors(['#FF7F0E', '#1F77B4', '#2CA02C', '#D62728', '#946C8B']) pie1.load_javascript(); # 分号表示去除打印

load_javascript() 和 render_notebook() 在jupyter lab中换行执行,这样可以直接在jupyter lab中画图

pie1.render_notebook() image.png

5星好评率达到了92.8%,口碑爆棚啊,有没有。

4.2、评论时间走势

接下来,我们看看评论的时间分布情况。

# 选取数据 x_data = [i.replace('2020-','') for i in comment_hour.index] y_data = comment_hour.values.tolist() # 折线图 line1 = Line(init_opts=opts.InitOpts(width='1350px', height='750px')) line1.add_xaxis(x_data) line1.add_yaxis('', y_data, areastyle_opts=opts.AreaStyleOpts(opacity=0.5), markpoint_opts=opts.MarkPointOpts(data=[opts.MarkPointItem(type_="max")]), label_opts=opts.LabelOpts(is_show=False) ) line1.set_global_opts(title_opts=opts.TitleOpts(title='评论时间走势图'), xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate='60')), visualmap_opts=opts.VisualMapOpts(max_=30)) line1.set_series_opts(linestyle_opts=opts.LineStyleOpts(width=3)) line1.load_javascript();

还是老规矩,换一行执行。

line1.render_notebook() image.png

我们可以看到评论最多的时间集中在9月16日,这大概是《沉默的真相》刚上映没多久的时间。

4.3、绘制关键词词云

最后,我们看一下评论的词云绘制情况。

text = get_cut_words(content_series=df.short_comment) # 绘制词云图 stylecloud.gen_stylecloud(text=' '.join(text), max_words=1000, collocations=False, font_path=r'C:\Windows\Fonts\msyh.ttc', icon_name='fas fa-chart-pie', size=653, output_name='../数据/沉默的真相-豆瓣短评.png') Image(filename='../数据/沉默的真相-豆瓣短评.png') image.png

可以看到,最关键的几个词是江阳,是案情的受害者,演技说明大家对这部戏的普遍的演员演技讨论的很多,看来是非常认可演技啊。原著和还原,说的是这部戏从小说改编过来。

资料下载:
源码下载:源码下载
数据下载:数据下载
停用词下载:停用词下载

标签组:[大数据

本文来源:https://www.kandian5.com/articles/30325.html

相关阅读

为什么慈禧吃了羊下水厨师被满门抄斩

吃穿住行中,吃被排在首位,这或许也验证了中国人以食为天的民族特点。虽然中国开发出了各种食物的吃法,各地形成了各种菜系,可是,在落后的时代,能够满口腹之欲的,大多却是那些手握权力财富的少部分人。在满清末...

2025-09-15

贾姬在厕所与野猪相遇为什么没人敢救她

汉景帝妃子上厕所遭遇野猪,侍卫抗旨不救,太后为何赏大臣百金!。提起来有点荒诞,却是史上真实发生过的事件。上厕所与野猪遭遇的女子就是汉景帝的嫔妃贾姬,翻开史料:这个贾姫大有来头,她是中山靖王刘胜的生母,...

2025-09-15

清朝灭亡后那些深宫里的女人去哪了

1908年11月14日,在位长达34年但年仅38岁的光绪皇帝就英年早逝了,一天以后,统治中国近半个世纪的慈禧老佛爷也撒手人寰,半个月之后,年仅2岁多的溥仪继位,这就是末代皇帝宣统帝!溥仪登基后,尊光绪...

2025-09-15

秦宜禄的妻子杜氏为什么会被吕布和曹操霸占呢

自古以来,有人爱江山却更爱美人,也有人只要江山而舍弃美人的,然而毕竟英雄难过美人关。想当年吴三桂那貌美如花的妻子陈圆圆居然被李自成的手下刘宗敏给抢了去,他一气之下居然投降清军,把多尔衮给引进关中了。这...

2025-09-15

王献之很爱自己的妻子为何最后还是被逼离婚了

一直以来,很多人都认为,古代男子肯定都很想娶公主,毕竟当皇帝的女婿,一下可以少奋斗几十年,甚至都不用奋斗了。但实际并不是如此,古代男子几乎是不愿娶公主的,不仅唐朝如此,很多朝代都这样。而今天的主人公也...

2025-09-15

秀才为什么因为一只鸭子被推上刑场

老一辈的人常说,忍一时风平浪静,退一步海阔天空。这句话说的其实就是让人在遇到事情的时候要冷静,不要因为一时冲动而做出让人后悔莫及的事情来。在清代学者俞樾所著的《右台仙馆笔记》里,讲了这么一个故事。说是...

2025-09-15

伍子胥逃亡的过程中真的一夜愁白了头吗

公元前522年,楚国国君听信费无忌的谗言,将伍子胥的父亲伍奢杀害,派人去杀伍子胥。伍子胥得到消息后连忙逃亡吴国。伍子胥的逃亡路线,从楚国到吴国必须要经过韶关,韶关位于吴楚交界之地,向来有重兵把守,而此...

2025-09-15

古代皇帝吃剩下的饭菜怎么办

古代皇帝吃饭动不动就是数十盘菜,皇帝一般都是吃几口就换,皇帝吃饭剩下的食物一般如何处理?中国曾经历了数千年的封建王朝,只不过每一个朝代都诞生了独特的文明,甚至有很多人事物都成为了时代的象征,由于中国古...

2025-09-15

古代殉葬妃子临死前经历了什么

在古代,帝王逝去之后,宫内会特别注重操办丧事。选择合适的地方将其安葬,还有不少嫔妃进行陪葬。这种方式让人觉得难以接受。殉葬制度原本起源在商代,当时的奴隶主在自己死去之后,就要把自己的私有财产带走,这其...

2025-09-15

同治帝十九岁时病死他的后妃怎么处理

1875年1月12日黄昏时分,十几位王公重臣接到诏命,匆匆入宫,来到养心殿西暖阁候旨。原来清朝的第十位皇帝爱新觉罗·载淳,即同治帝,已经走到了人生的尽头。当晚酉时(17~19时),同治皇帝咽下最后一气...

2025-09-15