今日看点

明星热度动态排行

发表于话题:明星热度排行榜
发布时间:2021-05-08

参考: B站_葩葩数据_2021年4月流量明星百度搜索指数动态排名.
小姐姐讲的非常好,希望多多关注、点赞。

流程

1.微博爬取排名前120的明星2.百度指数获取明星热度值3.flourish生成动态排行
明星排行数据来源: 微博-超话排行-明星.
明星热度数据来源: 百度指数.
动态排行生成工具: flourish Bar chart race.

1.微博爬取排名前120的明星

import requests import pandas as pd import numpy as np import time import re import json import demjson import datetime as dt from lxml import etree from selenium import webdriver # 获取namelist headers = { "Accept": "application/json, text/plain, */*", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9", "Cache-Control": "no-cache", "Connection": "keep-alive", "Cookie": "你的cookie", # 换成你的cookie "Host": "huati.weibo.cn", "Pragma": "no-cache", "Referer": "https://huati.weibo.cn/discovery/super", "sec-ch-ua-mobile": "?0", "Sec-Fetch-Dest": "empty", "Sec-Fetch-Mode": "cors", "user-agent":"你的user-agent", # 换成你的user-agent "X-Re-With": "XMLHttpRequest" } name_list = [] base_url = "https://huati.weibo.cn/aj/discovery/rank?cate_id=2&page={page}&topic_to_page=&block_time=0&star_type=star&from=&wm=&isvivo=false" for i in range(1,7): url = base_url.format(page=i) page_text = requests.get(url=url,headers=headers).text ex = '"display_name":"(.*?)","toprank"' page_name_list = re.findall(ex, page_text, re.S) for name in page_name_list: name_list.append(name) name_list # with open("name.txt","a+",encoding="utf-8") as fp: # fp.write()

运行结果:

2.百度指数获取明星热度值

headers = { "user-agent":"自己的user-agent", "cookie":'自己的cookie' } # 爬取百度指数每日值(需要解码,可一次爬取大量数据) def decrypt(ptbk, data): d = {} res = [] for i in range(len(ptbk)//2): d[ptbk[i]] = ptbk[len(ptbk)//2 + i] for x in data: res.append(d[x]) return "".join(res) def get_ptbk(uniqid): url = 'https://index.baidu.com/Interface/ptbk?uniqid={}'.format(uniqid) response = requests.get(url=url, headers=headers).text whh = demjson.encode(response, encoding='utf-8') h1 = json.loads(whh) h2 = json.loads(h1).get("data") return h2 def get_dailydata(keyword, start, end): url = f'https://index.baidu.com/api/SearchApi/index?area=0&word=[[%7B%22name%22:%22{keyword}%22,%22wordType%22:1%7D]]&startDate={start}&endDate={end}' res = requests.get(url, headers=headers) j = res.json() uniqid = j.get('data').get('uniqid') ptbk = get_ptbk(uniqid) data = j.get('data').get('userIndexes')[0].get('all').get('data') res = decrypt(ptbk, data) return res # 爬取多人的百度指数并制作成字典 def make_dict(name_list, sy, sm, sd, ey, em, ed): start = str(dt.date(sy, sm, sd)) end = str(dt.date(ey, em, ed)) data_dict = {} for name in name_list: print(name+" loading...") try: data_dict[name] = get_dailydata(name, start, end).split(',') except: break time.sleep(2) return data_dict data_d = make_dict(name_list, 2021,1,1,2021,5,4) start = dt.date(2021,1,1) end = dt.date(2021,5,5) # 注意:end要比抓取的end日期多一天 day_list = [] for i in range(start.toordinal(), end.toordinal()): day_list.append(str(dt.date.fromordinal(i))) df = pd.DataFrame(data_d, index=day_list) # 对空白数据进行填充 df.replace('','0',inplace=True) # 取当前日期和前两天的日期的平均值作为当天的热度值 df_rolling = df.rolling(window=3).mean().round(0) # 生成表格 根据flourish的需求需要将表格进行处理 df_rolling.transpose().to_excel("百度热度.xls")

3.flourish生成动态排行

将生成的表格导入flourish中,效果图如下图所示:

标签组:[cookie] [data] [百度指数

本文来源:https://www.kandian5.com/articles/3048.html

相关阅读

京剧:地地道道的中国国粹

京剧,曾称平剧,亦称乱弹、国剧。我国知名戏曲剧种,中国五大戏曲剧种之一,场景布置注重写意,腔调以西皮、二黄为主,用胡琴和锣鼓等伴奏,被视为中国国粹,中国戏曲三鼎甲“榜首”。京剧艺术博大精深,文戏武戏各...

2025-08-02

京剧锣鼓演奏中的忌讳

李渔在《闲情偶寄》“锣豉忌杂”一节中一曰赳:戏场锣鼓,筋节所关。当敲不敲,不当敲而敲,与宜重而轻,宜轻反重者,均足令戏文减价。” 同是一个[快长锤]锣鼓,变换演奏速度和力度(也包括音高),可用于不同的...

2025-08-02

京剧四大须生都是谁

四大须生,指四位著名的京剧老生表演艺术家。在京剧史上,有前四大须生和后四大须生的说法。而在前四大须生和后四大须生中马连良均榜上有名,因此,列名四大须生的著名京剧演员有七位,他们分别是:余叔岩、言菊朋、...

2025-08-02

京剧演唱中的十大禁忌

1、吃字:戏曲演员在唱念上,讲究口齿清楚,这样才能吐字真切,发音准确,把唱词或话白送入观众耳中。“吃字”即为咬字不清,犹如把字吃到肚子里一样,演员导致"吃字"的原因在于不能够正确的运用唇,齿,舌,牙,...

2025-08-02

董平能成为五虎将的原因

我们知道,梁山排定座次之后,就设立了很多小组,最著名的就是马军五虎将。分别是关胜,林冲,秦明,呼延灼,董平。但是通过上次的帖子,我们发现董平其实是没资格进入五虎的。今天我发现,让董平进五虎,是宋江玩弄...

2025-08-02

京剧台步:走出来的功夫

戏校每天有一堂课专门走台步,无论什么行当都必须练台步,这是基本功。假若连台步也走不好,怎么能唱戏呢?京剧讲究“四功五法”,“步”是其中很重要的一法。每个行当的台步都有自己的规范。 行当不同,台步就不同...

2025-08-02

公孙胜排名第四的原因

众所周知,梁山一百单八将虽以兄弟相称,但是其中党派林立,划分了许多阵营。这些阵营虽然不至于水火不容,却也绝对算不上和谐。在这些阵营中,对立最为明显的,则是晁盖旧部和宋江一党。 毕竟宋江取代的,是晁盖的...

2025-08-02

王安石寻笔的故事

王安石寻笔王安石听说李白有一支可以生长出花的笔之后,自己也想寻找一支这样神奇的笔,今天就给大家讲一个关于王安石寻笔的小故事。有一天王安石读书的时候从书里看到李白有一支可以生长出花的笔。他就去找他的老师...

2025-08-02

《游褒禅山记》原文及创作背景

《游褒禅山记》是北宋的政治家、思想家王安石在辞职回家的归途中游览了褒禅山后,以追忆形式写下的一篇游记。该篇游记因事见理,夹叙夹议,其中阐述的诸多思想,不仅在当时难能可贵,在当今社会也具有极其深远的现实...

2025-08-02

王安石小故事:不迩声色

不迩声色:王安石任知制诰时,王安石的妻子吴氏,给王安石置一妾。那女子前去伺候王安石,王安石问:“你是谁?”女子说自己是“家欠官债、被迫卖身”而来。王安石听罢,不仅没收她为妾,还送钱给她,帮助她还清官债...

2025-08-02