今日看点

明星热度动态排行

发表于话题:明星热度排行榜
发布时间:2021-05-08

参考: B站_葩葩数据_2021年4月流量明星百度搜索指数动态排名.
小姐姐讲的非常好,希望多多关注、点赞。

流程

1.微博爬取排名前120的明星2.百度指数获取明星热度值3.flourish生成动态排行
明星排行数据来源: 微博-超话排行-明星.
明星热度数据来源: 百度指数.
动态排行生成工具: flourish Bar chart race.

1.微博爬取排名前120的明星

import requests import pandas as pd import numpy as np import time import re import json import demjson import datetime as dt from lxml import etree from selenium import webdriver # 获取namelist headers = { "Accept": "application/json, text/plain, */*", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9", "Cache-Control": "no-cache", "Connection": "keep-alive", "Cookie": "你的cookie", # 换成你的cookie "Host": "huati.weibo.cn", "Pragma": "no-cache", "Referer": "https://huati.weibo.cn/discovery/super", "sec-ch-ua-mobile": "?0", "Sec-Fetch-Dest": "empty", "Sec-Fetch-Mode": "cors", "user-agent":"你的user-agent", # 换成你的user-agent "X-Re-With": "XMLHttpRequest" } name_list = [] base_url = "https://huati.weibo.cn/aj/discovery/rank?cate_id=2&page={page}&topic_to_page=&block_time=0&star_type=star&from=&wm=&isvivo=false" for i in range(1,7): url = base_url.format(page=i) page_text = requests.get(url=url,headers=headers).text ex = '"display_name":"(.*?)","toprank"' page_name_list = re.findall(ex, page_text, re.S) for name in page_name_list: name_list.append(name) name_list # with open("name.txt","a+",encoding="utf-8") as fp: # fp.write()

运行结果:

2.百度指数获取明星热度值

headers = { "user-agent":"自己的user-agent", "cookie":'自己的cookie' } # 爬取百度指数每日值(需要解码,可一次爬取大量数据) def decrypt(ptbk, data): d = {} res = [] for i in range(len(ptbk)//2): d[ptbk[i]] = ptbk[len(ptbk)//2 + i] for x in data: res.append(d[x]) return "".join(res) def get_ptbk(uniqid): url = 'https://index.baidu.com/Interface/ptbk?uniqid={}'.format(uniqid) response = requests.get(url=url, headers=headers).text whh = demjson.encode(response, encoding='utf-8') h1 = json.loads(whh) h2 = json.loads(h1).get("data") return h2 def get_dailydata(keyword, start, end): url = f'https://index.baidu.com/api/SearchApi/index?area=0&word=[[%7B%22name%22:%22{keyword}%22,%22wordType%22:1%7D]]&startDate={start}&endDate={end}' res = requests.get(url, headers=headers) j = res.json() uniqid = j.get('data').get('uniqid') ptbk = get_ptbk(uniqid) data = j.get('data').get('userIndexes')[0].get('all').get('data') res = decrypt(ptbk, data) return res # 爬取多人的百度指数并制作成字典 def make_dict(name_list, sy, sm, sd, ey, em, ed): start = str(dt.date(sy, sm, sd)) end = str(dt.date(ey, em, ed)) data_dict = {} for name in name_list: print(name+" loading...") try: data_dict[name] = get_dailydata(name, start, end).split(',') except: break time.sleep(2) return data_dict data_d = make_dict(name_list, 2021,1,1,2021,5,4) start = dt.date(2021,1,1) end = dt.date(2021,5,5) # 注意:end要比抓取的end日期多一天 day_list = [] for i in range(start.toordinal(), end.toordinal()): day_list.append(str(dt.date.fromordinal(i))) df = pd.DataFrame(data_d, index=day_list) # 对空白数据进行填充 df.replace('','0',inplace=True) # 取当前日期和前两天的日期的平均值作为当天的热度值 df_rolling = df.rolling(window=3).mean().round(0) # 生成表格 根据flourish的需求需要将表格进行处理 df_rolling.transpose().to_excel("百度热度.xls")

3.flourish生成动态排行

将生成的表格导入flourish中,效果图如下图所示:

标签组:[cookie] [data] [百度指数

本文来源:https://www.kandian5.com/articles/3048.html

相关阅读

王承恩墓简介

北京昌平区明十三陵陵区内、思陵前方有一座陪葬墓,普遍认为该墓是明朝末年明崇祯皇帝朱由检的心腹太监王承恩的墓葬,通常称为王承恩墓。墓保留仍旧比较完好。墓葬简介陵只剩一个直径6米的土堆,但却完整地保留了三...

2025-04-30

西井陪葬墓简介

西井,属于北京昌平区明十三陵陵区内,是明长陵的妃嫔陪葬墓之一。位于定陵西南,昭陵之北,占地面积比东井还大。概述 西井的现存状况不如东井,围墙只有北面一段残存。宝城和殿堂仅存遗址可以辨认。宝城下面几十米...

2025-04-30

明悼陵介绍

悼陵,即“世宗三妃墓”,俗称"大宫"。是北京昌平明十三陵的七座陪葬墓之一。位于袄儿峪。原葬明世宗嘉靖皇帝的原配妻子孝洁陈皇后。后来陈皇后迁葬永陵,悼陵成为明世宗其他三位妃子的墓所。墓葬简介世宗三妃墓(...

2025-04-30

东井陪葬墓介绍

东井,当地俗称东娘娘宫,位于北京昌平区明十三陵陵区内,是长陵的妃嫔陪葬墓之一。东井在德陵东南馒头山之南,坐东朝西。在德陵村和德陵之间,与一户农家小院隔路相邻。在一片荒草之中,愕然耸立着一块无字碑,与十...

2025-04-30

郑贵妃墓简介

郑贵妃墓,位于北京昌平区、明十三陵陵区内,万娘坟村(万贵妃墓)而南约1公里处的银钱(泉)山,坐北朝南。是明十三陵的7座妃子墓之一,墓主人为明神宗万历皇帝的皇贵妃郑氏。墓园介绍郑贵妃墓是明十三陵的7座妃...

2025-04-30

神宗四妃墓介绍

神宗四妃墓,又称作神宗四妃坟,俗称东小宫。是明十三陵的7座妃子墓之一,是明神宗万历皇帝四位妃子的合葬墓。神宗四妃墓位于北京市昌平区十三陵,郑贵妃墓西南200米处。规模不大,也就相当于郑贵妃墓的四分之一...

2025-04-30

明茂陵与聚宝山的关系

明茂陵,位于裕陵右侧的聚宝山下,是明朝第八代皇帝宪宗纯皇帝朱见深(年号成化)和王氏、纪氏、邵氏三位皇后的合葬陵寝。茂陵的建筑在清初时保存尚好,而且祾恩殿内的陈设也保存较多。顾炎武《昌平山水记》记载顺治...

2025-04-30

明十三陵神路简介

十三陵神道,即长陵神道,是长陵陵寝建筑的前导部分。总长约7.3公里。明朝时由南而北,依次建有石牌坊、三空桥、大红门、神功圣德碑亭、石像生、棂星门、南五空桥、七空桥、北五空桥等系列神道墓仪设施及桥涵建筑...

2025-04-30

《吕氏春秋·开春论》贵卒赏析

【原文】力贵突①,智贵卒②。得之同则速为上,胜之同则湿③为下。所为贵骥者,为其一日千里也;旬日取之④,与驽骀⑤同。所为贵镞矢者⑥,为其应声而至;终日而至,则与无至同。吴起谓荆王⑦曰:“荆所有余者地也;...

2025-04-30

《庄子·外篇·达生》原文

达生之情者,不务生之所无以为;达命之情者,不务知之所无奈何。养形必先之以物,物有余而形不养者有之矣。有生必先无离形,形不离而生亡者有之矣。生之来不能却,其去不能止。悲夫!世之人以为养形足以存生,而养形...

2025-04-30