微博的热搜榜对于研究大众的流量有非常大的价值。
今天的教程就来说说如何爬取微博的热搜榜。
感兴趣的小伙伴可以 收藏 + 关注 哦!
另外,关于本项目的效果展示,以及教程,点击一下链接即可。
下面,我就介绍一下我的项目效果以及文件结构。
目录
一、目标
二、效果展示
三、文件结构
利用 python 爬取微博热门消息榜以及榜单上的热门消息的内容(切记,这里爬取的是公开的微博数据!!!)
并将其保存到本地。
我将会在后面的几篇文章展示我的教程,感兴趣的小伙伴可以 关注 哦!!!
以2021年1月11日17:46的热搜榜为例
1、控制台输出我们爬取到的微博热搜榜
- 网页版微博热搜内容
- 控制台微博热搜内容
2、控制台输出我们爬取到的热搜内容
以其中某一个热搜为例,即‘ 6:迪丽热巴双马尾 ’
- 网页版微博热搜内容
- 控制台微博热搜内容
3、爬取到的数据我们将其存储到本地,文本内容以txt形式存储
以其中某一个热搜为例,即‘ 6:迪丽热巴双马尾 ’
1、文件结构
2、information文件夹
information文件存储我们爬取到的信息,注:该文件自动创建,无需手动创建
该文件下的结构为:
-- infoimation
-- 2021-01-11_1746 ------ 命名方式:year-month-day_time,为当前时间。当前时间下爬取的所有热搜内容均存于当前文件夹下
-- 01_***.txt ------ 命名方式:数字_热搜关键词.txt。存储该热搜话题的所有内容
-- 02_***.txt
-- 50_***.txt
-- top.txt ------ 命名方式:top.txt。存储该热搜话题的所有内容
-- topic.txt ------ 命名方式:topic.txt。存储当前时间下的所有热搜关键词
示例:
(1)topic.txt
(2) 其中每个热搜信息的内容均以热搜话题命名,并以txt文件形式保存
2、config.py
该文件为配置文件,一些参数可以在这里修改。
3、MicroBlog.py
该文件中包含一些爬取微博数据的函数