Bilibili-GameCenter-Spider

所属分类:数据采集/爬虫
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2024-03-02 11:15:25
上 传 者sh-1993
说明:  B站游戏中心评论爬虫
(Station B game center comment crawler)

文件列表:
LICENSE
code.py

# Bilibili-GameCenter-Spider B站游戏中心评价区爬虫 简单练习一下Python爬虫,因为B站游戏中心评价区的api中引入了`request_id`和`appkey`两个校验值,不好用request的方法直接获取评价区内容,所以用了`selenium`来获取具体内容。 使用Edge浏览器,需要提前下载[Edge WebDriver](https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/?form=MA13LH),通过简单的修改应该也适用于其他浏览器。 ## 使用的库 ``` seleniumwire selenium bs4 ``` ## 功能介绍 按时间最近-最早的顺序爬取b站游戏评论区,目前爬取的内容有: 1. 用户id 2. 评价时间 3. 评分 4. 评价内容 5. 评价获得的赞和踩 实际还可以获得评价的评论和评论的赞,不过我没用到就没写。 爬取的内容以数页为一个单位,存放在json文件中。 单条评论的例子如下: ``` { "userid": "179945326", "time": "2024-03-02 18:31:57", "text": "\u597d\u60f3\u73a9\u554a 2/11\n\u77e2 3/1", "up_count": 3, "down_count": 2, "star_num": 1 } ``` 评论文本以Unicode的形式保存。 ## 存在问题 尚不清楚是我的代码问题还是库的问题,在其中几次运行中,seleniumwire用于抓取HTML源代码的代理线程会报错,但实际上不影响使用。

近期下载者

相关文件


收藏者