SinaWSpider
所属分类:其他
开发工具:Python
文件大小:1086KB
下载次数:7
上传日期:2018-02-07 14:18:44
上 传 者:
5352453
说明: 新浪微博用户信息爬虫,python,数据存储使用mongodb。
(a crawler program for userinfos of sina weibo, using python.)
文件列表:
SinaWSpider (0, 2018-02-07)
SinaWSpider\__init__.py (0, 2018-02-07)
SinaWSpider\conf.ini (514, 2018-02-07)
__MACOSX (0, 2018-02-07)
__MACOSX\SinaWSpider (0, 2018-02-07)
__MACOSX\SinaWSpider\._conf.ini (416, 2018-02-07)
SinaWSpider\dataEncode.py (2559, 2018-02-07)
__MACOSX\SinaWSpider\._dataEncode.py (418, 2018-02-07)
SinaWSpider\dataEncode.pyc (2090, 2018-02-07)
__MACOSX\SinaWSpider\._dataEncode.pyc (418, 2018-02-07)
SinaWSpider\Logger.py (1308, 2018-02-07)
__MACOSX\SinaWSpider\._Logger.py (418, 2018-02-07)
SinaWSpider\Logger.pyc (1151, 2018-02-07)
__MACOSX\SinaWSpider\._Logger.pyc (418, 2018-02-07)
SinaWSpider\main.py (4451, 2018-02-07)
__MACOSX\SinaWSpider\._main.py (418, 2018-02-07)
SinaWSpider\main.pyc (4328, 2018-02-07)
__MACOSX\SinaWSpider\._main.pyc (418, 2018-02-07)
SinaWSpider\MongoQueue.py (1554, 2018-02-07)
__MACOSX\SinaWSpider\._MongoQueue.py (418, 2018-02-07)
SinaWSpider\MongoQueue.pyc (2490, 2018-02-07)
__MACOSX\SinaWSpider\._MongoQueue.pyc (418, 2018-02-07)
SinaWSpider\myconf.py (8292, 2018-02-07)
__MACOSX\SinaWSpider\._myconf.py (418, 2018-02-07)
SinaWSpider\myconf.pyc (7834, 2018-02-07)
__MACOSX\SinaWSpider\._myconf.pyc (418, 2018-02-07)
SinaWSpider\output (0, 2018-02-07)
SinaWSpider\output\1259110474 (0, 2018-02-07)
SinaWSpider\output\1259110474\1259110474_fans.json (2835, 2018-02-07)
__MACOSX\SinaWSpider\output (0, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474 (0, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474\._1259110474_fans.json (418, 2018-02-07)
SinaWSpider\output\1259110474\1259110474_follows.json (2823, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474\._1259110474_follows.json (418, 2018-02-07)
SinaWSpider\output\1259110474\1259110474_info.json (261, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474\._1259110474_info.json (416, 2018-02-07)
SinaWSpider\output\1630423295 (0, 2018-02-07)
SinaWSpider\output\1630423295\1630423295_fans.json (2807, 2018-02-07)
__MACOSX\SinaWSpider\output\1630423295 (0, 2018-02-07)
__MACOSX\SinaWSpider\output\1630423295\._1630423295_fans.json (418, 2018-02-07)
... ...
欢迎使用SinaWSpider爬虫,同步教程请参阅:[新浪微博数据爬取Part 3:小爬虫的诞生](http://www.csuldw.com/2016/12/25/2016-12-25-sina-spider-user-data-part3/)。
# 20161228更新
- 修改conf.ini文件,删除proxy变量;
- 修改myconf.py,将proxy_pool从文件中读取,同时修改swithProxy()方法;
- 增加MongoQueue.py文件,使用mongodb作为队列
- 增加proxy目录,子目录spiderProxypy为爬取***的代码,最终内容写入到当前的proxy.data中;
- 修改main.py,增加多进程执行代码,进程数量为CPU个数;
---
# 20161225
## 文件说明
- conf.ini:用于配置proxies、headers等参数,其中Sina API的参数需设置成自己的;
- dataEncode.py:用于模拟登录sina时提交的POST数据;
- Logger.py:用于输出日志文件;
- main.py:运行项目的入口文件;
- myconf.py:加载配置文件;
- SinaSpider.py:spider核心内容,主要是SinaClient类,内部方法说明如下
- switchUserAccount(self, userlist):用于切换用户账号,防止长时间爬取账号被禁
- login(self, username, password):根据用户名和密码登录sina微博
- getUserInfos(self, uid):根据用户ID获取用户个人信息
- getUserFollows(self, uid, params):根据用户ID 获取用户关注的用户ID列表
- getUserFans(self, uid, params):根据用户ID 获取粉丝ID列表
- getUserTweets(self, uid, tweets_all, params):根据用户ID 获取微博,tweets_all是一个list变量
- output:输出目录
## 结果说明
1.getUserInfos可获取用户下列信息
```
uid:用户ID
nickname:昵称
address:地址
sex:性别
birthday:生日
desc:简介
marriage:婚姻状况
follows_count:关注数
fans_count:粉丝数
tweets_count:微博数
homepage:首页链接
reg_date:注册时间
tag:标签
sex_orientation:性取向
```
2.getUserFollows可获取用户关注人列表
```
uid:用户ID
follow_ids:关注人ID
```
3.getUserFans 可获取用户粉丝列表
```
uid:用户ID
fans_ids粉丝
```
4.getUserTweets方法可获取用户下列微博信息
```
uid:用户ID
content:微博内容
created_at:发表时间
source:发布工具/平台
comment_count:评论数
repost_count:转载数
type:微博类型(原创/转发)
like_count:点赞量
reason:转发理由(原创博文无理由取值为空)
```
## Contributor
@author: [Diwei Liu](http://www.csuldw.com/about/)
---
目前该爬虫正处于成长阶段,部分功能尚未完善,需进行进一步优化,如果感兴趣,可关注博主的微博[@拾毅者](http://weibo.com/liudiwei210),期待下个路口遇见你。
喜欢就给个star吧~
近期下载者:
相关文件:
收藏者: