SinaWSpider

所属分类:其他
开发工具:Python
文件大小:1086KB
下载次数:7
上传日期:2018-02-07 14:18:44
上 传 者5352453
说明:  新浪微博用户信息爬虫,python,数据存储使用mongodb。
(a crawler program for userinfos of sina weibo, using python.)

文件列表:
SinaWSpider (0, 2018-02-07)
SinaWSpider\__init__.py (0, 2018-02-07)
SinaWSpider\conf.ini (514, 2018-02-07)
__MACOSX (0, 2018-02-07)
__MACOSX\SinaWSpider (0, 2018-02-07)
__MACOSX\SinaWSpider\._conf.ini (416, 2018-02-07)
SinaWSpider\dataEncode.py (2559, 2018-02-07)
__MACOSX\SinaWSpider\._dataEncode.py (418, 2018-02-07)
SinaWSpider\dataEncode.pyc (2090, 2018-02-07)
__MACOSX\SinaWSpider\._dataEncode.pyc (418, 2018-02-07)
SinaWSpider\Logger.py (1308, 2018-02-07)
__MACOSX\SinaWSpider\._Logger.py (418, 2018-02-07)
SinaWSpider\Logger.pyc (1151, 2018-02-07)
__MACOSX\SinaWSpider\._Logger.pyc (418, 2018-02-07)
SinaWSpider\main.py (4451, 2018-02-07)
__MACOSX\SinaWSpider\._main.py (418, 2018-02-07)
SinaWSpider\main.pyc (4328, 2018-02-07)
__MACOSX\SinaWSpider\._main.pyc (418, 2018-02-07)
SinaWSpider\MongoQueue.py (1554, 2018-02-07)
__MACOSX\SinaWSpider\._MongoQueue.py (418, 2018-02-07)
SinaWSpider\MongoQueue.pyc (2490, 2018-02-07)
__MACOSX\SinaWSpider\._MongoQueue.pyc (418, 2018-02-07)
SinaWSpider\myconf.py (8292, 2018-02-07)
__MACOSX\SinaWSpider\._myconf.py (418, 2018-02-07)
SinaWSpider\myconf.pyc (7834, 2018-02-07)
__MACOSX\SinaWSpider\._myconf.pyc (418, 2018-02-07)
SinaWSpider\output (0, 2018-02-07)
SinaWSpider\output\1259110474 (0, 2018-02-07)
SinaWSpider\output\1259110474\1259110474_fans.json (2835, 2018-02-07)
__MACOSX\SinaWSpider\output (0, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474 (0, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474\._1259110474_fans.json (418, 2018-02-07)
SinaWSpider\output\1259110474\1259110474_follows.json (2823, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474\._1259110474_follows.json (418, 2018-02-07)
SinaWSpider\output\1259110474\1259110474_info.json (261, 2018-02-07)
__MACOSX\SinaWSpider\output\1259110474\._1259110474_info.json (416, 2018-02-07)
SinaWSpider\output\1630423295 (0, 2018-02-07)
SinaWSpider\output\1630423295\1630423295_fans.json (2807, 2018-02-07)
__MACOSX\SinaWSpider\output\1630423295 (0, 2018-02-07)
__MACOSX\SinaWSpider\output\1630423295\._1630423295_fans.json (418, 2018-02-07)
... ...

欢迎使用SinaWSpider爬虫,同步教程请参阅:[新浪微博数据爬取Part 3:小爬虫的诞生](http://www.csuldw.com/2016/12/25/2016-12-25-sina-spider-user-data-part3/)。 # 20161228更新 - 修改conf.ini文件,删除proxy变量; - 修改myconf.py,将proxy_pool从文件中读取,同时修改swithProxy()方法; - 增加MongoQueue.py文件,使用mongodb作为队列 - 增加proxy目录,子目录spiderProxypy为爬取***的代码,最终内容写入到当前的proxy.data中; - 修改main.py,增加多进程执行代码,进程数量为CPU个数; --- # 20161225 ## 文件说明 - conf.ini:用于配置proxies、headers等参数,其中Sina API的参数需设置成自己的; - dataEncode.py:用于模拟登录sina时提交的POST数据; - Logger.py:用于输出日志文件; - main.py:运行项目的入口文件; - myconf.py:加载配置文件; - SinaSpider.py:spider核心内容,主要是SinaClient类,内部方法说明如下 - switchUserAccount(self, userlist):用于切换用户账号,防止长时间爬取账号被禁 - login(self, username, password):根据用户名和密码登录sina微博 - getUserInfos(self, uid):根据用户ID获取用户个人信息 - getUserFollows(self, uid, params):根据用户ID 获取用户关注的用户ID列表 - getUserFans(self, uid, params):根据用户ID 获取粉丝ID列表 - getUserTweets(self, uid, tweets_all, params):根据用户ID 获取微博,tweets_all是一个list变量 - output:输出目录 ## 结果说明 1.getUserInfos可获取用户下列信息 ``` uid:用户ID nickname:昵称 address:地址 sex:性别 birthday:生日 desc:简介 marriage:婚姻状况 follows_count:关注数 fans_count:粉丝数 tweets_count:微博数 homepage:首页链接 reg_date:注册时间 tag:标签 sex_orientation:性取向 ``` 2.getUserFollows可获取用户关注人列表 ``` uid:用户ID follow_ids:关注人ID ``` 3.getUserFans 可获取用户粉丝列表 ``` uid:用户ID fans_ids粉丝 ``` 4.getUserTweets方法可获取用户下列微博信息 ``` uid:用户ID content:微博内容 created_at:发表时间 source:发布工具/平台 comment_count:评论数 repost_count:转载数 type:微博类型(原创/转发) like_count:点赞量 reason:转发理由(原创博文无理由取值为空) ``` ## Contributor @author: [Diwei Liu](http://www.csuldw.com/about/) --- 目前该爬虫正处于成长阶段,部分功能尚未完善,需进行进一步优化,如果感兴趣,可关注博主的微博[@拾毅者](http://weibo.com/liudiwei210),期待下个路口遇见你。 喜欢就给个star吧~

近期下载者

相关文件


收藏者