ScrapyNews 联合开发网

Pudn.com > 下载中心 > 数据采集/爬虫 > ScrapyNews

ScrapyNews

所属分类：数据采集/爬虫
开发工具：Python
文件大小：5309KB
下载次数：0
上传日期：2018-06-08 09:26:20
上传者：sh-1993

说明：采用scrapy框架抓取新闻的项目
(Projects that use the sketch framework to capture news)

文件列表:

IPProxyPool-master (0, 2018-06-08)
IPProxyPool-master\IPProxy.py (764, 2018-06-08)
IPProxyPool-master\api (0, 2018-06-08)
IPProxyPool-master\api\__init__.py (22, 2018-06-08)
IPProxyPool-master\api\apiServer.py (867, 2018-06-08)
IPProxyPool-master\config.py (11404, 2018-06-08)
IPProxyPool-master\data (0, 2018-06-08)
IPProxyPool-master\data\proxy.db (36864, 2018-06-08)
IPProxyPool-master\data\qqwry.dat (9290764, 2018-06-08)
IPProxyPool-master\db (0, 2018-06-08)
IPProxyPool-master\db\DataStore.py (1456, 2018-06-08)
IPProxyPool-master\db\ISqlHelper.py (546, 2018-06-08)
IPProxyPool-master\db\MongoHelper.py (2431, 2018-06-08)
IPProxyPool-master\db\RedisHelper.py (5377, 2018-06-08)
IPProxyPool-master\db\SqlHelper.py (5427, 2018-06-08)
IPProxyPool-master\db\__init__.py (22, 2018-06-08)
IPProxyPool-master\requirements.txt (132, 2018-06-08)
IPProxyPool-master\spider (0, 2018-06-08)
IPProxyPool-master\spider\HtmlDownloader.py (1429, 2018-06-08)
IPProxyPool-master\spider\HtmlPraser.py (6101, 2018-06-08)
IPProxyPool-master\spider\ProxyCrawl.py (3669, 2018-06-08)
IPProxyPool-master\spider\__init__.py (22, 2018-06-08)
IPProxyPool-master\start.bat (16, 2018-06-08)
IPProxyPool-master\test (0, 2018-06-08)
IPProxyPool-master\test\__init__.py (22, 2018-06-08)
IPProxyPool-master\test\test.py (395, 2018-06-08)
IPProxyPool-master\test\testIPAddress.py (4810, 2018-06-08)
IPProxyPool-master\test\testIPType.py (1528, 2018-06-08)
IPProxyPool-master\test\testbase64.py (288, 2018-06-08)
IPProxyPool-master\test\testhttpserver.py (1605, 2018-06-08)
IPProxyPool-master\test\testlist.py (874, 2018-06-08)
IPProxyPool-master\test\testlxml.py (13166, 2018-06-08)
IPProxyPool-master\test\testqueue.py (148, 2018-06-08)
IPProxyPool-master\test\testsql.py (339, 2018-06-08)
IPProxyPool-master\util (0, 2018-06-08)
IPProxyPool-master\util\IPAddress.py (4718, 2018-06-08)
IPProxyPool-master\util\__init__.py (23, 2018-06-08)
... ...

# ScrapyNews 采用scrapy框架抓取新闻的项目详细使用方式,请看我的博客: http://www.cnblogs.com/kfpa/
最新也在更新关于此爬虫的扩展更多网站,能够轻而易举爬取不同类型的网站,大家可以关注我的公众号,更新我会及时通知。
#### 我的微信公众号: ![](https://github.com/KFPA/ScrapyNews/blob/master/kfpa.jpg)
# 项目依赖 ## windows环境 1.安装Mysql数据库,可以直接去官网安装https://www.mysql.com/ 2.安装Microsoft Visual c++ 14.0,可以从微软官网上下载exe安装,http://landinghub.visualstudio.com/visual-cpp-build-tools, scrapy中twisted需要此开发包支持 3.安装requests,chardet,web.py,gevent psutil: pip install requests chardet web.py sqlalchemy gevent psutil 4.安装pywin32,scrapy,bs4,pillow,opencv-python,pymysql:pip install pywin32 scrapy bs4 pillow opencv-python pymysql # 配置项目 1.启用ipproxypool项目 ScrapyNews/IPProxyPool-master/config.py文件内的DB_CONFIG下修改'DB_CONFIG_STRING':'mysql+pymysql':'//username(mysql数据库用户名):password(数据库密码)@localhost/数据库中创建的数据库名称?charset=utf8' 2.启用scrapynews项目 ScrapyNews/Scrapywork/setting.py文件内的db={}中将user和passwd都修改为指定的mysql数据库的用户名和密码,并且创建一个article的数据库 ## 注意: 创建数据库是指定编码形式为utf-8;例 create database db default character set=utf8 # 特点: 1.采用IP池,防止目的网站封锁ip,IP池采用的是IPProxy开源项目,提供的ip很稳定,数目足够,完全可以满足个人或者小型的项目使用; 2.禁用爬虫***,采用useragent***池,防止网站根据***封锁爬虫; 3.智能延迟,爬去网页间隔时间可以智能的调节; 4.数据存储采用MySQL数据库,并且通过mysql的查询进行增量式的爬取; 5.爬虫规则采用xml的形式自定义,可以满足不同形式的网站结构进行爬取新闻文章,而且可以根据scrapy框架提供的不同形式的spider做相应的类型扩展,也可以自己写不同形式的spider以满足各种不同的爬取需求而且一劳永逸; 6.基于scrapy爬虫框架,scrapy能做的它都是可以做的; 7.使用中间件,包括下载中间件和爬虫中间件; 8.采用邮件通知,可以随时随地的远程监控爬虫的工作状态; 9.打印日志文件,用户可以通过查看日志文件了解爬虫的工作过程; 10.自定义数据库字段,自定义爬取的文章字段; # 扩展目标: 做可视化的爬虫生成器这个爬虫工程算是通向可视化爬虫的一个台阶,一次性迈到可视化爬虫portia似乎步子太大,容易扯到蛋,通过这个项目能够更好的理解scrapy框架的工作原理,并且可以自定义通用的爬虫。爬虫说来说去也就是那么几种,不同的就是每个爬虫爬取网站时数据提取时的规则,大家可以自定义的写自己的规则,就可以通过这类的爬虫爬取信息,写爬虫变成了写规则,这无疑是更方便的! 有一点需要注意portia项目它的可视化爬虫是通过可视化的界面写出一个规定的爬虫来,这个爬虫只能够做对应网站的数据爬取的! 这个项目如果做成可视化爬虫的话,他的目的不是生成一个爬虫,而是生成一个类型的爬虫规则,把这个规则输入到对应的爬虫中就可以爬取数据,这两者其实还是有区别的!

近期下载者：

相关文件：

评论：[我要评论] [举报此文件]

收藏者：