newsqq-master 联合开发网

Pudn.com > 下载中心 > 其他 > newsqq-master

newsqq-master

所属分类：其他
开发工具：Python
文件大小：3341KB
下载次数：0
上传日期：2018-10-09 20:23:22
上传者：closets

说明：腾讯新闻爬虫，用来爬取腾讯新闻所有新闻，用了spider·
(Tencent news crawler)

文件列表:

.idea (0, 2018-08-09)
.idea\misc.xml (185, 2018-08-09)
.idea\modules.xml (264, 2018-08-09)
.idea\mongoSettings.xml (573, 2018-08-09)
.idea\newsqq.iml (467, 2018-08-09)
.idea\vcs.xml (180, 2018-08-09)
.idea\workspace.xml (42131, 2018-08-09)
User-Agent.json (42686, 2018-08-09)
autoRestart.py (1174, 2018-08-09)
count_article.py (892, 2018-08-09)
data (0, 2018-08-09)
data\0803.xlsx (3192314, 2018-08-09)
genLinks.py (754, 2018-08-09)
links.txt (10289, 2018-08-09)
linksAndArticleToExcel.py (1025, 2018-08-09)
main.py (687, 2018-08-09)
myType.txt (601, 2018-08-09)
newsqq (0, 2018-08-09)
newsqq\__init__.py (0, 2018-08-09)
newsqq\__pycache__ (0, 2018-08-09)
newsqq\__pycache__\__init__.cpython-36.pyc (156, 2018-08-09)
newsqq\__pycache__\items.cpython-36.pyc (527, 2018-08-09)
newsqq\__pycache__\middlewares.cpython-36.pyc (2966, 2018-08-09)
newsqq\__pycache__\pipelines.cpython-36.pyc (894, 2018-08-09)
newsqq\__pycache__\settings.cpython-36.pyc (409, 2018-08-09)
newsqq\items.py (483, 2018-08-09)
newsqq\middlewares.py (3801, 2018-08-09)
newsqq\pipelines.py (782, 2018-08-09)
newsqq\settings.py (3178, 2018-08-09)
newsqq\spiders (0, 2018-08-09)
newsqq\spiders\__init__.py (161, 2018-08-09)
newsqq\spiders\__pycache__ (0, 2018-08-09)
newsqq\spiders\__pycache__\__init__.cpython-36.pyc (164, 2018-08-09)
newsqq\spiders\__pycache__\article_spider.cpython-36.pyc (2234, 2018-08-09)
newsqq\spiders\__pycache__\links_spider.cpython-36.pyc (1619, 2018-08-09)
newsqq\spiders\article_spider.py (2026, 2018-08-09)
newsqq\spiders\links_spider.py (1577, 2018-08-09)
scrapy.cfg (255, 2018-08-09)
... ...

# newsqq >- 使用Scrapy框架获取当日腾讯新闻的各类新闻链接、相关信息、正文等; >- 数据库为MongoDB,获取的数据量约为1750条,用时约5分钟,具备断点续传、数据监控、导出csv、json、excel等格式; >- 运行:执行[main.py][1]即可,会自动执行如下操作: >>1. 清空数据库 >>2. 运行[genLinks.py][2]生成需获取的所有页面链接,为9大类型,共90个页面链接 >>3. 执行第一个爬虫:scrapy crawl [links_spider][3],获取所有页面的新闻链接及相关信息,约1750条数据 >>4. 运行[autoRestart.py][4]获取所有新闻的正文(会执行第二个爬虫:[article_spider][5]),如果中途中断会自动重新获取剩下的正文 >>5. 运行[linksAndArticleToExcel.py][6],会将两个爬虫获取的数据进行整合,并将所有数据导出到excel ![运行截图](./screenshot/get_article.png) [1]:./main.py [2]:./genLinks.py [3]:./newsqq/spiders/links_spider.py [4]:./autoRestart.py [5]:./newsqq/spiders/article_spider.py [6]:./linksAndArticleToExcel.py

近期下载者：

相关文件：

评论：[我要评论] [举报此文件]

收藏者：