NewsScrapy
所属分类:数据采集/爬虫
开发工具:Python
文件大小:5258KB
下载次数:0
上传日期:2020-04-18 02:14:15
上 传 者:
sh-1993
说明: 基于scrapy的新闻爬虫
(News crawler based on sketch)
文件列表:
LICENSE (7651, 2020-04-18)
crontab.txt (3203, 2020-04-18)
newsApi (0, 2020-04-18)
newsApi\api (0, 2020-04-18)
newsApi\api\__init__.py (0, 2020-04-18)
newsApi\api\admin.py (63, 2020-04-18)
newsApi\api\migrations (0, 2020-04-18)
newsApi\api\migrations\__init__.py (0, 2020-04-18)
newsApi\api\models.py (57, 2020-04-18)
newsApi\api\urls.py (1341, 2020-04-18)
newsApi\api\views.py (7784, 2020-04-18)
newsApi\db.sqlite3 (36864, 2020-04-18)
newsApi\manage.py (250, 2020-04-18)
newsApi\newsApi (0, 2020-04-18)
newsApi\newsApi\__init__.py (0, 2020-04-18)
newsApi\newsApi\settings.py (3079, 2020-04-18)
newsApi\newsApi\urls.py (854, 2020-04-18)
newsApi\newsApi\wsgi.py (391, 2020-04-18)
requirement.txt (89, 2020-04-18)
scrapy (10656, 2020-04-18)
scrapy_cmd (2106, 2020-04-18)
thepaper (0, 2020-04-18)
thepaper\keywords.txt (2557, 2020-04-18)
thepaper\scrapy.cfg (260, 2020-04-18)
thepaper\thepaper (0, 2020-04-18)
thepaper\thepaper\__init__.py (0, 2020-04-18)
thepaper\thepaper\items.py (2544, 2020-04-18)
thepaper\thepaper\keywords.txt (2557, 2020-04-18)
thepaper\thepaper\pipelines.py (2213, 2020-04-18)
thepaper\thepaper\polite_log_formatter.py (509, 2020-04-18)
thepaper\thepaper\rotate_useragent.py (1850, 2020-04-18)
thepaper\thepaper\settings.py (8037, 2020-04-18)
thepaper\thepaper\spiders (0, 2020-04-18)
thepaper\thepaper\spiders\36kr_spider.py (3884, 2020-04-18)
thepaper\thepaper\spiders\__init__.py (161, 2020-04-18)
thepaper\thepaper\spiders\baidunews_spider.py (2311, 2020-04-18)
thepaper\thepaper\spiders\caacnews_spider.py (2498, 2020-04-18)
... ...
# NewsScrapy
基于scrapy、selenium、beautifulsoup、pyvirtualdisplay的新闻爬虫
### 问题:
一财网:js生成cookie,无法直接访问,使用selenium解决;
中国经营报:直接访问会报521错误,js生成cookie后重定向才能得到首页,phantomjs并不能解决这个重定向,但Firefox可以解决。
为了不让浏览器打开,用了headless-firefox。具体教程参考:http://scraping.pro/use-headless-firefox-scraping-linux/ **使用selenium和scrapy结合代码可看yicai_spider.py**
包括列表有:
- 民航资源网 http://news.carnoc.com/
- 中国民航报 http://www.caacnews.com.cn/
- 中国民用航空网 http://www.caac.gov.cn/XWZX/MHYW/
- 网易财经 http://money.163.com/special/002526O5/transport.html
- 中国旅游新闻网 http://www.cntour2.com/
- 中国旅游报 http://www.toptour.cn/home/
- 第一旅游网 http://www.toptour.cn/home/
- 国家旅游局 http://www.cnta.gov.cn/xxfb/
- 凤凰科技 http://www.donews.com/
腾讯科技 http://www.iheima.com/
- 网易科技 http://tech.ifeng.com/
- 钛媒体 http://tech.qq.com/
- 虎嗅 http://tech.163.com/internet
- i黑马 http://www.tmtpost.com/
- 36氪 http://www.huxiu.com/
- Donews http://www.36kr.com/
- Techweb http://www.techweb.com.cn/news/
澎湃新闻 http://www.thepaper.cn/
- 界面新闻 http://www.jiemian.com/
- 天下网商 http://i.wshang.com/
- 每日经济 http://www.nbd.com.cn/
- 21世纪 http://www.21cbh.com/
- 一财网 http://www.yicai.com/
- 网易财经 http://money.163.com/special/002526O5/transport.html
- 创业邦 http://www.cyzone.cn/
- 雷锋网 http://www.leiphone.com/
- 中国经营报 http://www.cb.com.cn/
- 华丽志 http://luxe.co/
- 华尔街见闻 http://wallstreetcn.com/
- 好奇心日报 http://www.qdaily.com/
- Travel weekly China http://www.travelweekly-china.com/
- 迈点网 http://www.meadin.com/
- 劲旅网 http://www.ctcnn.com/
- 品橙旅游 http://www.pinchain.com/
公众号 帐号
- 中国民航网 caacnews-officials
- 里屋里酒店咨讯 liwuli-hotels
- 航旅同行 travelskygds
- 航企哪些事儿 ThingsOfAirlines
- 航旅IT圈子 icarnoc
- 民航资源网 bvnagzine
- 商业价值 wow36kr
- 36氪 huxiu-com
- 虎嗅网 guifabucom
- 硅发布 pinchain
- 品橙旅游 wepingwest
- pingwest中文网 GP4008202018
- 智慧旅行 ctcnn1
- 劲旅网 dotours
- 旅游圈 meadin1
- 迈点网 thepapernews
- 澎湃新闻 qqtech
- 腾讯科技 zglybs
- 旅界 lvjienews
- 旅游商业观察 ph1240888257
- B座12楼 B1-12F
- BBTtravel BBTtravel
- 华丽志 LuxeCO
- 在线旅讯 otadaily
- 酒店内参 ehotelier
- 星硕袁学娅专栏
近期下载者:
相关文件:
收藏者: