NewsCrawler

所属分类:数据采集/爬虫
开发工具:Java
文件大小:24KB
下载次数:0
上传日期:2017-10-28 02:08:37
上 传 者sh-1993
说明:  百度新闻,今日头条爬虫, 根据关键字爬取所有新闻并存如数据库
(Baidu News, the headline crawler today, crawls all the news according to the key words and coexists them in the database)

文件列表:
pom.xml (4396, 2017-10-28)
src (0, 2017-10-28)
src\main (0, 2017-10-28)
src\main\java (0, 2017-10-28)
src\main\java\lab409 (0, 2017-10-28)
src\main\java\lab409\Application.java (338, 2017-10-28)
src\main\java\lab409\controller (0, 2017-10-28)
src\main\java\lab409\controller\UserController.java (3723, 2017-10-28)
src\main\java\lab409\controller\test.java (6405, 2017-10-28)
src\main\java\lab409\dao (0, 2017-10-28)
src\main\java\lab409\dao\NewsMapper.java (967, 2017-10-28)
src\main\java\lab409\dao\UrlMapper.java (549, 2017-10-28)
src\main\java\lab409\model (0, 2017-10-28)
src\main\java\lab409\model\News.java (3768, 2017-10-28)
src\main\java\lab409\model\Url.java (832, 2017-10-28)
src\main\java\lab409\service (0, 2017-10-28)
src\main\java\lab409\service\BaiduNewsProcessor.java (9261, 2017-10-28)
src\main\java\lab409\service\KeyService.java (965, 2017-10-28)
src\main\java\lab409\service\NewsService.java (1210, 2017-10-28)
src\main\java\lab409\service\TodayProcessor.java (9429, 2017-10-28)
src\main\java\lab409\service\UrlService.java (664, 2017-10-28)
src\main\java\lab409\service\paserHelper.java (6820, 2017-10-28)
src\main\java\lab409\utils (0, 2017-10-28)
src\main\java\lab409\utils\HTMLSpirit.java (1101, 2017-10-28)
src\main\java\lab409\utils\HttpHelper.java (8747, 2017-10-28)
src\main\java\lab409\utils\ProxyUtil.java (731, 2017-10-28)
src\main\java\lab409\utils\httpHelper.java (1303, 2017-10-28)
src\main\resources (0, 2017-10-28)
src\main\resources\application.properties (190, 2017-10-28)

# 爬虫总结: ## 今日头条 ### 初始url比较容易拿到,根据每一个url采集数据时遇到一些问题,首先今日头条的详情界面是需要js加载完才能拿到比较完整的界面,这个使用WebMagic无法拿到有效的界面,具体来说没法拿到内容。所以采用了模拟浏览器的方式+多线程去采集具体的数据,采集速度上有了限制。另外头条数据本身较少。而且其中一些界面不规则,所以最后拿到的数据较少。 ## 百度新闻 ### 在拿到初始的url的时候需要注意,关键字如果是中文需要经过加密处理才能得到正常的结果,虽然百度提示有很多新闻,但实际上只提供较少的一部分。另外,在获取百度新闻的具体内容时,由于界面不规则,难以拿到准确的数据,所以采用了拿取p标签的内容作为body与实际内容基本一致。但会有一些干扰字段,去除起来比较麻烦,目前还没有解决。 ### 爬取完后对简单对数据进行了清洗,去除了重复的数据,标题为空的数据

近期下载者

相关文件


收藏者