nethard

所属分类:数据采集/爬虫
开发工具:Java
文件大小:63KB
下载次数:0
上传日期:2018-02-04 11:01:58
上 传 者sh-1993
说明:  一个基于webmagic框架的爬虫,用于爬取网易新闻手机端的新闻内容
(A crawler based on webmagic framework, used to crawl the news content of NetEase News mobile phone)

文件列表:
.mvn (0, 2018-02-04)
.mvn\wrapper (0, 2018-02-04)
.mvn\wrapper\maven-wrapper.jar (47610, 2018-02-04)
.mvn\wrapper\maven-wrapper.properties (110, 2018-02-04)
mvnw (6468, 2018-02-04)
mvnw.cmd (4994, 2018-02-04)
nethard (0, 2018-02-04)
pom.xml (3712, 2018-02-04)
src (0, 2018-02-04)
src\main (0, 2018-02-04)
src\main\java (0, 2018-02-04)
src\main\java\com (0, 2018-02-04)
src\main\java\com\cmh (0, 2018-02-04)
src\main\java\com\cmh\NethardApplication.java (1296, 2018-02-04)
src\main\java\com\cmh\config (0, 2018-02-04)
src\main\java\com\cmh\config\RedisConfig.java (1321, 2018-02-04)
src\main\java\com\cmh\dao (0, 2018-02-04)
src\main\java\com\cmh\dao\ArticleRepository.java (294, 2018-02-04)
src\main\java\com\cmh\dao\CategoryRepository.java (243, 2018-02-04)
src\main\java\com\cmh\dao\NewsRepository.java (221, 2018-02-04)
src\main\java\com\cmh\dao\RedisDao.java (1841, 2018-02-04)
src\main\java\com\cmh\dao\SourceRepository.java (241, 2018-02-04)
src\main\java\com\cmh\domain (0, 2018-02-04)
src\main\java\com\cmh\domain\Article.java (454, 2018-02-04)
src\main\java\com\cmh\domain\Category.java (384, 2018-02-04)
src\main\java\com\cmh\domain\News.java (868, 2018-02-04)
src\main\java\com\cmh\domain\Source.java (639, 2018-02-04)
src\main\java\com\cmh\service (0, 2018-02-04)
src\main\java\com\cmh\service\Crawler.java (8770, 2018-02-04)
src\main\java\com\cmh\service\Crawler4Detail.java (3609, 2018-02-04)
src\main\java\com\cmh\service\Crawler4Null.java (1531, 2018-02-04)
src\main\java\com\cmh\service\ScheduledTasks.java (546, 2018-02-04)
src\main\java\com\cmh\utils (0, 2018-02-04)
src\main\java\com\cmh\utils\RedisObjectSerializer.java (1344, 2018-02-04)
src\main\resources (0, 2018-02-04)
src\main\resources\application.properties (1444, 2018-02-04)
src\main\resources\banner.txt (624, 2018-02-04)
... ...

# nethard 一个基于webmagic框架的多线程爬虫,用于爬取网易新闻手机端的新闻内容。将爬虫分为两个部分,使用生产者和消费者模式,将redis作为任务队列,生产者爬虫爬取新闻url,消费者爬虫根据新闻url爬取具体信息。使用2个redis集合存储已爬新闻和未爬新闻,作为简单去重和消息队列。 ## 兼容性 基础依赖: * JAVA8 * Maven3.3.9 * spring-boot 1.5.8 * mysql * redis 第三方库: 其余第三方库详见pom.xml。 该程序在Win7上开发并测试有效。 ## 使用 克隆本项目后根据```application.properties``` 中的数据库source配置本地数据库信息。通过手机端网易新闻,获取相应新闻分类的分类码和缩写,存入`category`表中即可。 例如: category_code | category_name ---|--- BA10TA81wangning | ent BA8E6OEOwangning | sports 即可爬取娱乐和体育板块。

近期下载者

相关文件


收藏者