spyder-git

所属分类:数据采集/爬虫
开发工具:Java
文件大小:647KB
下载次数:0
上传日期:2018-10-10 00:44:40
上 传 者sh-1993
说明:  一个用于爬腾讯新闻的爬虫
(A crawler for Tencent News)

文件列表:
spy (0, 2018-10-10)
spy\.classpath (1037, 2018-10-10)
spy\.project (532, 2018-10-10)
spy\.settings (0, 2018-10-10)
spy\.settings\org.eclipse.core.resources.prefs (115, 2018-10-10)
spy\.settings\org.eclipse.jdt.core.prefs (285, 2018-10-10)
spy\.settings\org.eclipse.m2e.core.prefs (86, 2018-10-10)
spy\Output (0, 2018-10-10)
spy\Output\result.txt (26836, 2018-10-10)
spy\pom.xml (1028, 2018-10-10)
spy\result-200pages.txt (1647631, 2018-10-10)
spy\result.txt (0, 2018-10-10)
spy\src (0, 2018-10-10)
spy\src\main (0, 2018-10-10)
spy\src\main\java (0, 2018-10-10)
spy\src\main\java\spyderJava (0, 2018-10-10)
spy\src\main\java\spyderJava\spy (0, 2018-10-10)
spy\src\main\java\spyderJava\spy\App.java (1961, 2018-10-10)
spy\src\main\java\spyderJava\spy\crawl.java (5730, 2018-10-10)
spy\src\main\java\spyderJava\spy\fileCombiner.java (1023, 2018-10-10)
spy\src\main\java\spyderJava\spy\spyderMulti.java (3116, 2018-10-10)
spy\src\main\java\spyderJava\spy\spyderRun.java (2338, 2018-10-10)
spy\src\main\java\spyderJava\spy\threadLocalFact.java (403, 2018-10-10)
spy\src\main\resources (0, 2018-10-10)
spy\src\main\resources\Output (0, 2018-10-10)
spy\src\main\resources\Output\result.txt (29024, 2018-10-10)
spy\src\main\resources\temp (0, 2018-10-10)
spy\src\main\resources\temp\result.txt0 (16115, 2018-10-10)
spy\src\main\resources\temp\result.txt1 (14925, 2018-10-10)
spy\src\main\resources\temp\result.txt2 (0, 2018-10-10)
spy\src\main\resources\temp\result.txt3 (0, 2018-10-10)
spy\src\test (0, 2018-10-10)
spy\src\test\java (0, 2018-10-10)
spy\src\test\java\spyderJava (0, 2018-10-10)
spy\src\test\java\spyderJava\spy (0, 2018-10-10)
spy\src\test\java\spyderJava\spy\AppTest.java (642, 2018-10-10)
... ...

# 腾讯新闻爬虫工具 本工具为maven项目,需要使用jsoup和html unit 其中: spyderRun.java中是单线程方法。 APP.java中的是多线程方法,具体需要设置的线程数请在crawl.java中的ThreadPoolExecutor中进行调整 APP.java需要设置的主参数为: baseUrl 此为搜索结果的主要链接,样式如下: https://www.sogou.com/sogou?site=news.qq.com&query=%E5%85%BB%E8%80%81%E6%8E%A8%E8%8D%90&pid=sogou-wsse-b58ac8403eb9cf17-0004&duppid=1&idx=f& page:此为需要爬的页数,现在只做了从1-page的页数进行爬去,或者以后会做从n-m的页数爬取 charset:设定字符集,样式如:&ie=utf8 tempPath:此为用于存放小文件的缓冲文件夹,filewrite的锅所以需要设定绝对路径并且需要保证文件存在 outputPath:用于存放整合后的结果,同样需要保证文件路径存在

近期下载者

相关文件


收藏者