osgood-visual-spider-master

所属分类:搜索引擎
开发工具:Java
文件大小:167KB
下载次数:1
上传日期:2018-12-06 11:50:30
上 传 者5745068
说明:  基于Xpath的网页爬取,提供了web页面
(Web crawling based on Xpath)

文件列表:
visual-spider (0, 2018-04-17)
visual-spider\.classpath (1075, 2018-04-17)
visual-spider\.project (542, 2018-04-17)
visual-spider\.settings (0, 2018-04-17)
visual-spider\.settings\org.eclipse.core.resources.prefs (115, 2018-04-17)
visual-spider\.settings\org.eclipse.jdt.core.prefs (723, 2018-04-17)
visual-spider\.settings\org.eclipse.m2e.core.prefs (86, 2018-04-17)
visual-spider\LICENSE (1063, 2018-04-17)
visual-spider\_config.yml (26, 2018-04-17)
visual-spider\pom.xml (3468, 2018-04-17)
visual-spider\src (0, 2018-04-17)
visual-spider\src\main (0, 2018-04-17)
visual-spider\src\main\java (0, 2018-04-17)
visual-spider\src\main\java\com (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\Crawler.java (7468, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\SpiderApplication.java (3811, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\SpiderUtils.java (1203, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\VsController.java (4983, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\controller (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\controller\CustomCrawlingController.java (1795, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\controller\MainController.java (16917, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\models (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\models\CrawlConfig.java (5206, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\models\MysqlConfig.java (2896, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules\constant (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules\constant\DefaultConfigValues.java (906, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules\constant\SpiderValueConsts.java (704, 2018-04-17)
visual-spider\src\main\java\log4j.properties (269, 2018-04-17)
visual-spider\src\main\resources (0, 2018-04-17)
visual-spider\src\main\resources\image (0, 2018-04-17)
visual-spider\src\main\resources\image\spider.jpg (11630, 2018-04-17)
visual-spider\src\main\resources\view (0, 2018-04-17)
visual-spider\src\main\resources\view\CustomCrawling.fxml (3754, 2018-04-17)
visual-spider\src\main\resources\view\MainWindow.fxml (12402, 2018-04-17)
visual-spider\src\test (0, 2018-04-17)
... ...

QQ交流群(573484012) #### 图片爬取 目前支持的图片格式有 bmp,gif,jpeg,png,tiff,pcx,tga,svg,pic #### 媒体爬取 目前支持的媒体格式有 avi,mov,swf,asf,navi,wmv,3gp,mkv,flv,rmvb,webm,mpg,mp4,qsv,mpeg,mp3,aac,ogg,wav,flac,ape,wma,aif,au,ram,mmf,amr,flac #### 链接爬取 其实就是下载HTML源代码 #### 文档爬取 目前支持的文档格式有 pdf,docx,txt,log,conf,java,xml,json,css,js,html,hml,php,wps,rtf #### 其他文件爬取 目前支持的文件格式有 zip,exe,dmg,iso,jar,msi,rar,tmp,xlsx,mdf,com,casm,for,lib,lst,msg,obj,pas,wki,bas,map,bak,dot,bat,sh,rpm #### 自定义爬取 自定义XPath表达式,将匹配的网页内容存储至MySQL数据库 ![xpath](xpath.png) > [了解XPath语法](http://www.w3school.com.cn/xpath/xpath_syntax.asp) #### 爬虫工作流程 ![工作流程](workflow.png) #### 运行截图 ![截图](http://oq3iwfipo.bkt.clouddn.com/tutorial/vspider/visualspider.png) [点我下载](http://oq3iwfipo.bkt.clouddn.com/tools/zhazhapan/visual-spider-1.1.jar)

近期下载者

相关文件


收藏者