osgood-visual-spider-master
所属分类:搜索引擎
开发工具:Java
文件大小:167KB
下载次数:1
上传日期:2018-12-06 11:50:30
上 传 者:
5745068
说明: 基于Xpath的网页爬取,提供了web页面
(Web crawling based on Xpath)
文件列表:
visual-spider (0, 2018-04-17)
visual-spider\.classpath (1075, 2018-04-17)
visual-spider\.project (542, 2018-04-17)
visual-spider\.settings (0, 2018-04-17)
visual-spider\.settings\org.eclipse.core.resources.prefs (115, 2018-04-17)
visual-spider\.settings\org.eclipse.jdt.core.prefs (723, 2018-04-17)
visual-spider\.settings\org.eclipse.m2e.core.prefs (86, 2018-04-17)
visual-spider\LICENSE (1063, 2018-04-17)
visual-spider\_config.yml (26, 2018-04-17)
visual-spider\pom.xml (3468, 2018-04-17)
visual-spider\src (0, 2018-04-17)
visual-spider\src\main (0, 2018-04-17)
visual-spider\src\main\java (0, 2018-04-17)
visual-spider\src\main\java\com (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\Crawler.java (7468, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\SpiderApplication.java (3811, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\SpiderUtils.java (1203, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\VsController.java (4983, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\controller (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\controller\CustomCrawlingController.java (1795, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\controller\MainController.java (16917, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\models (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\models\CrawlConfig.java (5206, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\models\MysqlConfig.java (2896, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules\constant (0, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules\constant\DefaultConfigValues.java (906, 2018-04-17)
visual-spider\src\main\java\com\zhazhapan\vspider\modules\constant\SpiderValueConsts.java (704, 2018-04-17)
visual-spider\src\main\java\log4j.properties (269, 2018-04-17)
visual-spider\src\main\resources (0, 2018-04-17)
visual-spider\src\main\resources\image (0, 2018-04-17)
visual-spider\src\main\resources\image\spider.jpg (11630, 2018-04-17)
visual-spider\src\main\resources\view (0, 2018-04-17)
visual-spider\src\main\resources\view\CustomCrawling.fxml (3754, 2018-04-17)
visual-spider\src\main\resources\view\MainWindow.fxml (12402, 2018-04-17)
visual-spider\src\test (0, 2018-04-17)
... ...
QQ交流群(573484012)
#### 图片爬取
目前支持的图片格式有 bmp,gif,jpeg,png,tiff,pcx,tga,svg,pic
#### 媒体爬取
目前支持的媒体格式有 avi,mov,swf,asf,navi,wmv,3gp,mkv,flv,rmvb,webm,mpg,mp4,qsv,mpeg,mp3,aac,ogg,wav,flac,ape,wma,aif,au,ram,mmf,amr,flac
#### 链接爬取
其实就是下载HTML源代码
#### 文档爬取
目前支持的文档格式有 pdf,docx,txt,log,conf,java,xml,json,css,js,html,hml,php,wps,rtf
#### 其他文件爬取
目前支持的文件格式有 zip,exe,dmg,iso,jar,msi,rar,tmp,xlsx,mdf,com,casm,for,lib,lst,msg,obj,pas,wki,bas,map,bak,dot,bat,sh,rpm
#### 自定义爬取
自定义XPath表达式,将匹配的网页内容存储至MySQL数据库
![xpath](xpath.png)
> [了解XPath语法](http://www.w3school.com.cn/xpath/xpath_syntax.asp)
#### 爬虫工作流程
![工作流程](workflow.png)
#### 运行截图
![截图](http://oq3iwfipo.bkt.clouddn.com/tutorial/vspider/visualspider.png)
[点我下载](http://oq3iwfipo.bkt.clouddn.com/tools/zhazhapan/visual-spider-1.1.jar)
近期下载者:
相关文件:
收藏者: