spider

所属分类:搜索引擎
开发工具:Visual C++
文件大小:7982KB
下载次数:26
上传日期:2012-02-28 14:59:11
上 传 者huochaiseu
说明:  一个简单的网络爬虫,可以设置一些网站作为首选链接,爬取网页上的文字内容。
(A simple Web crawler, you can set some websites as the preferred link, crawling text on the page.)

文件列表:
网络蜘蛛\bin\db.mdb (4276224, 2009-05-30)
网络蜘蛛\bin\maxDepth.txt (1, 2007-11-06)
网络蜘蛛\bin\throughput.txt (3, 2007-07-26)
网络蜘蛛\bin\WebSpiderEh.exe (82432, 2007-11-06)
网络蜘蛛\screenShoot.JPG (228049, 2007-11-06)
网络蜘蛛\src\app.aps (2288, 2009-05-30)
网络蜘蛛\src\app.ico (1078, 2005-11-12)
网络蜘蛛\src\app.rc (1251, 2006-08-08)
网络蜘蛛\src\AssemblyInfo.cpp (1173, 2006-10-05)
网络蜘蛛\src\conn.txt (120, 2007-07-24)
网络蜘蛛\src\DataUnit.cpp (358, 2006-08-10)
网络蜘蛛\src\DataUnit.h (1275, 2006-08-11)
网络蜘蛛\src\Debug\AssemblyInfo.obj (14961, 2009-05-30)
网络蜘蛛\src\Debug\BuildLog.htm (38854, 2011-12-01)
网络蜘蛛\src\Debug\DataUnit.obj (16595, 2009-05-30)
网络蜘蛛\src\Debug\HTMLDoc.obj (31269, 2009-05-30)
网络蜘蛛\src\Debug\InitSock.obj (17627, 2009-05-30)
网络蜘蛛\src\Debug\stdafx.obj (242115, 2009-05-30)
网络蜘蛛\src\Debug\UrlQueue.obj (23514, 2009-05-30)
网络蜘蛛\src\Debug\vc90.idb (248832, 2011-12-01)
网络蜘蛛\src\Debug\vc90.pdb (987136, 2011-12-01)
网络蜘蛛\src\HTMLDoc.cpp (4616, 2007-07-25)
网络蜘蛛\src\HTMLDoc.h (364, 2006-10-14)
网络蜘蛛\src\InitSock.cpp (316, 2006-08-08)
网络蜘蛛\src\InitSock.h (124, 2006-08-08)
网络蜘蛛\src\Release\AssemblyInfo.obj (16488, 2009-05-30)
网络蜘蛛\src\Release\BuildLog.htm (6698, 2009-05-30)
网络蜘蛛\src\Release\DataUnit.obj (17118, 2009-05-30)
网络蜘蛛\src\Release\HTMLDoc.obj (37714, 2009-05-30)
网络蜘蛛\src\Release\InitSock.obj (16119, 2009-05-30)
网络蜘蛛\src\Release\stdafx.obj (325330, 2009-05-30)
网络蜘蛛\src\Release\UrlQueue.obj (24950, 2009-05-30)
网络蜘蛛\src\Release\vc90.idb (248832, 2009-05-30)
网络蜘蛛\src\Release\vc90.pdb (978944, 2009-05-30)
网络蜘蛛\src\Release\WebSpiderEh.pch (11927552, 2009-05-30)
网络蜘蛛\src\resource.h (91, 2006-08-08)
网络蜘蛛\src\stdafx.cpp (142, 2006-08-08)
网络蜘蛛\src\stdafx.h (315, 2009-05-30)
... ...

作品名称:网络蜘蛛(WebSpider) 作者:孙君意(sunjunyi@software.ict.ac.cn) 开发环境:Visual Studio 2005 语言:C++/CLI 作品所要解决的主要问题: 对于给定的网站列表,下载其所有网页到数据库,可以限制抓取深度和吞吐量。 存储的信息包括标题、内容、网页大小、抓取时间、链接数、连接数等等 作品的主要应用场景: 可用于数据采集、数据挖掘以及搜索引擎的前期工作 使用说明: 1.直接点击bin目录下的WebSpiderEh.exe,即可开始抓取网站。 2.bin\db.mdb中的sites表配置您要抓取的网站,pages表保存抓取的结果。 3.maxDepth.txt中的数字控制抓取的深度。 4.throughput.txt中的数字控制蜘蛛的吞吐量,一般不用修改,如果您的网速很快,可以将数字调大一点。 谢谢使用,欢迎提出宝贵意见!

近期下载者

相关文件


收藏者