spider 联合开发网

Pudn.com > 下载中心 > 搜索引擎 > spider

spider

所属分类：搜索引擎
开发工具：Visual C++
文件大小：7982KB
下载次数：26
上传日期：2012-02-28 14:59:11
上传者：huochaiseu

说明：一个简单的网络爬虫，可以设置一些网站作为首选链接，爬取网页上的文字内容。
(A simple Web crawler, you can set some websites as the preferred link, crawling text on the page.)

文件列表:

网络蜘蛛\bin\db.mdb (4276224, 2009-05-30)
网络蜘蛛\bin\maxDepth.txt (1, 2007-11-06)
网络蜘蛛\bin\throughput.txt (3, 2007-07-26)
网络蜘蛛\bin\WebSpiderEh.exe (82432, 2007-11-06)
网络蜘蛛\screenShoot.JPG (228049, 2007-11-06)
网络蜘蛛\src\app.aps (2288, 2009-05-30)
网络蜘蛛\src\app.ico (1078, 2005-11-12)
网络蜘蛛\src\app.rc (1251, 2006-08-08)
网络蜘蛛\src\AssemblyInfo.cpp (1173, 2006-10-05)
网络蜘蛛\src\conn.txt (120, 2007-07-24)
网络蜘蛛\src\DataUnit.cpp (358, 2006-08-10)
网络蜘蛛\src\DataUnit.h (1275, 2006-08-11)
网络蜘蛛\src\Debug\AssemblyInfo.obj (14961, 2009-05-30)
网络蜘蛛\src\Debug\BuildLog.htm (38854, 2011-12-01)
网络蜘蛛\src\Debug\DataUnit.obj (16595, 2009-05-30)
网络蜘蛛\src\Debug\HTMLDoc.obj (31269, 2009-05-30)
网络蜘蛛\src\Debug\InitSock.obj (17627, 2009-05-30)
网络蜘蛛\src\Debug\stdafx.obj (242115, 2009-05-30)
网络蜘蛛\src\Debug\UrlQueue.obj (23514, 2009-05-30)
网络蜘蛛\src\Debug\vc90.idb (248832, 2011-12-01)
网络蜘蛛\src\Debug\vc90.pdb (987136, 2011-12-01)
网络蜘蛛\src\HTMLDoc.cpp (4616, 2007-07-25)
网络蜘蛛\src\HTMLDoc.h (364, 2006-10-14)
网络蜘蛛\src\InitSock.cpp (316, 2006-08-08)
网络蜘蛛\src\InitSock.h (124, 2006-08-08)
网络蜘蛛\src\Release\AssemblyInfo.obj (16488, 2009-05-30)
网络蜘蛛\src\Release\BuildLog.htm (6698, 2009-05-30)
网络蜘蛛\src\Release\DataUnit.obj (17118, 2009-05-30)
网络蜘蛛\src\Release\HTMLDoc.obj (37714, 2009-05-30)
网络蜘蛛\src\Release\InitSock.obj (16119, 2009-05-30)
网络蜘蛛\src\Release\stdafx.obj (325330, 2009-05-30)
网络蜘蛛\src\Release\UrlQueue.obj (24950, 2009-05-30)
网络蜘蛛\src\Release\vc90.idb (248832, 2009-05-30)
网络蜘蛛\src\Release\vc90.pdb (978944, 2009-05-30)
网络蜘蛛\src\Release\WebSpiderEh.pch (11927552, 2009-05-30)
网络蜘蛛\src\resource.h (91, 2006-08-08)
网络蜘蛛\src\stdafx.cpp (142, 2006-08-08)
网络蜘蛛\src\stdafx.h (315, 2009-05-30)
... ...

作品名称：网络蜘蛛(WebSpider) 作者：孙君意(sunjunyi@software.ict.ac.cn) 开发环境：Visual Studio 2005 语言：C++/CLI 作品所要解决的主要问题: 对于给定的网站列表，下载其所有网页到数据库，可以限制抓取深度和吞吐量。存储的信息包括标题、内容、网页大小、抓取时间、链接数、连接数等等作品的主要应用场景: 可用于数据采集、数据挖掘以及搜索引擎的前期工作使用说明： 1.直接点击bin目录下的WebSpiderEh.exe，即可开始抓取网站。 2.bin\db.mdb中的sites表配置您要抓取的网站，pages表保存抓取的结果。 3.maxDepth.txt中的数字控制抓取的深度。 4.throughput.txt中的数字控制蜘蛛的吞吐量，一般不用修改，如果您的网速很快，可以将数字调大一点。谢谢使用，欢迎提出宝贵意见!

近期下载者：

相关文件：

评论：[我要评论] [举报此文件]

收藏者：