spider

所属分类:网络编程
开发工具:Visual C++
文件大小:202KB
下载次数:155
上传日期:2008-07-25 12:57:08
上 传 者johnson144
说明:  网络爬虫,用于在指定页面中抓取内容.调试环境windows xp,数据库为oracle
(Network reptiles for the specified page content to crawl. Debug environment for windows xp, database oracle)

文件列表:
徐肖南c大作业200531500237\mp3f.udb (0, 2006-05-19)
徐肖南c大作业200531500237\spiderCli.cpp (16408, 2006-06-06)
徐肖南c大作业200531500237\spiderCli.exe (573496, 2006-05-20)
徐肖南c大作业200531500237\spiderSer.cpp (2235, 2006-06-06)
徐肖南c大作业200531500237\spiderSer.exe (581688, 2006-05-19)
徐肖南c大作业200531500237\urlfile.udb (32, 2006-06-06)
徐肖南c大作业200531500237\大作业上机报告.doc (51200, 2006-06-15)
徐肖南c大作业200531500237 (0, 2006-06-19)

作业名称:网络爬虫程序 提交人信息:徐肖南 2005级计算机科学与技术7班 200531500237 作业信息: [spiderCli.cpp]:爬虫程序客户端程序 作用: 分析网页代码,提取url进行散列处理,提交客户端程序进行排重 处理,然后存入客户机数据库,随后根据数据库中的url列表遍历 整个网络。 [spiderSer.cpp]:爬虫程序客户端程序 作用: 接收各爬虫程序客户端提交的url散列数据进行统一排重,反馈当 前url的信息(在数据库中是否已存在)给客户端程序。 [urlfile.udb]: url列表数据库,在程序运行前应保证其中有且仅有一条起始url。 [mp3f.udb]: mp3文件url列表 其他说明:程序在vc++6环境下编译调试,由于在测试时处在一个自组的小型局域网内 所以默认的服务器的ip为192.168.0.2,此ip可根据不同情况随意设置,此处 我并没有设计该功能,此处为疏忽。 运行: 一台服务器运行服务器端程序[spiderSer.exe],其他客户端运行客户端程序 [spiderCli.exe],并保证其与[urlfile.udb][mp3f.udb]文件在同一目录下。

近期下载者

相关文件


收藏者