spider
所属分类:网络编程
开发工具:Visual C++
文件大小:202KB
下载次数:155
上传日期:2008-07-25 12:57:08
上 传 者:
johnson144
说明: 网络爬虫,用于在指定页面中抓取内容.调试环境windows xp,数据库为oracle
(Network reptiles for the specified page content to crawl. Debug environment for windows xp, database oracle)
文件列表:
徐肖南c大作业200531500237\mp3f.udb (0, 2006-05-19)
徐肖南c大作业200531500237\spiderCli.cpp (16408, 2006-06-06)
徐肖南c大作业200531500237\spiderCli.exe (573496, 2006-05-20)
徐肖南c大作业200531500237\spiderSer.cpp (2235, 2006-06-06)
徐肖南c大作业200531500237\spiderSer.exe (581688, 2006-05-19)
徐肖南c大作业200531500237\urlfile.udb (32, 2006-06-06)
徐肖南c大作业200531500237\大作业上机报告.doc (51200, 2006-06-15)
徐肖南c大作业200531500237 (0, 2006-06-19)
作业名称:网络爬虫程序
提交人信息:徐肖南 2005级计算机科学与技术7班 200531500237
作业信息:
[spiderCli.cpp]:爬虫程序客户端程序
作用: 分析网页代码,提取url进行散列处理,提交客户端程序进行排重
处理,然后存入客户机数据库,随后根据数据库中的url列表遍历
整个网络。
[spiderSer.cpp]:爬虫程序客户端程序
作用: 接收各爬虫程序客户端提交的url散列数据进行统一排重,反馈当
前url的信息(在数据库中是否已存在)给客户端程序。
[urlfile.udb]: url列表数据库,在程序运行前应保证其中有且仅有一条起始url。
[mp3f.udb]: mp3文件url列表
其他说明:程序在vc++6环境下编译调试,由于在测试时处在一个自组的小型局域网内
所以默认的服务器的ip为192.168.0.2,此ip可根据不同情况随意设置,此处
我并没有设计该功能,此处为疏忽。
运行:
一台服务器运行服务器端程序[spiderSer.exe],其他客户端运行客户端程序
[spiderCli.exe],并保证其与[urlfile.udb][mp3f.udb]文件在同一目录下。
近期下载者:
相关文件:
收藏者: