lewsn2008-LBTSE-master

所属分类:其他
开发工具:C/C++
文件大小:27818KB
下载次数:2
上传日期:2018-12-26 17:30:13
上 传 者nacyyo
说明:  本项目为北大搜索引擎TSE的完整源代码(包括索引和爬虫两个独立项目的源代码),TSE 为《搜索引擎——原理、技术与系统》一书介绍的实现原型,有兴趣的朋友可以参考该书学 习TSE。
(This project is the complete source code of the search engine TSE of Peking University (including the source code of indexing and crawler two independent projects), TSE For the implementation prototype of "Search Engine - Principles, Technologies and Systems", interested friends can refer to this book.)

文件列表:
LBTSE (0, 2015-01-20)
LBTSE\index (0, 2015-01-20)
LBTSE\index\.Url.h.swp (12288, 2015-01-20)
LBTSE\index\ChSeg (0, 2015-01-20)
LBTSE\index\ChSeg\Dict.cpp (747, 2015-01-20)
LBTSE\index\ChSeg\Dict.h (524, 2015-01-20)
LBTSE\index\ChSeg\ExSeg.cpp (623, 2015-01-20)
LBTSE\index\ChSeg\ExSegUrl.cpp (648, 2015-01-20)
LBTSE\index\ChSeg\HzSeg.cpp (7756, 2015-01-20)
LBTSE\index\ChSeg\HzSeg.h (492, 2015-01-20)
LBTSE\index\ChSeg\Makefile (220, 2015-01-20)
LBTSE\index\ChSeg\Rules.make (237, 2015-01-20)
LBTSE\index\ChSeg\imgs.list (1093568, 2015-01-20)
LBTSE\index\ChSeg\pb1.txt (21, 2015-01-20)
LBTSE\index\ChSeg\test1.txt (26499, 2015-01-20)
LBTSE\index\ChSeg\test2.txt (1849, 2015-01-20)
LBTSE\index\ChSeg\testURL.txt (917, 2015-01-20)
LBTSE\index\ChSeg\testtext.txt (3444, 2015-01-20)
LBTSE\index\ChSeg\words.dict (1562098, 2015-01-20)
LBTSE\index\Comm.h (780, 2015-01-20)
LBTSE\index\CrtForwardIdx.cpp (1008, 2015-01-20)
LBTSE\index\CrtInvertedIdx.cpp (994, 2015-01-20)
LBTSE\index\Data (0, 2015-01-20)
LBTSE\index\Data\Doc.idx (1026435, 2015-01-20)
LBTSE\index\Data\Tianwang.raw.2559638448 (79972316, 2015-01-20)
LBTSE\index\Data\Url.idx.sort_uniq (820058, 2015-01-20)
LBTSE\index\Data\sun.iidx (28623284, 2015-01-20)
LBTSE\index\DisplayRst.cpp (10697, 2015-01-20)
LBTSE\index\DisplayRst.h (411, 2015-01-20)
LBTSE\index\DocIndex.cpp (3046, 2015-01-20)
LBTSE\index\DocSegment.cpp (3882, 2015-01-20)
LBTSE\index\Document.cpp (885, 2015-01-20)
LBTSE\index\Document.h (599, 2015-01-20)
LBTSE\index\ExUsing64bit.c (292, 2015-01-20)
LBTSE\index\Makefile (1096, 2015-01-20)
LBTSE\index\Md5.cpp (8885, 2015-01-20)
LBTSE\index\Md5.h (1073, 2015-01-20)
LBTSE\index\MyNotes.txt (1158, 2015-01-20)
... ...

#LBTSE 本项目为北大搜索引擎TSE的完整源代码(包括索引和爬虫两个独立项目的源代码),TSE 为《搜索引擎——原理、技术与系统》一书介绍的实现原型,有兴趣的朋友可以参考该书学 习TSE。 《搜索引擎——原理、技术与系统》提供的源码下载地址http://sewm.pku.edu.cn/book/ 经常不能访问,这里我将以前下载学习的加入详细注释的源代码开放出来,不仅有注释的 源代码,还有一份详细的学习笔记—— CSDN博客专栏地址为: http://blog.csdn.net/column/details/inside-tse.html ,希望对入门的朋友有一些帮 助。 目录说明: tse081227 —— TSE的网页搜集子系统(爬虫)。 index —— TSE的预处理和查询服务子系统,该目录非常大,其实不是因为源代码大,而是 因为其中的 index/Data/Tianwang.raw.2559638448 非常大,该文件为爬虫爬 取的原始网页数据。 另外,原始的 index/Data/Tianwang.raw.2559638448 文件有三百多兆,上传时提示超出 了 git.oschina.net/ 文件的最大限制(100M),所以将文件内容删掉了很多,为了得到 较小的文件,这个对于整个系统的运行没有任何影响,因为它只是爬取的原始网页数据, 可以多可以少。

近期下载者

相关文件


收藏者