详细说明:一份很重要的语料库,为你的分词程序是一个很好用的资料库文件-a very important corpus, as your segmentation procedure is a very good use of the database file
[WordSeg.zip] - 利用最大匹配法进行汉语句子的分词 最大匹配算法是最常用的分词算法,简单实用正确率可达到80%以上
[chsegc.rar] - chseg c语言写的汉字分词模块,调用方法和使用方法见程序内说明readme.txt。
[TestCorpusyuliaoguanli.zip] - 1. 这是一个简单的语料库管理系统 2. 可以添加和删除语料文件,统计语料中的字数 3. 可以查找语料中的汉字串以及重叠形式 4. 语料文件存放在corpus目录下,查询结果保存在跟语料库相同目录下 5. corpus目录下有4个文本文件(其中test1, test2是两个小文件)供测试用
[hlssplit.rar] - 海天智能分词系统源码,可以根据需要设置分词的粒度,另外提供了词性标注,关键字提取等功能
[HanZiFreq.zip] - 单字字频统计、排序输出;二字组串频统计,统计结果浏览 我学文本分类时的程序
[FreeICTCLAS.zip] - 中科院的分词动态连接库,不用我说了哈,在国内是大名顶顶哈
[swish-efiles.1.3.2.tar.gz] - 用C语言写的搜索引擎,包含多种建立索引的方式
[google探索算法源码.zip] - 据说是GOOGLE搜索引擎的排序算法,看了一下,不太懂,晕啊
[yuer.rar] - 前几天因为好久没发blog了,就拿我毕设中的一段算法凑数,没想到引起很多人的兴趣。因此就把我的分词算法单独拎出来做了一个项目叫作DartSplitter。暂时把分词算法的名称叫做树状词库分词法。
[lz_spidetytryryr.rar] - 这个系统是属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。 适合与于对某一指定领域里的网站进行搜索,比如仅搜索医学网站。 使用sql server 2000做数据库。 网络蜘蛛根据用户设定的入口网址自动收集网页数据 强
[chsegc.rar] - chseg c语言写的汉字分词模块,调用方法和使用方法见程序内说明readme.txt。
[TestCorpusyuliaoguanli.zip] - 1. 这是一个简单的语料库管理系统 2. 可以添加和删除语料文件,统计语料中的字数 3. 可以查找语料中的汉字串以及重叠形式 4. 语料文件存放在corpus目录下,查询结果保存在跟语料库相同目录下 5. corpus目录下有4个文本文件(其中test1, test2是两个小文件)供测试用
[hlssplit.rar] - 海天智能分词系统源码,可以根据需要设置分词的粒度,另外提供了词性标注,关键字提取等功能
[HanZiFreq.zip] - 单字字频统计、排序输出;二字组串频统计,统计结果浏览 我学文本分类时的程序
[FreeICTCLAS.zip] - 中科院的分词动态连接库,不用我说了哈,在国内是大名顶顶哈
[swish-efiles.1.3.2.tar.gz] - 用C语言写的搜索引擎,包含多种建立索引的方式
[google探索算法源码.zip] - 据说是GOOGLE搜索引擎的排序算法,看了一下,不太懂,晕啊
[yuer.rar] - 前几天因为好久没发blog了,就拿我毕设中的一段算法凑数,没想到引起很多人的兴趣。因此就把我的分词算法单独拎出来做了一个项目叫作DartSplitter。暂时把分词算法的名称叫做树状词库分词法。
[lz_spidetytryryr.rar] - 这个系统是属于自动化的搜索引擎,它可以从一个网址列表开始,自动寻找这些网址的下一级网页。可以让中小网站也有有自己特色的搜索引擎。 适合与于对某一指定领域里的网站进行搜索,比如仅搜索医学网站。 使用sql server 2000做数据库。 网络蜘蛛根据用户设定的入口网址自动收集网页数据 强
文件列表(点击判断是否您需要的文件):
199801.txt
shengming.doc
199801.txt
shengming.doc