SharpICTCLAS

所属分类:搜索引擎
开发工具:C#
文件大小:1919KB
下载次数:109
上传日期:2010-04-08 21:14:21
上 传 者ounata
说明:  ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库),它们的文件格式是完全相同的,都使用CDictionary类进行解析。如果想深入了解ICTCLAS词典结构,可以参考sinboy的《ICTCLAS分词系统研究(二)--词典结构》一文,详细介绍了词典结构。
(ICTCLAS word of the overall process include: 1) initial segmentation 2) POS tagging 3) names, places identification 4) to re-word 5) This five-step re-speech tagging. The first word, the thin, divided into: 1) atom splitting 2) to identify all the possible atomic set of words between the program 3) N-shortest paths Chinese words rough three steps.)

文件列表:
doc\css\customercss.css (3650, 2007-02-08)
doc\css\style.css (5553, 2007-02-07)
doc\images\0220001.gif (4157, 2007-02-20)
doc\images\0220002.gif (8917, 2007-02-20)
doc\images\0220003.gif (8758, 2007-02-20)
doc\images\0220004.gif (47611, 2007-02-25)
doc\images\0220005.gif (3804, 2007-02-25)
doc\images\0220006.gif (10598, 2007-03-08)
doc\images\0225007.gif (3580, 2007-02-25)
doc\images\0225008.gif (5975, 2007-02-25)
doc\images\0225009.gif (7669, 2007-02-26)
doc\images\0308001.gif (8093, 2007-03-08)
doc\images\0308002.gif (2998, 2007-03-09)
doc\images\0308003.gif (3175, 2007-03-09)
doc\images\0308004.gif (6251, 2007-03-09)
doc\images\0308005.gif (7270, 2007-03-09)
doc\images\0308006.gif (7234, 2007-03-09)
doc\images\0308007.gif (7020, 2007-03-09)
doc\images\0308008.gif (9102, 2007-03-12)
doc\images\copycode.gif (1322, 2007-02-07)
doc\images\copycodeHighlight.gif (1322, 2007-02-07)
doc\images\Thumbs.db (69632, 2007-03-14)
doc\SharpICTCLAS分词系统简介(1)读取词典库.htm (29083, 2007-03-08)
doc\SharpICTCLAS分词系统简介(2)初步分词.htm (15761, 2007-03-08)
doc\SharpICTCLAS分词系统简介(3)DynamicArray.htm (28212, 2007-03-08)
doc\SharpICTCLAS分词系统简介(4)NShortPath-1.htm (23805, 2007-03-09)
doc\SharpICTCLAS分词系统简介(5)NShortPath-2.htm (9907, 2007-03-12)
doc\SharpICTCLAS分词系统简介(6)Segment.htm (46732, 2007-03-13)
doc\SharpICTCLAS分词系统简介(7)OptimumSegment.htm (16675, 2007-03-14)
doc\SharpICTCLAS分词系统简介(8)其它.htm (45543, 2007-04-18)
doc\SharpICTCLAS分词系统简介(9)词库扩充.htm (5848, 2007-04-19)
doc\移植ICTCLAS到CSharp平台上.htm (17883, 2007-03-07)
SharpICTCLAS\Samples\AddWords2Dict\AddWords2Dict.csproj (2191, 2007-04-18)
SharpICTCLAS\Samples\AddWords2Dict\Program.cs (1692, 2007-04-18)
SharpICTCLAS\Samples\AddWords2Dict\Properties\AssemblyInfo.cs (1181, 2007-04-18)
SharpICTCLAS\Samples\ConsoleTest\ConsoleTest.csproj (2187, 2007-04-18)
SharpICTCLAS\Samples\ConsoleTest\ConsoleTest.csproj.user (231, 2007-02-24)
SharpICTCLAS\Samples\ConsoleTest\Program.cs (11663, 2007-04-19)
SharpICTCLAS\Samples\ConsoleTest\Properties\AssemblyInfo.cs (1177, 2007-02-23)
SharpICTCLAS\Samples\PreProcessUtility\PreProcessUtility.cs (17739, 2007-04-18)
... ...

计算所汉语词法分析系统ICTCLAS中的数据文件 使用须知: 1. 数据部分有:data1.zip和data2.zip。 2. data1.zip解压缩后,得到data文件夹;dctdata2.zip解压缩后,得到BigramDict.dct,应当将给文件BigramDict.dct拷贝到data文件夹中(因为我的主页一次只能传2M的文件,所以只好分开压缩,给您造成不便,深表歉意!);ICTCLAS_dll.zip解压缩后,data和软件部分的文件必须在同一目录下!

近期下载者

相关文件


收藏者