raw

所属分类:多国语言处理
开发工具:Others
文件大小:48345KB
下载次数:30
上传日期:2019-03-08 16:23:32
上 传 者huntzhan
说明:  10个中文分词数据集,用于训练中文分词模型
(Ten Chinese Word Segmentation Datasets for Training Chinese Word Segmentation Model)

文件列表:
raw (0, 2019-02-10)
raw\other (0, 2019-02-10)
raw\other\zx (0, 2019-02-10)
raw\other\zx\test.zhuxian.wordpos (280885, 2019-02-10)
raw\other\zx\train.zhuxian.wordpos (559793, 2019-02-10)
raw\other\zx\dev.zhuxian.wordpos (166113, 2019-02-10)
raw\other\cnc (0, 2019-02-10)
raw\other\cnc\dev.txt (5581923, 2019-02-10)
raw\other\cnc\train.txt (44824963, 2019-02-10)
raw\other\cnc\test.txt (5571735, 2019-02-10)
raw\other\udc (0, 2019-02-10)
raw\other\udc\dev.conll (422116, 2019-02-10)
raw\other\udc\test.conll (400684, 2019-02-10)
raw\other\udc\train.conll (3282103, 2019-02-10)
raw\other\wtb (0, 2019-02-10)
raw\other\wtb\dev.conll (49336, 2019-02-10)
raw\other\wtb\test.conll (49702, 2019-02-10)
raw\other\wtb\train.conll (393054, 2019-02-10)
raw\other\sxu (0, 2019-02-10)
raw\other\sxu\train.txt (3600697, 2019-02-10)
raw\other\sxu\test.txt (776035, 2019-02-10)
raw\other\ctb (0, 2019-02-10)
raw\other\ctb\ctb6.dev.seg (300375, 2019-02-10)
raw\other\ctb\ctb6.train.seg (4030528, 2019-02-10)
raw\other\ctb\ctb6.test.seg (312025, 2019-02-10)
raw\sighan2005 (0, 2019-02-10)
raw\sighan2005\cityu_test_gold.utf8 (239427, 2019-02-10)
raw\sighan2005\msr_training.utf8 (16804586, 2019-02-10)
raw\sighan2005\cityu_training.utf8 (8499903, 2019-02-10)
raw\sighan2005\as_test_gold.utf8 (711891, 2019-02-10)
raw\sighan2005\pku_test_gold.utf8 (716386, 2019-02-10)
raw\sighan2005\as_training.utf8 (30558193, 2019-02-10)
raw\sighan2005\msr_test_gold.utf8 (762801, 2019-02-10)
raw\sighan2005\pku_training.utf8 (7709182, 2019-02-10)

近期下载者

相关文件


收藏者