work

所属分类:其他
开发工具:Python
文件大小:13600KB
下载次数:5
上传日期:2017-12-26 13:12:17
上 传 者ax123
说明:  贝叶斯下文本分类器,python语言,包括中文分词和英文分词
(Bias's lower text classifier, python language, including Chinese participle and English participle)

文件列表:
work\.spyderproject (107, 2017-01-22)
work\001.txt (2567765, 2016-10-17)
work\bayes.py (1789, 2016-11-06)
work\bayesch.py (1871, 2016-11-06)
work\bpoem.py (2218, 2016-11-06)
work\btao.py (2108, 2016-11-06)
work\jieba\analyse\analyzer.py (1440, 2015-11-13)
work\jieba\analyse\idf.txt (6471088, 2013-12-05)
work\jieba\analyse\textrank.py (3882, 2015-11-13)
work\jieba\analyse\tfidf.py (4426, 2015-11-13)
work\jieba\analyse\__init__.py (519, 2015-05-11)
work\jieba\dict.txt (5420898, 2015-02-11)
work\jieba\finalseg\prob_emit.p (1381126, 2015-11-13)
work\jieba\finalseg\prob_emit.py (1356958, 2015-02-11)
work\jieba\finalseg\prob_start.p (122, 2015-11-13)
work\jieba\finalseg\prob_start.py (97, 2014-11-15)
work\jieba\finalseg\prob_trans.p (289, 2015-11-13)
work\jieba\finalseg\prob_trans.py (245, 2014-11-15)
work\jieba\finalseg\__init__.py (2489, 2015-11-13)
work\jieba\finalseg\__pycache__\prob_emit.cpython-35.pyc (513057, 2016-10-09)
work\jieba\finalseg\__pycache__\prob_start.cpython-35.pyc (235, 2016-10-09)
work\jieba\finalseg\__pycache__\prob_trans.cpython-35.pyc (364, 2016-10-09)
work\jieba\finalseg\__pycache__\__init__.cpython-35.pyc (2839, 2016-10-09)
work\jieba\posseg\char_state_tab.p (2449847, 2015-11-13)
work\jieba\posseg\char_state_tab.py (1679102, 2015-02-11)
work\jieba\posseg\prob_emit.p (3500641, 2015-11-13)
work\jieba\posseg\prob_emit.py (4076462, 2015-02-11)
work\jieba\posseg\prob_start.p (9405, 2015-11-13)
work\jieba\posseg\prob_start.py (7460, 2014-11-15)
work\jieba\posseg\prob_trans.p (153080, 2015-11-13)
work\jieba\posseg\prob_trans.py (252619, 2014-11-15)
work\jieba\posseg\viterbi.py (1663, 2015-02-11)
work\jieba\posseg\__init__.py (9310, 2015-12-16)
work\jieba\posseg\__pycache__\char_state_tab.cpython-35.pyc (811131, 2016-10-10)
work\jieba\posseg\__pycache__\prob_emit.cpython-35.pyc (1073910, 2016-10-10)
work\jieba\posseg\__pycache__\prob_start.cpython-35.pyc (8429, 2016-10-10)
work\jieba\posseg\__pycache__\prob_trans.cpython-35.pyc (121653, 2016-10-10)
work\jieba\posseg\__pycache__\viterbi.cpython-35.pyc (2066, 2016-10-10)
work\jieba\posseg\__pycache__\__init__.cpython-35.pyc (9355, 2016-10-10)
work\jieba\_compat.py (1268, 2015-11-13)
... ...

text-similarity =============== By max.zhang@2013-11-06 说明:本项目为python语言实现的文本相似度检测工具 # 环境依赖 * python * python-jieba * bash # 目录说明 data 文件夹 -stopwords.txt (停用词表) data/temp 文件夹 (存放中间结果文件和文件夹,文件中每一行均表示一个文档) -*.content 网页解析后的原始文本(有噪声) -*.ori 经过预处理后的,可用于检测的原始文本(去噪) -*.token 中文分词结果 -word.dict 根据分词结果生成的特征词典 -*.feat 特征向量文件 -*.fprint Simhash信息指纹文件 src/ 文件夹 源程序 # 代码使用说明 ## 判断两个文档的重复度(整合) ### 生成特征词典 (preprocess.py) brief: 对原始文本进行分词并将结果添加到特征词典中 INPUT: 原始文本 + 停用词表 + 特征词典 OUTPUT: 将分词结果保存到.token中,并更新特征词典文件 usage: src/preprocess.py <*.ori> e.g. src/preprocess.py data/temp/doc1.ori data/stopwords.txt data/word.dict {Note: 需对待比较的两个文档分别运行一次, i.e. 两个文档的分词结果都应添加到特征词典中} ### 判断文档重复度 (isSimilar.py) brief: 判断两个文档是否重复 INPUT: 文档1 + 文档2 + 停用词表 + 特征词典 + 模式选择 + 阈值 OUTPUT: 输出两篇文档是否重复及相似度 usage: src/isSimilar.py <-c/-s> -c/-s 选择采用VSM+CosineDistance或是Simhash+HammingDistance方法进行重复判断 e.g. src/isSimilar.py data/temp/doc1.ori data/temp/doc2.ori data/stopwords.txt data/word.dict -c 0.8 ## 详细处理流程(单步) ### 去噪 (webcontent-filter.sh) brief: 原始文本的初步去噪(去特殊符号、英文字母、数字 ...),消除连续空格以及删除空白行 INPUT: 待去噪文本 (.content) OUTPUT: 去噪后的文本 (.ori) usage: src/webcontent_filter.sh <*.content> <*.ori> e.g. src/webcontent-filter.sh data/temp/all.content data/temp/all.ori ### 预处理 #### 中文分词(tokens.py) brief: 采用Jieba分词器对去噪后的原始文本进行中文分词 INPUT: 去噪后的文本 (.ori) OUTPUT: 中文分词结果 (.token) usage: ./tokens.py -s/-m <*.ori/inputfolder> <*.token/outputfolder> c/s[mode] -s[single]/-m[multiple] 对单个文本文件 (*.ori) 或对文本文件目录进行分词 -s <*.ori> <*.token> -m {Note: 采用-m模式时,原始文本名最好以.ori结尾} c/s[mode] Jieba分词器模式选择 c模式 jieba.cut(...) s模式 jieba.cut_for_search() e.g. src/tokens.py -s data/temp/all.ori data/temp/all.token c data/stopwords.txt #### 生成特征词典 (DictBuilder.py) brief: 根据分词结果文件或目录,生成以词频降序排列的特征词典 INPUT: 中文分词结果 (.token) OUTPUT:生成的特征词典,词典格式如下:ID + 特征词 + 词频 usage: src/DictBuilder.py e.g. src/DictBuilder.py data/temp/all.token data/temp/word.dict #### 生成特征向量 (features.py) brief: 根据分词结果和特征词典,生成特征向量文件 INPUT: 第一步处理中分词后的文本 + 第二步生成的特征词典 OUTPUT: 以行为单位生成各文档的特征向量:id1:nonzero-tf id2:nonzero-tf ... usage: src/feature.py -s/-m -s[single]/-m[multiple] 对单个分词文件 (*.token) 或对分词文件目录生成特征向量 e.g. src/feature.py -s data/temp/word.dict data/temp/all.token data/temp/all.feat #### 生成Simhash指纹 (simhash_imp.py) brief: 根据分词结果和特征词典,生成信息指纹文件 INPUT: 特征词典 + 特征向量文件 OUTPUT: 信息指纹文件 usage: src/simhash_imp.py <*.feat> <*.fprint> e.g. src/simhash_imp.py data/temp/word.dict data/temp/all.feat data/temp/all.fprint ## 单元测试 cd test python test_token.py

近期下载者

相关文件


收藏者