HMM中文分词

  • P6_141121
    了解作者
  • 4.5MB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • VIP专享
    资源类型
  • 0
    下载次数
  • 2022-05-14 08:09
    上传日期
基于HMM的中文分词代码,虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM trigram方法,其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提,本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢?莫非是由于其诞生之初就采用了最大熵模型的缘故。但是,在词性标注中,Citar实现的是TnT中所采用的HMM trigram方法,其所宣称的性能是不亚于最大熵模型等词性标注器的。基于这样的前提,本文就验证一下基于Citar实现的HMM trigram字标注中文分词器的性能
HMMwordseg-master.zip
  • HMMwordseg-master
  • HMMseg
  • CTBtrainingset.txt
    8.1MB
  • hmmwordseg.py
    8.9KB
  • output.txt
    897.7KB
  • CTBtestingset.txt
    742.2KB
  • CTB_training_words.utf8
    574.5KB
  • CTB_test_gold.utf8
    897.6KB
  • README.md
    38B
内容介绍
# HMMwordseg 基于HMM的中文分词
评论
    相关推荐
    • ICTCLAS 中文分词
      中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...
    • lucene 中文分词
      lucene 中文分词小案例,实现中文检索,最近看到lucene顺便自己动手做了一下感觉挺实用的,案例很简单,很容易看懂
    • 结巴中文分词
      比较好的Python下的中文分词工具,但是速度不是特别快,可以看看我的博客说明
    • Ansj中文分词
      ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
    • PHP简易中文分词
      PHP简易中文分词,免组件分词 $ca = new cls_analysis(); //把一段短文本进行拆分 $str = "把一段短文本进行拆分"; $ca->SetSource( $str, 'utf-8', 'utf-8'); $ca->StartAnalysis(); $okstr = $ca->...
    • 中文分词词库汇总
      汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库...
    • 中文分词中文分词中文分词
      中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词
    • 中文分词中文分词中文分词
      中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词
    • 中文分词系统ICTCLAS
      中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...
    • SIM800C_MQTT.rar
      使用SIM800C模块,使用MQTT协议,连接中国移动onenet平台,能实现数据的订阅、发布、存储等