AC

所属分类:特征抽取
开发工具:Java
文件大小:0KB
下载次数:0
上传日期:2024-04-19 21:45:48
上 传 者sh-1993
说明:  AC自动机 文本相似检索 词库匹配 分词器, stars:17, update:2024-04-15 15:22:46

文件列表:
src/
.DS_Store
LICENSE
english_root.txt
pom.xml
word_parent.json
word_similarity.json

# 文本处理工具Java实现 ### 【1】分词器 (1)目前支持n-gram分词器和DAG分词器,DAG分词器可用自己的语料库训练自己的分词器。 (2)通过多种策略对相似语义提供支持。 详细说明 [README.md](https://github.com/aldebran97/AC/blob/master/src%2Fmain%2Fjava%2Fcom%2Faldebran%2Ftext%2Ftokenizer%2FREADME.md) ### 【2】海量词库匹配 基于AC自动机实现海量词库的高效匹配,这是一种利用空间换时间的方法。其匹配时间与输入长度成正比,受词库数量影响极小。 详细说明和效率统计 [README.md](https://github.com/aldebran97/AC/blob/master/src%2Fmain%2Fjava%2Fcom%2Faldebran%2Ftext%2Fac%2FREADME.md) ### 【3】文本相似检索 实现了支持大量数据、多字段、多权重、相似语义的毫秒级相似检索的方法。 详细说明、效率统计和评分数据 见[README.md](https://github.com/aldebran97/AC/blob/master/src%2Fmain%2Fjava%2Fcom%2Faldebran%2Ftext%2Fsimilarity%2FREADME.md)

近期下载者

相关文件


收藏者