ChineseNER-实体抽取

所属分类:Windows编程
开发工具:Python
文件大小:13849KB
下载次数:1
上传日期:2020-03-15 12:04:17
上 传 者ppsuc
说明:  中文实体抽取,能够解决中问文章实体抽取任务
(Chinese entity extraction, which can solve the task of entity extraction)

文件列表:
data (0, 2019-11-24)
data\MSRA (0, 2019-11-24)
data\MSRA\link.txt (49, 2019-11-24)
data\MSRA\test1.txt (526458, 2019-11-24)
data\MSRA\testright1.txt (577540, 2019-11-24)
data\MSRA\train1.txt (10480443, 2019-11-24)
data\MSRA\train2pkl.py (4122, 2019-11-24)
data\boson (0, 2019-11-24)
data\boson\data_util.py (3949, 2019-11-24)
data\boson\license.txt (2295, 2019-11-24)
data\boson\origindata.txt (1870472, 2019-11-24)
data\renMinRiBao (0, 2019-11-24)
data\renMinRiBao\data_renmin_word.py (5212, 2019-11-24)
data\renMinRiBao\renmin.txt (10671097, 2019-11-24)
pytorch (0, 2019-11-24)
pytorch\BiLSTM_CRF.py (6999, 2019-11-24)
pytorch\resultCal.py (1926, 2019-11-24)
pytorch\train.py (2195, 2019-11-24)
tensorflow (0, 2019-11-24)
tensorflow\Batch.py (2054, 2019-11-24)
tensorflow\bilstm_crf.py (3241, 2019-11-24)
tensorflow\test1.txt (526458, 2019-11-24)
tensorflow\train.py (3437, 2019-11-24)
tensorflow\utils.py (7664, 2019-11-24)
tensorflow\vec.txt (15335482, 2019-11-24)
test.png (93885, 2019-11-24)
test2.png (88006, 2019-11-24)

# ChineseNER 本项目使用 + python 2.7 + tensorflow 1.7.0 + pytorch 0.4.0 对命名实体识别不了解的可以先看一下这篇文章。顺便求star~ 这是最简单的一个命名实体识别BiLSTM+CRF模型。 ## 数据 data文件夹中有三个开源数据集可供使用,玻森数据 (https://bosonnlp.com) 、19***年人民日报标注数据、MSRA微软亚洲研究院开源数据。其中boson数据集有6种实体类型,人民日报语料和MSRA一般只提取人名、地名、组织名三种实体类型。 先运行数据中的python文件处理数据,供模型使用。 ## tensorflow版 ### 开始训练 使用 `python train.py` 开始训练,训练的模型会存到model文件夹中。 ### 使用预训练的词向量 使用 `python train.py pretrained` 会使用预训练的词向量开始训练,vec.txt是在网上找的一个比较小的预训练词向量,可以参照我的代码修改使用其他更好的预训练词向量。 ### 测试训练好的模型 使用 `python train.py test` 进行测试,会自动读取model文件夹中最新的模型,输入中文测试即可,测试结果好坏根据模型的准确度而定。 ### 文件级别实体抽取 使用 `python train.py input_file output_file` 进行文件级实体抽取。 可以自动读取model文件夹中最新的模型,将`input_file`中的实体抽取出来写入`output_file`中。先是原句,然后是实体类型及实体(可按照需要修改)。 如 `python train.py test1.txt res.txt` , res.txt内容如下: > 不定期增加其他修改。。 ## pytorch版 直接用的pytorch tutorial里的Bilstm+crf模型. 运行train.py训练即可。由于使用的是cpu,而且也没有使用batch,所以训练速度超级慢。想简单跑一下代码的话,建议只使用部分数据跑一下。pytorch暂时不再更新。 ## 准确率 参数并没有调的太仔细,boson数据集的f值在70%~75%左右,人民日报和MSRA数据集的f值在85%~90%左右。(毕竟boson有6种实体类型,另外两个只有3种) ## 更新日志 2018-9-15 增加tensorflow版本。 2018-9-17 增加19***年人民日报数据集和MSRA微软亚洲研究院数据集。 2018-9-19 简单修改了代码风格,将model提取出来,方便以后拓展。 2018-9-22 增加 `python train.py test` 功能。 2018-10-6 增加使用参数确定是否使用预训练词向量进行训练。 2018-10-11 增加功能:可以抽取一个文本文件中的实体,写入另一个文件中。

近期下载者

相关文件


收藏者