TextSummary_AutoMaster
所属分类:collect
开发工具:Python
文件大小:0KB
下载次数:0
上传日期:2020-05-10 05:13:42
上 传 者:
sh-1993
说明: 一个文本摘要中文项目,根据客服问答生成建议报告,
(A text summary Chinese project, which generates a suggestion report based on customer service questions and answers,)
文件列表:
LICENSE (11357, 2020-05-09)
data_reader.py (2099, 2020-05-09)
preprocess.py (3380, 2020-05-09)
utils/ (0, 2020-05-09)
utils/build_w2v.py (2043, 2020-05-09)
utils/data_utils.py (515, 2020-05-09)
utils/tokenizer.py (1212, 2020-05-09)
# TextSummary_AutoMaster
## 关键词
NLP文本摘要模型 中文客服对话生成报告 word2vec预训练词向量 seq2seq模型 attention机制 BeamSearch、PGN优化
## 数据集
训练集(82943条记录)建立模型,基于汽车品牌、车系、车况的问题与对话的文本,输出建议的报告文本。如下:
| Brand | Model | Question | Dialogue | Report |
| --- | --- | --- | --- | ---|
| 奔驰 | 奔驰GL级 | 变速箱旁边漏机油 | 技师说:具体是哪个部位呢?是发动机和变速器正中间位置吗?车主说... | 随时联系 |
测试集(20000条记录)使用训练好的模型,输出建议报告的结果文件。
## 项目文件说明
seq2seq模型的baseline版本, 使用tensorflow2.0搭建。
### 后续
paddlepaddle版本;
transformer优化模型;
用BERT做预训练;
pytorch版
## 日志
2020/4/27 分词和清洗数据
preprocess.py
2020/4/29 建立vocab词汇表
data_reader.py
2020/5/3 word2vec预训练词向量
utils/build_w2v.py
2020// 搭建seq2seq模型(encoder,decoder,attention层)
2020// 搭建模型,训练
效果:
2020// beam search加入
效果:
2020// PGN加入
效果:
## 代码部分
1.preprocess.py
完成原始数据的解析与存储
2.data_reader.py
读取数据,并建立vocab
3.utils/build_w2v.py
以vocab中的index为key值构建embedding_matrix,构建embedding_matrix
利用word2vector方法预训练词向量,
补充:gensim中Word2Vec或Fasttext两种方式训练词向量
4.main.py
完成模型的训练和预测
- 构建Seq2seq模型中的Encoder层和Decoder层
- 构建Seq2seq模型中的Attention
- loss函数采用 ,优化器采用
5.beam search
6.PGN
近期下载者:
相关文件:
收藏者: