Intelligent-Customer-Service

所属分类:嵌入式/单片机/硬件编程
开发工具:Python
文件大小:9245KB
下载次数:0
上传日期:2019-10-13 00:25:49
上 传 者sh-1993
说明:  2019年第十届中国大学生服务外包创新创业大赛——A14.运用文本相似度实现证券智能客服
(The 10th China Undergraduate Service Outsourcing Innovation and Entrepreneurship Competition in 2019- A14. Using Text Similarity to Realize Intelligent Customer Service for Securities)

文件列表:
data (0, 2019-10-13)
data\invalid (0, 2019-10-13)
data\invalid\baidu.csv (5814416, 2019-10-13)
data\invalid\baidu_extract.csv (2652421, 2019-10-13)
data\invalid\dataset_all.csv (7319398, 2019-10-13)
data\invalid\sogou.csv (2899693, 2019-10-13)
data\invalid\sogou_extract.csv (71345, 2019-10-13)
data\invalid\zhidao.csv (5201244, 2019-10-13)
data\official (0, 2019-10-13)
data\official\竞赛数据-test1.xlsx (23658, 2019-10-13)
data\official\竞赛数据-train.xls (126976, 2019-10-13)
data\pic (0, 2019-10-13)
data\pic\framework.jpg (60984, 2019-10-13)
data\valid (0, 2019-10-13)
data\valid\compete_v1.csv (208682, 2019-10-13)
data\valid\final_regroup.csv (17145883, 2019-10-13)
data\valid\final_shuffle.csv (1626585, 2019-10-13)
data\valid\final_syn.csv (3009134, 2019-10-13)
data\valid\final_syn_train.csv (2857880, 2019-10-13)
data\valid\final_test.csv (222160, 2019-10-13)
data\valid\standard.csv (8799, 2019-10-13)
model (0, 2019-10-13)
model\1_lstm_layer4.py (13146, 2019-10-13)
model\2_lstm_embedding+dense.py (13852, 2019-10-13)
model\3_cnn_layer6.py (15871, 2019-10-13)
model\4_lstm_layer2.py (13291, 2019-10-13)
model\5_lstm_gru_layer4.py (14948, 2019-10-13)
model\top1_pre.py (4932, 2019-10-13)
model\top5_pre.py (5407, 2019-10-13)
process (0, 2019-10-13)
process\extract.py (1466, 2019-10-13)
process\static.py (8211, 2019-10-13)
process\step1_shuffle.py (1019, 2019-10-13)
process\step2_syn.py (2625, 2019-10-13)
process\step3_regroup.py (2054, 2019-10-13)
security (0, 2019-10-13)
security\scrapy.cfg (259, 2019-10-13)
security\security (0, 2019-10-13)
... ...

# 演示视频 链接:https://pan.baidu.com/s/1SfywE5AoKXF3e9IyjeECvg 提取码:jkor # 技术路线图 ![](https://github.com/linwt/Intelligent-Customer-Service/blob/master/data/pic/framework.jpg) # 文件说明 * data:包括爬虫数据、扩充数据、官方数据 * security:爬取百度、百度知道、搜狗数据 * wiki:获取维基百科数据进行分词和分字处理,并训练词向量和字向量模型 * process:对爬虫数据和官方数据进行处理 * model:单个强模型,微调得到多个弱模型,投票方式融合 # 获取维基百科数据 一、维基百科数据下载地址   https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 二、开源解压项目   https://github.com/attardi/wikiextractor   1、直接复制WikiExtractor.py文件即可   2、解压文件E:\wikiextractor>python WikiExtractor.py -cb 1500M -o extracted E:\zhwiki-latest-pages-articles.xml.bz2   3、得到E:\wikiextractor\extracted\AA\wiki_00.bz2,解压wiki_00.bz2得到wiki_00,重命名为wiki.txt 三、下载opencc   1、下载opencc windows版   2、将bin目录路径添加到环境变量 四、简繁体转换   E:\wiki\extracted\AA> opencc -i wiki.txt -o wiki_jian.txt -c E:\wiki\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json 五、分词、分字   将wiki_jian.txt按照分词和分字两种方法进行切分,并保存到txt文件中 # 模型指标 单模型|正确率|召回率|F1值 --|--|--|--| 模型1|0.862|0.767|0.812 模型2|0.859|0.758|0.805 模型3|0.9***|0.370|0.535 模型4|0.931|0.570|0.707 模型5|0.924|0.611|0.735 融合效果|正确率|召回率|F1值 --|--|--|--| top1(sim>0.8)|0.895|0.812|0.851 top5(sim>0.6)|0.***4|0.962|0.973

近期下载者

相关文件


收藏者