TextClassifier

所属分类:自然语言处理
开发工具:Others
文件大小:0KB
下载次数:0
上传日期:2023-08-20 15:16:56
上 传 者sh-1993
说明:  新闻文本分类器,
(News text classifier,)

文件列表:
chart/ (0, 2023-09-01)
chart/procedure chart/ (0, 2023-09-01)
chart/procedure chart/textCNN.png (165629, 2023-09-01)
chart/procedure chart/鍔熻兘绾ф暟鎹娴佸浘.png (159155, 2023-09-01)
chart/procedure chart/瀹炰綋鑱旂郴鍥.png (319790, 2023-09-01)
chart/procedure chart/实体联系图_新闻.png (91086, 2023-09-01)
chart/procedure chart/瀹炰綋鑱旂郴鍥綺娴忚堣板綍.png (65694, 2023-09-01)
chart/procedure chart/实体联系图_用户.png (84065, 2023-09-01)
chart/procedure chart/瀹炰綋鑱旂郴鍥綺绠$悊鍛.png (62510, 2023-09-01)
chart/procedure chart/灞傛″浘_涓浜轰俊鎭绠$悊.png (12319, 2023-09-01)
chart/procedure chart/灞傛″浘_鏂伴椈涓鎬ф帹鑽.png (15038, 2023-09-01)
chart/procedure chart/灞傛″浘_鏂伴椈鏁版嵁鐖鍙.png (15059, 2023-09-01)
chart/procedure chart/灞傛″浘_鏂伴椈鏂囨湰鍒嗙被.png (30813, 2023-09-01)
chart/procedure chart/灞傛″浘_鐢ㄦ埛鐧诲綍绠$悊.png (13568, 2023-09-01)
chart/procedure chart/灞傛″浘_椤跺眰.png (24505, 2023-09-01)
chart/procedure chart/数据库表联系.png (59300, 2023-09-01)
chart/procedure chart/数据流图_新闻分类.png (64046, 2023-09-01)
chart/procedure chart/鏁版嵁娴佸浘_鏂伴椈鐖鍙.png (50591, 2023-09-01)
chart/procedure chart/数据流图_用户登录.png (84666, 2023-09-01)
chart/procedure chart/鏁版嵁娴佸浘鏂伴椈鎺ㄩ佷笌妫绱.png (60529, 2023-09-01)
chart/procedure chart/数据流图用户信息管理.png (87664, 2023-09-01)
chart/procedure chart/妯″潡璁捐℃祦绋嬪浘_鎺ㄨ崘鏂伴椈鎺ㄩ.png (88127, 2023-09-01)
chart/procedure chart/妯″潡璁捐℃祦绋嬪浘_鐧诲綍涓庢敞鍐.png (207709, 2023-09-01)
chart/procedure chart/鐖鍙栬矾寰勬祴璇.png (57050, 2023-09-01)
chart/procedure chart/系统功能结构.png (97742, 2023-09-01)
chart/procedure chart/杞浠剁粨鏋刜鍒嗙被鍔犲伐.png (117480, 2023-09-01)
chart/procedure chart/杞浠剁粨鏋刜鏁版嵁鏄剧ず .png (32995, 2023-09-01)
chart/procedure chart/杞浠剁粨鏋刜鏁版嵁杈撳叆.png (72426, 2023-09-01)
chart/procedure chart/杞浠剁粨鏋刜鏂伴椈灞曠ず.png (32755, 2023-09-01)
chart/procedure chart/杞浠剁粨鏋刜椤跺眰.png (50096, 2023-09-01)
chart/procedure chart/顶层数据流图.png (48529, 2023-09-01)
chart/screenshot/ (0, 2023-09-01)
chart/screenshot/涓浜烘帉蹇.png (159706, 2023-09-01)
chart/screenshot/淇鏀瑰垎绫.png (82819, 2023-09-01)
chart/screenshot/淇鏀瑰瘑鐮.png (191285, 2023-09-01)
chart/screenshot/分类.png (76402, 2023-09-01)
chart/screenshot/删除.png (221676, 2023-09-01)
chart/screenshot/鏁版嵁棰勮.png (297062, 2023-09-01)
chart/screenshot/鏂伴椈鐖鍙1.png (31078, 2023-09-01)
... ...

# News-text-classifier ## 1 目录 ├─chart │ ├─procedure chart:设计流图 │ └─screenshot:运行截图 ├─code │ ├─databases │ ├─input:训练数据和预测数据 │ ├─model_and_dict:模型和词典 │ ├─output:TextCNN的输出 │ └─temp_and_file:软件运行时所需的文件以及输出文件 ├─document:设计文档 └─references ## 2 算法介绍 ### 2.1 TextCNN TextCNN(文本卷积神经网络)本质也是卷积神经网络,在处理一个句子的时候,将单词的词向量按顺序拼接成一个矩阵(矩阵的行数对应句子的单词数量,列数为词向量的维度),类似图片的像素矩阵。然后使用不同尺寸的卷积核来在句子的词向量矩阵上进行卷积操作,每个卷积核会捕捉一种局部特征。然后通过池化层降低维度,保留关键特征,最后通过全连接层完成最终的类别划分。 详细内容请参考:https://arxiv.org/abs/1408.5882 替代文本 ### 2.2 训练过程 替代文本 将数据进行预处理(分词,去停用词,去非中文)后,使用预训练的词典,将单词矩阵(一行是一个句子)转换成单词索引矩阵,训练数据一共180000条,将所有文本长度补齐至12个单词长度。按照batch_size = 64划分批次,通过embeding层将每一个单词映射成64维向量,使用unsqueeze函数添加一个维度以进行卷积操作。分别使用H = 3, 4, 5三种尺寸的卷积核进行卷积操作(卷积核宽度等于词向量的维度),并通过relu函数激活,然后最大池化降维。最后通过全连接层和softmax层映射到10个class。 以下是卷积层输出的维度计算。 替代文本 ## 3 系统使用说明 本系统使用python语言开发,使用pyqt5程序包设计系统界面,利用MySQLWorkbench连接数据库。 ### 3.1 系统运行环境和配置 | 项目 | 详情 | | -------- | :-------: | | 开发硬件环境 | AMD Ryzen 5 3500U 2.10GHz 16.0GB内存 | | 操作系统 | Windows11家庭中文版 | | 开发环境与工具 | PyCharm Community Edition 2022.1.3;pyQt5 | | 编程语言 | python 3.11 | | 模型 | TextCNN | ### 3.2 系统操作说明 #### 3.2.1 登录模块说明 以下是登录注册模块截图,用户账号由8位数字组成,密码长度在8-16位字符,登录界面和账号注册界面右下角都有勾选框,用户可选择注册为普通用户或管理员,并且登录对应账号。 替代文本 替代文本 ### 3.2.2 新闻爬取模块说明 新闻爬取模块大致分为两块,新闻的预爬取和正式爬取,用户(管理员)可选择爬取新闻的类别和爬取数量(最大默认为80条),点击“预爬取”按钮,程序开始获取新闻标题和各条新闻的url,接着点击“爬取”按钮,程序开始逐条爬取新闻,并计数爬取失败的条数,最后点击“保存到数据库”,若数据库已经保存了某条新闻,则相同的新闻不会二次入库,并提示保存失败条数。 替代文本 替代文本 替代文本 ### 3.2.3 数据预处理模块说明 数据预处理主要用于处理乱码数据和内容缺失数据,进入“数据预处理”界面,用户点击“刷新”按钮获取最新数据,用户可查看到各新闻标题以及新闻链接,选中列表中的新闻,点击“查看内容”按钮,可在左下角文本显示框中查看新闻内容,点击“词云”按钮,可对新闻文本生成词云,对于缺失数据,用户可在选中后点击“删除记录”按钮删除对应数据。 替代文本 替代文本 ### 3.2.4 新闻分类模块说明 进入“文本分类”模块,用户点击“刷新”按钮,获取最新数据,点击“执行分类”按钮即可对新闻进行分类(程序已保存训练好的模型),点击“重置”按钮会将当前管理员管理的所有新闻分类信息重置,最后,若对分类有异议,可自行更改。 替代文本 替代文本 替代文本 ### 3.2.5 管理员个人中心模块说明 管理员个人中心界面所显示的“贡献值”是管理员所管理的所有新闻的计数,左下的表格是对应类别的计数。点击“编辑个人信息”按钮即可跳转信息编辑界面,提供修改昵称和个人简介以及密码修改服务。点击“登出账号”将退出当前账号,跳转至登录界面。 替代文本 替代文本

近期下载者

相关文件


收藏者