NLP-NewsClassification

所属分类:特征抽取
开发工具:Jupyter Notebook
文件大小:4237KB
下载次数:0
上传日期:2022-12-23 06:30:32
上 传 者sh-1993
说明:  新闻分类,爬虫、RNN、LSTM、TextCNN、Bert、SVM、word2vec、glov
(News classification, crawler, RNN, LSTM, TextCNN, Bert, SVM, word2vec, glov)

文件列表:
DeepLearning (0, 2022-12-23)
DeepLearning\BERT.ipynb (50934, 2022-12-23)
DeepLearning\Data_PRE.ipynb (1039235, 2022-12-23)
DeepLearning\RNN.ipynb (52566, 2022-12-23)
DeepLearning\RNN2.ipynb (65043, 2022-12-23)
DeepLearning\RNN_TRUNCATE.ipynb (43824, 2022-12-23)
DeepLearning\TextCNN.ipynb (35592, 2022-12-23)
DeepLearning\TextCNN_WP.ipynb (40657, 2022-12-23)
DeepLearning\__init__.py (0, 2022-12-23)
Get_data (0, 2022-12-23)
Get_data\__init__.py (0, 2022-12-23)
Get_data\data_combination.ipynb (13688, 2022-12-23)
Get_data\data_filter.ipynb (12744, 2022-12-23)
Get_data\get_data.py (2714, 2022-12-23)
Get_data\hit_stopwords.txt (5285, 2022-12-23)
Get_data\train.csv (424436, 2022-12-23)
Get_data\train2.csv (414786, 2022-12-23)
Get_data\国际.csv (88982, 2022-12-23)
Get_data\思想.csv (77552, 2022-12-23)
Get_data\时事.csv (90102, 2022-12-23)
Get_data\科技.csv (89689, 2022-12-23)
Get_data\财经.csv (119044, 2022-12-23)
LICENSE (1066, 2022-12-23)
MachineLearning (0, 2022-12-23)
MachineLearning\Data_PRE.ipynb (4218575, 2022-12-23)
MachineLearning\__init__.py (0, 2022-12-23)
MachineLearning\支持向量机 (0, 2022-12-23)
MachineLearning\支持向量机\hit_stopwords.txt (5285, 2022-12-23)
MachineLearning\支持向量机\train2.csv (414786, 2022-12-23)
MachineLearning\支持向量机\新闻分类.ipynb (25596, 2022-12-23)
MachineLearning\新闻分类.ipynb (210757, 2022-12-23)
Utils (0, 2022-12-23)
Utils\Trie.py (681, 2022-12-23)
Utils\__init__.py (0, 2022-12-23)
Utils\utils.py (17726, 2022-12-23)
Utils\vocab.py (3299, 2022-12-23)
实验报告.md (25858, 2022-12-23)
... ...

# 新闻分类 使用selenium进行数据爬取,使用字典树,jieba,hanlp,PCA进行数据处理,使用朴素贝叶斯,SVM,LightGBM,BiLSTM,TextCNN,BERT等模型进行建模,使用折交叉验证,warm-up 等训练技巧,使用word2vec,Tfidf ,词袋,Bert来表示词向量。 模型效果: | 模型 | 测试集最好分数 | | :------------------------------: | :------------: | | 朴素贝叶斯(交叉验证的词袋表示) | 0.861 | | 支持向量机(折交叉验证) | 0.875 | | BiLSTM(预训练模型+warm-up) | 0.885 | | TextCNN(预训练模型) | 0.903 | | BERT(warm-up) | 0.88 | ## DeepLearning 深度学习模型来进行新闻分类,使用的模型有Bert,TextCNN,BiLSTM。词向量的表示使用预训练模型Word2vec ## MachineLearning 使用机器学习的方法进行新闻分类,使用的模型有朴素贝叶斯、SVM、LightGBM。词向量的表示词袋、Tfidf、Word2vec(utils中的Text2vec方法) ## Get_data 使用selenium的爬虫,爬取的澎湃新新闻的数据 ## Utils 一些封装的函数。vocab是词典。Trie是字典树。utils里面是函数的封装:分词函数、基于字典树的停用词过滤、Tetx2vec、TokenEmbedding、网络训练、数据加载函数、数据处理函数

近期下载者

相关文件


收藏者