VSMExperiment

所属分类:其他
开发工具:C/C++
文件大小:191KB
下载次数:6
上传日期:2018-05-07 23:02:02
上 传 者云中漫步xjr
说明:  1、 打开数据文本,将每一篇文章读入内存,并对每篇文章进行分词处理,将每一个词存储在vector<vector<string>>temp,一个二维容器,每篇文章的所有词语就是它的一个元素。 2、 得到词语在文档中的权重。首先计算每一个词语在它所属的文章中出现的次数,然后计算所属文章的长度,然后次数/长度,得出TF值;然后计算该词语在出现在所有文档中的文档数,出现的文档数/文档总数,得到IDF值,最后TF*IDF,即为词语的权重,将所有权重存储在vector<vector<double>>weight; 3、 计算文档相似度。首先将词语和它的权重存入vector<map<string, double>>data_weight,便于计算;然后每一篇文章与其它文章的相似度;先得到要得到两篇文章的所有词语,然后在data_weight里面得到每个词语的权重,然后计算相似度。 4、 最后,打印出词语的权重以及文档相似度。
(1, open the data text, read each article into memory, and divide the word for each article. Each word is stored in vector<vector<string>>temp, a two-dimensional container, and every word in each article is one of its elements.)

文件列表:
VSMExperiment (0, 2017-05-16)
VSMExperiment\Backup (0, 2017-05-09)
VSMExperiment\data.txt (144530, 2017-05-10)
VSMExperiment\data1.txt (5960, 2017-05-12)
VSMExperiment\similarfile.txt (369269, 2017-05-16)
VSMExperiment\UpgradeLog.htm (34436, 2017-05-09)
VSMExperiment\VSMExperiment.cpp (5030, 2017-05-16)
VSMExperiment\VSMExperiment.dsp (3485, 2017-05-09)
VSMExperiment\VSMExperiment.dsw (549, 2017-05-09)
VSMExperiment\VSMExperiment.ncb (33792, 2017-05-09)
VSMExperiment\VSMExperiment.opt (48640, 2017-05-09)
VSMExperiment\VSMExperiment.plg (3108, 2017-05-09)
VSMExperiment\VSMExperiment.sln (971, 2017-05-09)
VSMExperiment\VSMExperiment.v12.suo (28672, 2017-05-16)
VSMExperiment\VSMExperiment.vcxproj (6325, 2017-05-09)
VSMExperiment\weightfile.txt (291058, 2017-05-16)

近期下载者

相关文件


收藏者