similarityOfDocuments

所属分类:matlab编程
开发工具:Java
文件大小:4KB
下载次数:3
上传日期:2015-08-24 13:30:01
上 传 者shj_marina
说明:  利用词袋模型计算新闻的相关性,按照相似度由高到低返回新闻id
(compute similarity of articals using bag of words model)

文件列表:
similarityOfDocuments\code\Docweight.java (1107, 2013-05-15)
similarityOfDocuments\code\Main.java (2217, 2013-05-16)
similarityOfDocuments\code\Readin.java (3201, 2013-05-15)
similarityOfDocuments\code\Tingyong.java (988, 2013-04-21)
similarityOfDocuments\code (0, 2015-08-24)
similarityOfDocuments (0, 2015-08-24)

代码说明: 使用java语言,在eclipse下编写 Tingyong.java 建立停用词的哈希表 Readin.java 1 将***01文件读取,读取过程中去除停用词,同时生成bighash,key为文章的编号 ,value为文章内容,文章内容以dochash的形式存储,key为词 ,value为 词频,同时计算文章中最大词词频maxfq, 2 词频除以最大词词频为tf ,将wordhash中的value更新为tf . 3 根据dochash,生成词表wordhash。wordhash中key为词,value为每个词在几篇文章中出现。 4 遍历词表,根据docsum 计算idf ,并存于wordhash的value中。 Docweight.java 为避免重复计算,将每篇文章的权重计算出来,dochash的value为tf,wordhash的value为idf,相乘,并将结果存在哈希表weightindoc中。 Main.java 遍历bighash,利用wordhash和dochash中的值计算最终的相似度并写入文件 程序用时187.5秒

近期下载者

相关文件


收藏者