similarityOfDocuments
所属分类:matlab编程
开发工具:Java
文件大小:4KB
下载次数:3
上传日期:2015-08-24 13:30:01
上 传 者:
shj_marina
说明: 利用词袋模型计算新闻的相关性,按照相似度由高到低返回新闻id
(compute similarity of articals using bag of words model)
文件列表:
similarityOfDocuments\code\Docweight.java (1107, 2013-05-15)
similarityOfDocuments\code\Main.java (2217, 2013-05-16)
similarityOfDocuments\code\Readin.java (3201, 2013-05-15)
similarityOfDocuments\code\Tingyong.java (988, 2013-04-21)
similarityOfDocuments\code (0, 2015-08-24)
similarityOfDocuments (0, 2015-08-24)
代码说明:
使用java语言,在eclipse下编写
Tingyong.java 建立停用词的哈希表
Readin.java
1 将***01文件读取,读取过程中去除停用词,同时生成bighash,key为文章的编号 ,value为文章内容,文章内容以dochash的形式存储,key为词 ,value为 词频,同时计算文章中最大词词频maxfq,
2 词频除以最大词词频为tf ,将wordhash中的value更新为tf .
3 根据dochash,生成词表wordhash。wordhash中key为词,value为每个词在几篇文章中出现。
4 遍历词表,根据docsum 计算idf ,并存于wordhash的value中。
Docweight.java
为避免重复计算,将每篇文章的权重计算出来,dochash的value为tf,wordhash的value为idf,相乘,并将结果存在哈希表weightindoc中。
Main.java
遍历bighash,利用wordhash和dochash中的值计算最终的相似度并写入文件
程序用时187.5秒
近期下载者:
相关文件:
收藏者: