词频统计

所属分类:数据结构
开发工具:C/C++
文件大小:1589KB
下载次数:0
上传日期:2020-08-30 12:10:50
上 传 者mo望
说明:  1. 首先分别统计所提供的两个文本文件中单词出现频率 为了提高算法的准确性,在此只统计字典中出现且不为停用词(stop-word)的单词。单词为仅由字母组成的字符序列,包含大写字母的单词应将大写字母转换为小写字母后进行词频统计。所提供的字典“dictionary.txt”文件和英文停用词表“stopwords.txt”文件 2. 分别取两个文本文件中出现频率最高的前N个单词。假设两个文本文件中出现频率最高的前N个单词中有M个单词相同,分别计算这M个单词在两个文本的前N个单词中的频率占比
(In order to improve the accuracy of the algorithm, only the words that appear in the dictionary and are not stop words are counted. Words are character sequences composed of letters only. Words containing capital letters should be converted into lowercase letters for word frequency statistics. Dictionary provided" dictionary.txt "Document and English stop list" stopwords.txt "Documents)

文件列表:
article1.txt (487972, 2019-09-26)
article2.txt (625119, 2019-09-26)
dictionary.txt (4678139, 2016-10-13)
results(example).txt (10359, 2020-02-24)
stopwords.txt (2242, 2019-07-25)
词频统计.c (7343, 2020-08-30)

近期下载者

相关文件


收藏者