• PUDN用户
    了解作者
  • Java
    开发工具
  • 10KB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • 1 积分
    下载积分
  • 203
    下载次数
  • 2012-05-23 17:40
    上传日期
文本聚类的java算法,包括文本的预处理、特征词提取、词频统、权重计算、文本聚类等
textcluster.zip
  • textcluster
  • WawaKMeans.java
    5.5KB
  • TermVector.java
    1.4KB
  • Tokeniser.java
    1.5KB
  • Program.java
    3.4KB
  • input.txt
    2.1KB
  • WawaCluster.java
    1.5KB
  • TFIDFMeasure.java
    6.8KB
  • StopWordsHandler.java
    1.1KB
  • ITokeniser.java
    204B
内容介绍
可口可乐 超标 含有 消毒水 产品 召回 有关部门 调查 南京 发现 大量 蛤蟆 过街 怀疑 地震 南京 专家 蛤蟆 与 地震 无关 过长 时间 颠簸轮胎定位 失效 出 现车辆跑 偏 跳动 四轮定位 动 平衡 帮助 调校轮胎定位 油液检查 过长途 行驶 机油 冷却液 消耗 非常大 归来后应 及时查看 余量不足 应马上补充 如机油 冷却液 出现发黑 变质 立即更换 更换 前需彻底 清洁 油箱 水箱 防止旧液 污染 外郊 外灰尘比市内多 空滤积尘过多 及时更换 以免 进气 受阻 美车饰 汽车 百货 现正举办 欢庆五一 车行天下 活动 凡光临美车饰 汽车 百货 私车 主均可免费 享受 轮胎安 全检测 轮胎充氮 气 空调风口检测 清洗 服务 活动 期间 凡 在美车饰 汽车 百货接受 光触媒 服务 获赠价值 内饰 清洗 底盘 装甲 产品 买五送一 超值 优惠 接受 电泳镀膜 服务 获赠价值 应急工具箱 可口可乐 氯 超标 市民 怀疑 有损 健康 更严重 有害 物质 会对神经 系统 免疫 系统 内分泌系统 生殖系统 产生 不利 影响 有可能致癌 车内 装饰 越多 产生 车内 空气 污染 可能 越大 特别 夏季 由于 空调 车窗紧闭 车内空气 不能 及时 流通 进一步 加剧 车内空气 污染 长期 污染 环境 驾车 会导致驾驶员 头晕 困倦 咳嗽 不良反应 导致 情绪 压抑 烦躁 注意力 无法集中 导致交 通事故 健康 提示 新购或刚进 行过 室内 装修 车辆 使用前 先进行汽车 室内 消毒 感到自己 车内 有异味 建议您 为了 自己 身体 健康 考虑进 行一次 车内 消毒 进行 车内 消毒 尽量选择 专业 产品 设备 而空气 清新剂 香水 只能 起到 压制 异味 作用 并不能 消除 车内 苯 甲醛 有害 物质 山西省 质监局 消息 称 针对 媒 体披露 可口可乐 山西 饮料 有限公司 含氯 软化 水混 入部分 批次饮料产品 事件 调查 根据相关 法律法规规定 山西省 质监局对可口可乐 山西 饮料 有限公司 做出 停产 整改 行政 处罚 山西省 质监局 组成调查 进驻口可乐 山西 饮料 有限公司 通过 现场 检查 抽检 样品 查阅记录 询问 员工 方式 认定 媒体报道 情况 属实 同时 调查 发现 公司 存在 个别 生产条件 不符合 相关 规定 问题 山西省 质监局 月 日根据相关 法律法规 对可口可乐 山西 饮料 有限公司 做出 停产 整改 行政 处罚 可口可乐 山西 饮料 有限公司 含氯门 事件 查实 遭到 停产 整改 市民 关 心问题产品 有 无进北京 昨天 记者 走访 北京 超市 销售 可口可乐多 本地 所产 没有 发 现 地址 标 为山西 可乐产品 可口可乐 中国公司 昨天 通过 微博发 声明 致歉 并称 媒体 有误 流入 市场 可乐 饮料 没提及 是否 采取 召回 退货 措施
评论
    相关推荐
    • 基于K-means的文本聚类实验 Java
      使用K-means算法思想对于从欣欣旅游网上爬下来的文本数据进行分类的一次实验。
    • 使用k均值的中间数据聚类
      将功能添加到k均值以缺失数据,混合数据以及选择簇数
    • 数据挖掘算法的有关资料
      详细讲述了数据挖掘的基本概念和数据预处理过程,介绍了定性归纳,分类与预测,关联挖掘,聚类分析等常用的挖掘算法,最后还介绍了比较复杂的数据挖掘算法
    • Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法
      利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。
    • TextCluster:短文本聚类预处理模块
      文本聚类是常用的文本预处理步骤,可以用于洞察文本常见模式,分析设计语义解析规范,加速相似句子查询等。本项目实现了内存友好的短文本聚类方法,并提供了相似句子查询接口。 依赖库 点安装tqdm解霸 使用方法 ...
    • k-means聚类算法及matlab代码-CS205_final_project:使用OpenMP,MPI和CUDA进行并行集群
      k-means聚类算法及matlab代码目录 介绍 K-均值聚类是一种简单且可扩展的聚类方法,它以一种客观的方式将观察结果划分为k个聚类。 它具有非常广泛的应用,例如图像分割,零售产品分类(Kusrini,2015),温室气体排放...
    • 北京地区网络招聘信息文本挖掘.rar
      使用python对51job的招聘信息进行爬虫,使用python对职位信息输出词云,词频统计图,使用jieba库进行分词,然后使用gensim的word2vec进行词向量训练,然后使用sklearn的k-means算法进行聚类。压缩包内有代码,数据,...
    • nlp之文档相似性.rar
      而有了文本之间相似性的度量方式,我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析;另一方面,我们也可以利用文本之间的相似性对大规模语料进行去重预处理,或者...
    • 数据挖掘算法实例.PDF
      第一章 数据挖掘基本知识.pdf 第二章 数据预处理.pdf 第四章 分类与预测.pdf .. 第七章 复杂数据的挖掘.pdf
    • classify.zip
      基于朴素贝叶斯的文本聚类实现,有监督学习算法