spark-after-dark

  • Y8_966276
    了解作者
  • 98.1MB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • VIP专享
    资源类型
  • 0
    下载次数
  • 2022-04-29 07:23
    上传日期
安装 请将此存储库克隆到您的主目录,以便可以按以下方式访问/ data: 〜/ spark-after-dark /数据 跑步 请从主目录运行您的spark-shell命令,以便可以从Spark应用程序代码中访问数据文件,如下所示(相对于当前目录/主目录): sc.textFile(“ spark-after-dark / data / ratings.csv.gz”) 所有代码都可以从〜/ spark-after-dark / src / scala / ...复制/粘贴到spark-shell中。 数据集 ratings.csv(FromUserID,ToUserID,Rating) FromUserID是提供评分的用户 ToUserID是已被评级的用户 FromUserID的范围在1到135,359之间 ToUserID的范围是1到220,970(并非每个配置文件都已评级)
spark-after-dark-master.zip
内容介绍
## Installation * Please clone this repo to your home directory so that /data is accessible as follows: * ~/spark-after-dark/data ## Running * Please run you spark-shell command from your home directory so that data files will be accessible from within your Spark application code as follows (relative to your current/home directory): * sc.textFile("spark-after-dark/data/ratings.csv.gz") * All code can be copy/pasted into the spark-shell from ~/spark-after-dark/src/scala/... ## Datasets * http://www.occamslab.com/petricek/data/ * ratings.csv (FromUserID,ToUserID,Rating) * FromUserID is user who provided rating * ToUserID is user who has been rated * FromUserIDs range between 1 and 135,359 * ToUserIDs range between 1 and 220,970 (not every profile has been rated) * Ratings are on a 1-10 scale where 10 is best (integer ratings only) * Only users who provided at least 20 ratings were included * Users who provided constant ratings were excluded * gender.csv (UserID,Gender) * Gender is denoted by a "M" for male and "F" for female and "U" for unknown ## Examples * SQL: Using SQL and Parquet to query descriptive summary statistics on the datasets * Core: RDD basics and joins * GraphX: Using PageRank to determine top most-desirable users * MLlib: Using Alternating Least Squares (ALS) to recommend new users ## Presentations * Spark After Dark: pdf/SparkAfterDark.pdf
评论
    相关推荐
    • Scala语言实现Kmeans聚类算法(含有数据
      包含数据集 0 1 22 9 181 5450 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 8 8 0.00 0.00 0.00 0.00 1.00 0.00 0.00 9 9 1.00 0.00 0.11 0.00 0.00 0.00 0.00 0.00 0 1 22 9 239 486 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 8 8 ...
    • functional-progrraming-with-scala
      作业设置 作业包括4个部分: 在这一部分中,您将对Scala进行简要介绍。 它仅教您基础知识,您需要在完成作业时学习其余内容。 在函数式编程中,有一些...使用您在上一部分中学到的所有知识来处理Github提交的数据集
    • qdstreaming:流数据集上的查询驱动的实体解析
      数据集上的查询驱动的实体解析 编译 您需要安装Spark并在某个地方运行 sbt compile sbt -mem 8000 assembly 这将创建一个具有所有qdstreaming软件包的程序集jar。 要启动edu.ufl.cise.dsr.examples.WikiLink类,...
    • nightingales-rose:夜莺玫瑰的数据集
      著名数据集。 安装 $ npm install datasets-nightingales-rose 要在浏览器中使用,请使用 。 用法 var data = require ( 'datasets-nightingales-rose' ) ; 数据 著名数据集。 console . log ( data ) ; /* [ ...
    • scala例程:Scala例程
      从以下位置下载MovieLens 100K数据集:[ ] 解压缩它,然后将生成的ml-100k文件夹移动到scala-routines / data文件夹中。 在IntelliJ欢迎屏幕上,选择“打开或导入” 试试看 展开项目的树视图以显示scala-routines ...
    • dataFusion:非结构化和结构化数据集之间的匹配
      目的是通过将非结构化数据与结构化数据融合来提取有用的信息。 这个项目: 提取文本和元数据,并使用从多种非结构化文档格式(PDF,Word,Excel等)执行语言检测。 处理包括嵌入式文档,在图像的情况下,涉及使用 ...
    • telemetry-batch-view:一个Scala框架,用于构建遥测数据的派生数据集(即批处理视图)
      这是一个Scala应用程序,用于构建数据的派生数据集(也称为 。 原始JSON 操作存储在S3上的包含带 文件中。 通过例如Spark读取原始数据可能会很慢,因为对于给定的分析,通常仅使用几个字段。 更不用说解析JSON Blob...
    • Spark和Scala合集
      Scala编程实战+Python+Spark 2.0+Hadoop机器学习与大数据实战+Spark快速大数据分析
    • experience-platform-dsw-reference:数据科学工作区,包含样本配方,数据集和笔记本
      数据科学工作区参考 介绍 这是数据科学工作区的官方参考资料库。 可在此处找到文档中提到的所有样本配方,数据集或笔记本,以进行学习和指导开发。 可以在以下找到API文档:
    • ScaRTEC:基于事件演算形式主义的复杂事件识别引擎
      斯卡特 基于事件演算形式主义的复杂事件识别引擎 在Scala 2.11.7中实现 包含海事数据的样本数据集(2015年10月第一周)