Getting-and-Cleaning-Data:这个存储库存储了“获取和清理数据”课程的代码和密码本

  • A1_613223
    了解作者
  • 3.7KB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • VIP专享
    资源类型
  • 0
    下载次数
  • 2022-06-13 05:33
    上传日期
获取和清理数据 这个存储库存储了“获取和清理数据”课程项目的代码和密码本 课程项目: 目前所有数据科学中最令人兴奋的领域之一是可穿戴计算——例如参见本文。 Fitbit、Nike 和 Jawbone Up 等公司正在竞相开发最先进的算法来吸引新用户。 从课程网站链接到的数据代表从三星 Galaxy S 智能手机的加速度计收集的数据。 获取数据的站点提供了完整的描述: 以下是该项目的数据: 您应该创建一个名为 run_analysis.R 的 R 脚本来执行以下操作。 合并训练集和测试集以创建一个数据集。 仅提取每个测量值的平均值和标准偏差的测量值。 使用描述性活动名称来命名数据集中的活动 使用描述性变量名称适当地标记数据集。 根据步骤 4 中的数据集,创建第二个独立的 tidy 数据集,其中包含每个活动和每个主题的每个变量的平均值。 run_analysis.R 脚本通过以
Getting-and-Cleaning-Data-master.zip
  • Getting-and-Cleaning-Data-master
  • README.md
    2.6KB
  • codebook.md
    1.6KB
  • run_analysis.R
    2.5KB
内容介绍
# Getting-and-Cleaning-Data This repository stores the code and codebook for the "Getting and Cleaning Data" course project The course project: One of the most exciting areas in all of data science right now is wearable computing - see for example this article . Companies like Fitbit, Nike, and Jawbone Up are racing to develop the most advanced algorithms to attract new users. The data linked to from the course website represent data collected from the accelerometers from the Samsung Galaxy S smartphone. A full description is available at the site where the data was obtained: http://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones Here are the data for the project: https://d396qusza40orc.cloudfront.net/getdata%2Fprojectfiles%2FUCI%20HAR%20Dataset.zip You should create one R script called run_analysis.R that does the following. * Merges the training and the test sets to create one data set. * Extracts only the measurements on the mean and standard deviation for each measurement. * Uses descriptive activity names to name the activities in the data set * Appropriately labels the data set with descriptive variable names. * From the data set in step 4, creates a second, independent tidy data set with the average of each variable for each activity and each subject. The run_analysis.R script cleans up the data by: 1. Merging the training dataset namely X_train, y_train, subject_train to their corresponding X_test, y_test, subject_test in the test datasets to create one seamless data set. Thus X_train.txt is merged with X_test.txt y_train.txt is merged with y_test.txt subject_train.txt is merged with subject-test.txt using the rbind() function 2. Extracting the measurements on the mean and standard deviation for each measurement from the features.txt 3. Applying the appropriate descriptive activity names extracted from the activity_labels.txt dataset to the respective activities in the activities dataset. The labels are converted to lower case while underscores and paranthesis are removed The descriptive names are: * walking * walkingupstairs * walkingdownstairs * sitting * standing * laying 4. Labelling the dataset with the appropriate descriptive names and then merging all 3 datasets namely Subject_data, Y_data and X_data into a single data frame. 5. Creating a 2nd, independent tidy data set with the average of each measurement for each activity and each subject. The resultant data is save as dataset_averages using the write.table() function with row.name=FALSE option.
评论
    相关推荐
    • 123-数据集
      ClassIn产品手册(运营端).pdf
    • TestData:中央存储库,用于存储小型数据集以进行测试
      每个数据集都应存储在其相应的子文件夹中,并带有一个README文件,该文件提供了该数据集的描述性概述。 释放资产 在推送标签(vx.yz)时会自动生成 贡献 如果您要添加更多数据集,请派生此存储库,添加数据集和...
    • Datasets:用于存储数据集存储
      Datasets:用于存储数据集存储
    • publicdataset:我的公共数据集存储
      公共数据集 我的公共数据集存储
    • 通过数据集
      威盛数据集存储库包含: 将VIA数据集与两个任务一起使用的过程:对象检测和语义分段。 如何实现到您的自定义数据集中。 下载数据集 文献资料 物体检测 对象检测文件夹包含:数据集文件夹,两个文件.csv(test....
    • ex_datasets:数据集存储
      ex_datasets:数据集存储
    • Polypheny-Hub:用于存储数据集和配置的平台
      Polypheny Hub是一个用于存储数据集和配置的平台。 路线图 有关建议的功能(和已知问题)列表,请参阅的问题。 贡献 我们非常欢迎您对Polypheny Hub的贡献。 如果您想贡献,请分叉存储库并作为拉取请求提交您的更改...
    • 法律对话系统数据集
      此外,它还包括各种语言资源,包括培训数据集和会话测试集,这些语言资源是专门为合法的doamin设计的。 session_test_set.xlsx包含旨在测试用户和对话框系统之间所有可能的唯一对话的对话流。 每个对话流都是一个...
    • datasets:OpenTripModel数据集
      存储库包含序列化的OpenTripModel格式的一些数据集数据集仅作为示例提供,并不能保证准确性和最新性。 提供的数据集 当前,提供了以下数据集: 荷兰的环境区。 这是一组位置,用于定义荷兰某些城市的环境区域...
    • ICEWS:探索 ICEWS 数据集
      ICEWS 此存储库中的文件是我为探索 ICEWS 而创建的脚本。 主要目标是了解 ICEWS 源并与其他事件数据集进行比较,尤其是 GDELT。