Oscars-Ratings-and-Films-Oh-Py:针对ETL的UNCC数据分析训练营项目-基于奥斯卡和流媒体服务成功

  • X2_898346
    了解作者
  • 1.5MB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • VIP专享
    资源类型
  • 0
    下载次数
  • 2022-06-13 03:49
    上传日期
奥斯卡,评级和电影-哦,Py! 背景 这似乎是过去的往事,但确实有人去过电影院。随着流媒体服务和Covid的出现,我们大多数人都在舒适的沙发上欣赏电影。我们有很多电影选择!我们如何知道我们选择的是“质量”,还是某些东西是“质量”,这是普通流媒体真正想要观看的东西?我们从奥斯卡金像奖数据库和流媒体服务数据库中提取了数据,以尝试确定: 获奖电影实际上具有很高的用户评价吗? 奖项是否会影响电影在流媒体服务上的受欢迎程度? 屡获殊荣的导演会获得更高的评价吗? 具有获奖配乐的电影是否具有更高的知名度? 萃取 第一个数据集是从Kaggle.com以CSV格式提取的。这些数据包括有关电影标题,用户评分,支持电影,导演的流媒体服务以及发行年份,类型和运行时间的详细信息。 团队利用DataHub以JSON格式提取了第二个数据集。该数据集提供了详细的年份,奖项类别,获奖者(T / F)和获奖者姓名。 这两个数
Oscars-Ratings-and-Films-Oh-Py-main.zip
  • Oscars-Ratings-and-Films-Oh-Py-main
  • streams_df.csv
    682.3KB
  • Resources
  • the_oscar_award.csv
    892KB
  • MoviesOnStreamingPlatforms.csv
    1.8MB
  • cleaned_data.csv
    779KB
  • data_csv.csv
    716.8KB
  • datapackage.json
    7.6KB
  • src
  • db-queries.sql
    747B
  • db-objects.sql
    998B
  • Images
  • ER Diagram.png
    132.4KB
  • Img1.jpg
    34.4KB
  • README.md
    2.3KB
  • Cleaned Data-checkpoint.ipynb
    91.7KB
  • .gitignore
    1.3KB
内容介绍
# Oscars,Ratings,and Films-Oh Py! ## Background It seems like a bygone activity of yesteryear, but yes people did go to movie theaters. With the advent of streaming services and well Covid, most of us are enjoying film from the comfort of our couch. We have many movie options! How do we know if what we select is “quality” and if something is “quality” is it something the average streamer really wants to watch? We extracted data from an Academy Awards Database and a Streaming Services database to try and determine: * Do award winning films actually have high user ratings? * Do awards impact film popularity on streaming services? * Do award winning directors receive higher ratings? * Do films with winning soundtracks have higher popularity? ## Extraction The first dataset was extracted from Kaggle.com in CSV. This data included details on movie titles, user ratings, streaming services supporting the film, director, and release year, genres, and runtime. The team leveraged DataHub for the second dataset extraction in JSON format. This data set provided details year, award category, winner (T/F), and winner name. Both datasets were downloaded and imported into Python for cleaning. * https://www.kaggle.com/ruchi798/movies-on-netflix-prime-video-hulu-and-disney * https://datahub.io/rufuspollock/oscars-nominees-and-winners ## Transformation ### Summary of Streaming Data Cleanse * Drop empty columns * Remove rows that did not contain rating information * Split First and Second Director, drop any additional director information * Split Location cell into Primary and Secondary Location, drop other locations * Split Language into Primary and Secondary Language, drop other languages * Split Genres into eight separate columns * Convert streaming services cells to Booleans ### Challenges The greatest challenge of the Streaming Data was that several cells contained multiple data points separated by commas. Some of these cells were not applicable for the team's analysis, thus the decision was made to drop any additional data elements post the primary and secondary listing. The exception being the genres information which was split and added to eight new genre columns. ## Load UNCC Data Analytics Bootcamp Project for ETL- Based on the concept of oscars and successful films on streaming services.
评论
    相关推荐
    • FocalSweepDataset:聚焦扫描的数据集
      为了提高数据集的鲁棒性,我们为每个场景中的聚焦扫描成像设置了9种不同的ETL电流变化范围。 因此,我们的数据集总共包含2106套不同的图像对。 我们的数据集是第一个焦点扫描图像数据集,并且此数据足以训练用于...
    • ETL4LOD-Graph:Pentaho Data Integration (Kettle) 处理 RDF Graph 数据
      ETL4LOD - 图形 Pentaho 数据集成 (Kettle) 处理 RDF 图数据的步骤。 GraphSparql端点 对端点运行 sparql 查询并检索一组由三元组组成的 RDF 图数据。 GraphSemanticLevelMarker 读取 RDF 图数据,评估其语义表达...
    • coursera_DSS_03_GettingData_etl:在 Coursera 上获取和清理数据的课程项目
      该项目的目的是展示收集、处理和清理数据集的能力。 目标是准备可用于以后分析的整洁数据。 包含在此 Repo 中 README.md - 解释脚本如何工作以及它们是如何连接的 CodeBook.md - 描述变量、数据以及为清理数据而执行...
    • ETL_Project
      数据集包括休斯顿都会区待售房屋。 HAR.com为其数据提供过滤器。 使用“有效”列表和“ HISD(休斯顿独立学区)”标准对房屋进行过滤。 数据已于2021年2月6日使用德克萨斯州房地产许可证#725751下载。 TEA.texas...
    • ETL_project
      在本项目中,我们使用了csv格式的两个数据集:一个涉及视频游戏销售,另一个涉及电子竞技玩家的收入。 该项目的总体目的是对这些数据集进行转换,以便以后可以相互评估它们,从而深入了解所代表游戏的竞争性和休闲...
    • 超越ETL 的下一代数据集成平台(28 页).rar
      数据集成方案,介绍了新一代的数据集成理念,从ETL->ELT, 可热插拔的数据流等等
    • ETL挑战:ETL项目
      HEAD此ETL项目包含两个数据集,其中一个来自 ,其中包括NYPD投诉-data和其他数据来自 ,其中包含美国邮政编码的纬度和经度。 我们决定使用两个月(七月和十二月)和两年(2019、2020年)。 我们选择7月和12月作为...
    • ETL4LOD:ETL4LOD-步骤完成Pentaho数据集成(水壶)可轻松链接数据
      ETL4LOD-步骤进行Pentaho数据集成(水壶)可轻松链接数据数据属性映射: 在数据属性映射中,您可以选择一个枫糖厂,一个通缉犯,一个通缉犯,乌干达RDF组件(sujeito,predicado e objeto)和一个通缉犯,以及...
    • Pentaho_Data_Integration:实用的ETL通信和Pentaho数据集成方面的实际操作讲师Charles Li
      Pentaho_Data_Integration Arquivos epráticas亲自完成ETL通讯和Pentaho数据集成迷你讲师Charles Lima na plataforma da Udemy。
    • ETL-project
      数据集来自Data.World和Kaggle。 我们将寻找IMBD的用户评分与Rotten Tomatoes的批评者评分之间的差异。 由于大流行而来,这家剧院正在寻找一系列受欢迎的电影,以鼓励人们重返剧院。 数据将用于选择将在此重新上映...