uests-to-the-NASA-Kennedy-Space-Center-WWW-server

所属分类:交通/航空行业
开发工具:Python
文件大小:3KB
下载次数:0
上传日期:2019-09-09 19:21:24
上 传 者sh-1993
说明:  美国国家航空航天局肯尼迪航天中心测试
(Teste de log da NASA Kennedy Space Center)

文件列表:
Teste_Nasa_Spark.py (3158, 2019-09-10)

Teste de SPARK - NASA Kennedy HTTP requests to the NASA Kennedy Space Center WWW server Dataset oficial: https://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html [NASA_access_log_Jul95.gz] (ftp://ita.ee.lbl.gov/traces/NASA_access_log_Jul95.gz) [NASA_access_log_Aug95.gz] (ftp://ita.ee.lbl.gov/traces/NASA_access_log_Aug95.gz) 1a) Qual o objetivo do comando cache em Spark? R: Armazenar variavies do tipo lazy para serem reutilizadas repetidamente. Essas variaveis nao ficam na memoria, elas so sao executadas no momento em que as utilizam, otimizando o codigo. 2a) O mesmo codigo implementado em Spark e normalmente mais rapido que a implementacao equivalente em MapReduce. Por que? R: Porque o MapeReduce grava os dados em disco, enquanto o Spark grava em Memoria. 3a) Qual e a funcao do SparkContext? R: Serve para conectar uma linguagem de programacao ou um cluster ao Spark, disponibilizando recursos e executando tarefas. 4a) Explique com suas palavras o que e Resilient Distributed Datasets (RDD). R: RRD e a distribuicao dos dados em varios nos de um cluster, fazendo execucoes simultaneas e em caso de falhas de um no os dados serao reprocessados em um outro no. 5a) GroupByKey e menos eficiente que reduceByKey em grandes dataset. Por que? R: Porque no ReduceByKey os dados sao combinados e a soma dos valores sao feitos de forma parcial, somando um a um dos valores encontrados, enquanto no GroupByKey so faz a soma depois de encontrar todos as combinacoes de elementos, obtendo um maior uso de memoria. 6a) Explique o que o codigo Scala faz (...): R: 1a Linha - faz a leitura de um arquivo 2a Linha - quebrar o texto quando encontrar espaco vazio, fazendo assim a separacao das palavras; 3a Linha- faz o mapeamente artribuindo o valor "1" a cada palavra; 4a Linha- faz o a reducao agregando as palavras e somando os valores; 5a Linha - salva o arquivo 7a) Responda as seguintes questoes devem ser desenvolvidas em Spark utilizando a sua linguagem de preferencia. 1. Numero de hosts unicos. 2. O total de erros 404. 3. Os 5 URLs que mais causaram erro 404. 4. Quantidade de erros 404 por dia. 5. O total de bytes retornados. R: 1 - Numero de hosts unicos e 137978 2 - O total de erros 404 e de 20901 3 - Os 5 URLs que mais causaram erro 404 sao: ts8-1.westwood.ts.ucla.edu/images/Nasa-logo.gif nexus.mlckew.edu.au/images/nasa-logo.gif 203.13.168.17/images/nasa-logo.gif 203.13.168.24/images/nasa-logo.gif crl5.crl.com/images/nasa-logo.gif 4 - Quantidade de erros 404 por dia: 01/Jul/1995: 316 02/Jul/1995: 291 03/Jul/1995: 474 04/Jul/1995: 359 05/Jul/1995: 497 06/Jul/1995: ***0 07/Jul/1995: 570 08/Jul/1995: 302 09/Jul/1995: 348 10/Jul/1995: 3*** 11/Jul/1995: 471 12/Jul/1995: 471 13/Jul/1995: 532 14/Jul/1995: 413 15/Jul/1995: 254 16/Jul/1995: 257 17/Jul/1995: 406 18/Jul/1995: 465 19/Jul/1995: 639 20/Jul/1995: 428 21/Jul/1995: 334 22/Jul/1995: 192 23/Jul/1995: 233 24/Jul/1995: 328 25/Jul/1995: 461 26/Jul/1995: 336 27/Jul/1995: 336 28/Jul/1995: 94 01/Aug/1995: 243 03/Aug/1995: 304 04/Aug/1995: 346 05/Aug/1995: 236 06/Aug/1995: 373 07/Aug/1995: 537 08/Aug/1995: 391 09/Aug/1995: 279 10/Aug/1995: 315 11/Aug/1995: 263 12/Aug/1995: 196 13/Aug/1995: 216 14/Aug/1995: 287 15/Aug/1995: 327 16/Aug/1995: 259 17/Aug/1995: 271 18/Aug/1995: 256 19/Aug/1995: 209 20/Aug/1995: 312 21/Aug/1995: 305 22/Aug/1995: 288 23/Aug/1995: 345 24/Aug/1995: 420 25/Aug/1995: 415 26/Aug/1995: 366 27/Aug/1995: 370 28/Aug/1995: 410 29/Aug/1995: 420 30/Aug/1995: 571 31/Aug/1995: 526 Codigo no GitHub: https://github.com/natannasciment0/HTTP-requests-to-the-NASA-Kennedy-Space-Center-WWW-server/blob/master/Teste_Nasa_Spark.py

近期下载者

相关文件


收藏者