uests-to-the-NASA-Kennedy-Space-Center-WWW-server
所属分类:交通/航空行业
开发工具:Python
文件大小:3KB
下载次数:0
上传日期:2019-09-09 19:21:24
上 传 者:
sh-1993
说明: 美国国家航空航天局肯尼迪航天中心测试
(Teste de log da NASA Kennedy Space Center)
文件列表:
Teste_Nasa_Spark.py (3158, 2019-09-10)
Teste de SPARK - NASA Kennedy
HTTP requests to the NASA Kennedy Space Center WWW server
Dataset oficial: https://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html
[NASA_access_log_Jul95.gz] (ftp://ita.ee.lbl.gov/traces/NASA_access_log_Jul95.gz)
[NASA_access_log_Aug95.gz] (ftp://ita.ee.lbl.gov/traces/NASA_access_log_Aug95.gz)
1a) Qual o objetivo do comando cache em Spark?
R: Armazenar variavies do tipo lazy para serem reutilizadas repetidamente. Essas variaveis nao ficam na memoria, elas so sao executadas no momento em que as utilizam, otimizando o codigo.
2a) O mesmo codigo implementado em Spark e normalmente mais rapido que a implementacao equivalente em
MapReduce. Por que?
R: Porque o MapeReduce grava os dados em disco, enquanto o Spark grava em Memoria.
3a) Qual e a funcao do SparkContext?
R: Serve para conectar uma linguagem de programacao ou um cluster ao Spark, disponibilizando recursos e executando tarefas.
4a) Explique com suas palavras o que e Resilient Distributed Datasets (RDD).
R: RRD e a distribuicao dos dados em varios nos de um cluster, fazendo execucoes simultaneas e em caso de falhas de um no os dados serao reprocessados em um outro no.
5a) GroupByKey e menos eficiente que reduceByKey em grandes dataset. Por que?
R: Porque no ReduceByKey os dados sao combinados e a soma dos valores sao feitos de forma parcial, somando um a um dos valores encontrados, enquanto no GroupByKey so faz a soma depois de encontrar todos as combinacoes de elementos, obtendo um maior uso de memoria.
6a) Explique o que o codigo Scala faz (...):
R:
1a Linha - faz a leitura de um arquivo
2a Linha - quebrar o texto quando encontrar espaco vazio, fazendo assim a separacao das palavras;
3a Linha- faz o mapeamente artribuindo o valor "1" a cada palavra;
4a Linha- faz o a reducao agregando as palavras e somando os valores;
5a Linha - salva o arquivo
7a) Responda as seguintes questoes devem ser desenvolvidas em Spark utilizando a sua linguagem de preferencia.
1. Numero de hosts unicos.
2. O total de erros 404.
3. Os 5 URLs que mais causaram erro 404.
4. Quantidade de erros 404 por dia.
5. O total de bytes retornados.
R:
1 - Numero de hosts unicos e 137978
2 - O total de erros 404 e de 20901
3 - Os 5 URLs que mais causaram erro 404 sao:
ts8-1.westwood.ts.ucla.edu/images/Nasa-logo.gif
nexus.mlckew.edu.au/images/nasa-logo.gif
203.13.168.17/images/nasa-logo.gif
203.13.168.24/images/nasa-logo.gif
crl5.crl.com/images/nasa-logo.gif
4 - Quantidade de erros 404 por dia:
01/Jul/1995: 316
02/Jul/1995: 291
03/Jul/1995: 474
04/Jul/1995: 359
05/Jul/1995: 497
06/Jul/1995: ***0
07/Jul/1995: 570
08/Jul/1995: 302
09/Jul/1995: 348
10/Jul/1995: 3***
11/Jul/1995: 471
12/Jul/1995: 471
13/Jul/1995: 532
14/Jul/1995: 413
15/Jul/1995: 254
16/Jul/1995: 257
17/Jul/1995: 406
18/Jul/1995: 465
19/Jul/1995: 639
20/Jul/1995: 428
21/Jul/1995: 334
22/Jul/1995: 192
23/Jul/1995: 233
24/Jul/1995: 328
25/Jul/1995: 461
26/Jul/1995: 336
27/Jul/1995: 336
28/Jul/1995: 94
01/Aug/1995: 243
03/Aug/1995: 304
04/Aug/1995: 346
05/Aug/1995: 236
06/Aug/1995: 373
07/Aug/1995: 537
08/Aug/1995: 391
09/Aug/1995: 279
10/Aug/1995: 315
11/Aug/1995: 263
12/Aug/1995: 196
13/Aug/1995: 216
14/Aug/1995: 287
15/Aug/1995: 327
16/Aug/1995: 259
17/Aug/1995: 271
18/Aug/1995: 256
19/Aug/1995: 209
20/Aug/1995: 312
21/Aug/1995: 305
22/Aug/1995: 288
23/Aug/1995: 345
24/Aug/1995: 420
25/Aug/1995: 415
26/Aug/1995: 366
27/Aug/1995: 370
28/Aug/1995: 410
29/Aug/1995: 420
30/Aug/1995: 571
31/Aug/1995: 526
Codigo no GitHub:
https://github.com/natannasciment0/HTTP-requests-to-the-NASA-Kennedy-Space-Center-WWW-server/blob/master/Teste_Nasa_Spark.py
近期下载者:
相关文件:
收藏者: