pyspark-example

所属分类:交通/航空行业
开发工具:Python
文件大小:6KB
下载次数:0
上传日期:2020-04-28 19:49:30
上 传 者sh-1993
说明:  美国国家航空航天局肯尼迪航天中心的PySpark分析
(PySpark Analysis from logs of NASA Kennedy Space Center na Flórida)

文件列表:
LICENSE (1070, 2020-04-29)
Makefile (528, 2020-04-29)
local.env (33, 2020-04-29)
requirements.txt (16, 2020-04-29)
run.py (4160, 2020-04-29)

# PySpark Example Este projeto apresenta uma implementacao `pyspark` resolvendo 5 questoes a partir de um arquivo de log. Fonte oficial do dateset: http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html - [Jul 01 to Jul 31, ASCII format, 20.7 MB gzip compressed, 205.2 MB.](ftp://ita.ee.lbl.gov/traces/NASA_access_log_Jul95.gz) - [Aug 04 to Aug 31, ASCII format, 21.8 MB gzip compressed, 167.8 MB.](ftp://ita.ee.lbl.gov/traces/NASA_access_log_Aug95.gz) O dataset possui todas as requisicoes HTTP para o servidor da **NASA Kennedy Space Center WWW na Florida** para um periodo especifico. Os logs estao em arquivos ASCII com uma linha por requisicao com as seguintes colunas: - **Host**: um hostname quando possivel, caso contrario o endereco de internet se o nome nao puder ser identificado; - **Timestamp**: no formato "DIA/MES/ANO:HH:MM:SS TIMEZONE"; - **Request**: metodo HTTP e URL; - **HTTP Code**: codigo do retorno HTTP; - **Bytes**: total de bytes retornados. ## Setup 1. Python >= 3.7.1 2. Virtualenv >= 1***.3 3. Wget >= 1.17.1 ## Deploy 1. clone o presente repositorio: `$ git clone git@github.com:imbrito/pyspark-example.git`. 2. acesse a pasta do projeto: `$ cd pyspark-example`. 3. faca download dos aqruivos de entrada: `$ make wget`. 4. instale as dependencias: `$ make install`. 5. ative o ambiente: `$ source venv/bin/activate`. 6. execute o pipeline: `$ python run.py`.

近期下载者

相关文件


收藏者