pyspark-example
所属分类:交通/航空行业
开发工具:Python
文件大小:6KB
下载次数:0
上传日期:2020-04-28 19:49:30
上 传 者:
sh-1993
说明: 美国国家航空航天局肯尼迪航天中心的PySpark分析
(PySpark Analysis from logs of NASA Kennedy Space Center na Flórida)
文件列表:
LICENSE (1070, 2020-04-29)
Makefile (528, 2020-04-29)
local.env (33, 2020-04-29)
requirements.txt (16, 2020-04-29)
run.py (4160, 2020-04-29)
# PySpark Example
Este projeto apresenta uma implementacao `pyspark` resolvendo 5 questoes a partir de um arquivo de log.
Fonte oficial do dateset: http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html
- [Jul 01 to Jul 31, ASCII format, 20.7 MB gzip compressed, 205.2 MB.](ftp://ita.ee.lbl.gov/traces/NASA_access_log_Jul95.gz)
- [Aug 04 to Aug 31, ASCII format, 21.8 MB gzip compressed, 167.8 MB.](ftp://ita.ee.lbl.gov/traces/NASA_access_log_Aug95.gz)
O dataset possui todas as requisicoes HTTP para o servidor da **NASA Kennedy Space Center WWW na Florida** para um periodo especifico.
Os logs estao em arquivos ASCII com uma linha por requisicao com as seguintes colunas:
- **Host**: um hostname quando possivel, caso contrario o endereco de internet se o nome nao puder ser identificado;
- **Timestamp**: no formato "DIA/MES/ANO:HH:MM:SS TIMEZONE";
- **Request**: metodo HTTP e URL;
- **HTTP Code**: codigo do retorno HTTP;
- **Bytes**: total de bytes retornados.
## Setup
1. Python >= 3.7.1
2. Virtualenv >= 1***.3
3. Wget >= 1.17.1
## Deploy
1. clone o presente repositorio: `$ git clone git@github.com:imbrito/pyspark-example.git`.
2. acesse a pasta do projeto: `$ cd pyspark-example`.
3. faca download dos aqruivos de entrada: `$ make wget`.
4. instale as dependencias: `$ make install`.
5. ative o ambiente: `$ source venv/bin/activate`.
6. execute o pipeline: `$ python run.py`.
近期下载者:
相关文件:
收藏者: