DataPipeline

Pipeline de operações criado para gerenciar e gerar um arquivo.csv

Desafio

unificar os datasets rouanet.csv e censo_estado.csv atraves das colunas estado_ibge e código, respectivamente
criar uma Natural Key para esse dado, usando as colunas estado_ibge e valor_em_reais
remover as linhas duplicadas de acordo com a Natural key
remover linhas com valor_em_reais = 0 ou quantidade = 0
trocar os dados da coluna estado para a sigla da UF correspondente, ex.: Rio de Janeiro vira RJ

Como executar

Clone o projeto:

git clone https://github.com/aninhasalesp/data_pipeline.git
cd data_pipeline para entrar na pasta do projeto

Com docker:

Instalar o docker
docker build -t trata_dados:v1 .

Para imprimir o resultado na tela:

docker run -it --rm \
 -v /caminho/na/sua/maquina/censo_estado.csv:/censo.csv \
 -v /caminho/na/sua/maquina/rouanet.csv:/rouanet.csv \
 trata_dados:v1

Para gravar o resultado em um arquivo:

docker run -it --rm \
 -v /caminho/na/sua/maquina/censo_estado.csv:/censo.csv \
 -v /caminho/na/sua/maquina/rouanet.csv:/rouanet.csv \
 trata_dados:v1 > /caminho/do/arquivo/na/sua/maquina.csv

Com poetry/virtualenv:

Instalar o poetry: pip install poetry
poetry shell
poetry install
Para ver a documentação: python pipeline.py --help

Exemplos:

python pipeline.py /caminha/da/sua/maquina/censo_estado.csv /caminho/da/sua/maquina/rouanet.csv

python pipeline.py /caminha/da/sua/maquina/censo_estado.csv /caminho/da/sua/maquina/rouanet.csv -o algumapasta/arquivo.csv

python pipeline.py /caminha/da/sua/maquina/censo_estado.csv /caminho/da/sua/maquina/rouanet.csv > algumapasta/arquivo.csv

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
tests		tests
utils		utils
.gitignore		.gitignore
Dockerfile		Dockerfile
HISTORY.md		HISTORY.md
README.md		README.md
notebook.ipynb		notebook.ipynb
pipeline.py		pipeline.py
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

DataPipeline

Desafio

Como executar

Clone o projeto:

Com docker:

Com poetry/virtualenv:

About

Uh oh!

Releases

Packages

Uh oh!

Languages

aninhasalesp/data_pipeline

Folders and files

Latest commit

History

Repository files navigation

DataPipeline

Desafio

Como executar

Clone o projeto:

Com docker:

Com poetry/virtualenv:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages