Pipeline de operações criado para gerenciar e gerar um arquivo.csv
- unificar os datasets rouanet.csv e censo_estado.csv atraves das colunas estado_ibge e código, respectivamente
- criar uma Natural Key para esse dado, usando as colunas estado_ibge e valor_em_reais
- remover as linhas duplicadas de acordo com a Natural key
- remover linhas com valor_em_reais = 0 ou quantidade = 0
- trocar os dados da coluna estado para a sigla da UF correspondente, ex.: Rio de Janeiro vira RJ
- git clone https://github.com/aninhasalesp/data_pipeline.git
cd data_pipelinepara entrar na pasta do projeto
- Instalar o docker
docker build -t trata_dados:v1 .- Para imprimir o resultado na tela:
docker run -it --rm \ -v /caminho/na/sua/maquina/censo_estado.csv:/censo.csv \ -v /caminho/na/sua/maquina/rouanet.csv:/rouanet.csv \ trata_dados:v1 - Para gravar o resultado em um arquivo:
docker run -it --rm \ -v /caminho/na/sua/maquina/censo_estado.csv:/censo.csv \ -v /caminho/na/sua/maquina/rouanet.csv:/rouanet.csv \ trata_dados:v1 > /caminho/do/arquivo/na/sua/maquina.csv
- Instalar o poetry:
pip install poetry poetry shellpoetry install- Para ver a documentação:
python pipeline.py --help - Exemplos:
python pipeline.py /caminha/da/sua/maquina/censo_estado.csv /caminho/da/sua/maquina/rouanet.csv python pipeline.py /caminha/da/sua/maquina/censo_estado.csv /caminho/da/sua/maquina/rouanet.csv -o algumapasta/arquivo.csv python pipeline.py /caminha/da/sua/maquina/censo_estado.csv /caminho/da/sua/maquina/rouanet.csv > algumapasta/arquivo.csv