Encontros às quintas, 18h.
-
[] iterar nas tabelas de validação para baixar os documentos
- um script só, navega o repositório atrás dos csvs nomeados por "validado" que faz isso para os 4 diretórios das leis e a saída dos arquivos baixados ficam no subdiretório dados_brutos/
-
[] iterar nos documentos baixados para obter o texto completo da lei
-
[] ETL nos dados
- Fase 1: obter os dados textuais
- HTML -> TXT: remover as tags do HTML (dicas: Beatiful Soup)
- PDF -> TXT: extração de texto de PDF (dicas: PyMuPDF, PDFMiner, pypdf)
- doc/docx -> TXT: extração de texto de doc/docx
- Imagem -> TXT: ApacheTika, faz OCR. Ao encontrar casos assim, a gente volta a conversar.
- TXT: os documentos que estão no QD (exemplo abaixo) já tem a versão TXT deles, é só trocar o ".pdf" para ".txt".
- Fase 2: obter apenas o texto da regulamentação no meio de todo documento
- fase opcional, pode não ser necessária sempre
- Fase 1: obter os dados textuais
-
padrão de nomenclatura dos arquivos:
- para capitais: nome-da-capital_sigla-da-lei
- para estados: nome-do-estado_sigla-da-lei
-
coleta.py: Daniel
-
extracao.py: Gustavo
-
identificador_de_decretos.py: Rafael