Skip to content

juniormvs/CnpjOganizerAPI

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📊 OrganizadorCNPJs — Data Pipeline em Python para Validação de CNPJs

OrganizadorCNPJs

Pipeline em Python para validação estrutural e qualidade de dados cadastrais de empresas (CNPJs) em larga escala, baseado em regras determinísticas inspiradas em cenários corporativos reais. Até o momento está fazendo coleta, limpeza, normalização e geração de leads B2B a partir de CNPJs públicos.

O projeto faz a coleta, limpeza, normalização e organização de dados públicos de CNPJs, preparando-os para uso analítico, comercial ou integração com outros sistemas.

Projeto focado em engenharia de dados aplicada, análise de sistemas e boas práticas em Python.


🎯 Escopo atual

O projeto encontra-se na fase de validação estrutural de dados, com foco em garantir que os registros recebidos estejam corretamente formatados antes de qualquer regra de negócio ou enriquecimento.

Nesta etapa, são aplicadas validações como:

  • Formato do CNPJ (14 dígitos numéricos)
  • Campos obrigatórios não nulos
  • Validação de datas
  • Padronização de campos textuais
  • Estrutura mínima para processamento em escala

Por que validar dados antes?

Em ambientes corporativos (bancos, ERPs, telecom, marketplaces B2B), dados inconsistentes geram:

  • falhas de integração
  • retrabalho operacional
  • análises imprecisas
  • riscos técnicos e de negócio

Este projeto simula essa camada inicial de qualidade de dados, fundamental antes do consumo por sistemas críticos.

Roadmap

  • Estrutura inicial do projeto
  • Definição de regras estruturais
  • Implementação completa das validações estruturais
  • Regras cadastrais e de negócio
  • Cruzamento de dados
  • Automação e relatórios
  • (Futuro) Camada de IA generativa

🚀 Objetivo do Projeto

O projeto encontra-se na fase de validação estrutural de dados, com foco em garantir que os registros estejam corretamente formatados antes da aplicação de regras de negócio mais complexas.

Nesta etapa, são aplicadas validações como:

  • Formato do CNPJ (14 dígitos numéricos)
  • Presença de campos obrigatórios
  • Validação e padronização de datas
  • Normalização de campos textuais
  • Estrutura mínima para processamento em escala

Este projeto simula a primeira camada de qualidade de dados, fundamental antes do consumo por sistemas críticos ou analíticos.


🧭 Roadmap

  • Estrutura inicial do projeto
  • Definição das regras estruturais
  • Implementação completa das validações estruturais
  • Regras cadastrais e de negócio
  • Cruzamento e enriquecimento de dados
  • Automação e relatórios
  • (Futuro) Camada de IA generativa aplicada

🧠 O que este projeto demonstra

  • Consumo de APIs públicas
  • Validação e qualidade de dados
  • Manipulação de JSON estruturado
  • Limpeza e normalização com Pandas
  • Organização de pipelines de dados
  • Boas práticas em projetos Python

🗂️ Estrutura do Repositório

OrganizadorCNPJs/
├── data_raw/ # Dados de entrada (ignorado no Git)
├── data_processed/ # Dados processados (ignorado no Git)
├── src/ # Módulos do pipeline
│ ├── clean_final_csv.py
│ └── normalize_cnae.py
├── run.py # Script principal de execução
├── requirements.txt
├── README.md
└── .gitignore


🔧 Tecnologias Utilizadas

  • Python 3.11
  • Pandas
  • Requests
  • APIs públicas de CNPJ
  • Git & GitHub

▶️ Como executar (forma simplificada)

1️⃣ Criar e ativar ambiente virtual

python -m venv .venv
source .venv/bin/activate  # Linux / Mac

2. Instalar Dependências

pip install -r requirements.txt

3. Executar Scripts - Old

python src/fetch_api.py          # coleta dados da API
python src/clean_final_csv.py    # gera leads_b2b.csv
python src/normalize_cnae.py     # gera leads_b2b_final.csv

4. Executar o pipeline completo

python run.py

O script run.py orquestra as etapas do pipeline e gera os arquivos processados no diretório data_processed/.


📌 Observações

Dados sensíveis não são versionados Arquivos CSV servem apenas como exemplo local Projeto com foco educacional, técnico e demonstrativo Ideal para demonstrar fundamentos de engenharia de dados em Python


👤 Autor

Mário Júnior

Desenvolvedor Python | Engenharia de Dados | IA

Email: juniormvs@hotmail.com

Telefone: (+5518998037038)

LinkedIn: https://www.linkedin.com/in/juniormvs


📄 Licença / Aviso

Projeto para fins educacionais. Recomenda-se atender às leis de privacidade e LGPD ao usar dados sensíveis.

About

Pipeline em Python para organização, limpeza e tratamento de grandes volumes de CNPJs a partir de dados públicos.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages