Skip to content

Thiago-code-lab/tour4friends-datalake

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tour4Friends Banner

Tour4Friends Analytics — Data Lake

Status Python MongoDB Kafka AWS Glue AWS S3 PowerBI

Projeto Integrador — Tour4Friends
Arquitetura moderna de Data Lake para transformar dados brutos de turismo em inteligência de negócios.


Integrantes do Grupo
Pablo Roberto
Pablo Roberto
Lucas Antonio
Lucas Antonio
Thiago Cardoso
Thiago Cardoso
William Nunes
William Nunes
Daniel Fernando
Daniel Fernando

Arquitetura do Fluxo de Dados

Esta documentação detalha a infraestrutura de dados para o projeto Tour4Friends. O foco principal é a análise estratégica do comportamento de compra e reservas, utilizando tecnologias de Big Data.

A solução visa transformar dados operacionais em insights de negócio de forma ágil, seguindo o modelo ELT (Extract, Load, Transform) com um barramento de streaming para garantir agilidade no processamento.

Diagrama de Arquitetura

Componentes Tecnológicos

Camada Tecnologia Função
Fonte MongoDB Banco de dados NoSQL operacional para registros de viagens.
Ingestão Apache Kafka Barramento de streaming para processamento de eventos em tempo real.
Processamento AWS Glue (Spark) Engine para transformação de dados e conversão de formatos (JSON para Parquet).
Armazenamento Amazon S3 Data Lake escalável organizado em camadas Medallion.
Catálogo Glue Data Catalog Repositório central de metadados para governança e descoberta.
Analytics Google Colab + Power BI Análise exploratória, preparação dos dados e publicação de dashboards.

Entregas por Disciplina

Mapeamento das contribuições do projeto Tour4Friends para cada disciplina do semestre, conforme os requisitos mínimos do Projeto Integrador IV.


AGE017 — Gestão Econômica e Financeira (Prof. Getúlio Kazue Akabane)
Requisito: Avaliação da situação econômica e financeira do negócio.
Levantamento dos custos dos serviços AWS utilizados (S3, Glue, Athena) e análise básica de viabilidade financeira da solução para a agência Tour4Friends.


ILP052 — Programação em Banco de Dados II (Prof. Samuel Henrique da Rocha)
Requisito: Programação NO-SQL — Controles + Procedures ETL NO-SQL.
Modelagem e população do banco de dados MongoDB com dados da agência, incluindo operações básicas de consulta, inserção e extração de dados.


ILP053 — Laboratório de Programação II (Prof. Jobel Santos Corrêa)
Requisito: Utilização de bibliotecas em Python para tratamento e análise dos dados.
Scripts em Python para leitura, limpeza e tratamento dos dados de reservas, utilizando Pandas para manipulação e preparação dos dados para análise.


MAQ025 — Aprendizagem de Máquinas (Prof. Carlos Eduardo Dantas de Menezes)
Requisito: Aplicação de algum algoritmo de aprendizado para análise dos dados.
Aplicação de clusterização (K-Means) para agrupar clientes por perfil de compra, identificando padrões de comportamento nos dados de reservas.


BDN003 — Big Data Analytics I (Prof. Claudia de Lello Courtouké)
Requisito: Desenvolvimento e aplicação de modelo estatístico para os dados.
Análise estatística dos dados de reservas: média, mediana, desvio padrão e análise de sazonalidade, com visualizações geradas no Power BI.


BDN002 — Arquitetura de Big Data e DW/BI (Prof. Izaias Porfirio Faria)
Requisito: Definição e avaliação da arquitetura da aplicação. Integração de fontes de dados.
Definição e documentação da arquitetura do Data Lake com as camadas Bronze, Silver e Gold na AWS, integrando as fontes de dados do MongoDB até o dashboard final no Power BI.

About

Arquitetura de Data Lake moderna para a agência Tour4Friends. Pipeline ETL completo com Kafka, AWS S3, Airflow e MongoDB para transformar dados brutos de turismo em insights.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors