Проект ETL (Extract, Transform, Load) для обработки и анализа данных в реальном времени с использованием современного стека технологий.
Все ссылки на инструменты находятся здесь!
https://bootcamp-page.ru.tuna.am
- Airflow - оркестрация ETL процессов
- ClickHouse - колоночная СУБД для аналитики
- PostgreSQL - строковая СУБД в качестве источника данных
- Apache Spark - обработка данных в реальном времени
- Kafka - потоковая обработка данных
- Debezium - CDC (Change Data Capture) для отслеживания изменений в данных
- Apache Superset - визуализация данных
- Jupyter Notebook | VSCode - интерактивный анализ данных
- Docker - контейнеризация всех компонентов
- MinIO - S3-совместимое хранилище объектов
- PostgreSQL - метаданные Airflow
