Bu repo, Runelab × Wtech Big Data Bootcamp eğitim programı boyunca işlenen konulara ait notları, örnek kodları, alıştırmaları ve ek kaynakları barındırır. Toplam 5 hafta / 10 oturum boyunca Big Data'nın temellerinden GenAI'a uzanan kapsamlı bir yolculuk izlenmektedir.
| # | Oturum | Tarih | Hafta |
|---|---|---|---|
| 1 | Big Data Temelleri | 3 Mart | Hafta 1 |
| 2 | Veritabanı ve SQL Temelleri | 5 Mart | Hafta 1 |
| 3 | Proje Yapıları ve Veri Manipülasyonu | 10 Mart | Hafta 2 |
| 4 | Linux, Docker ve Bitirme Projesi Tanıtımı | 12 Mart | Hafta 2 |
| 5 | Apache Spark: PySpark Temelleri | 17 Mart | Hafta 3 |
| 6 | Veri Ambarı, ETL ve Airflow | 19 Mart | Hafta 3 |
| 7 | Apache Kafka Temelleri | 24 Mart | Hafta 4 |
| 8 | Data Engineering Tool Ekosistemi | 26 Mart | Hafta 4 |
| 9 | Power BI ve Dashboard Yapıları | 26 Mart | Hafta 5 |
| 10 | GenAI'ya Giriş ve Kapanış | 31 Mart | Hafta 5 |
- Oturum 1: Big Data nedir, 5V (Volume, Velocity, Variety, Veracity, Value), dağıtık sistemler, MapReduce paradigması, güncel araç ekosistemi ve kariyer rolleri.
- Oturum 2: İlişkisel veritabanı modelleme, normalizasyon, index & trigger, JOIN türleri. E-ticaret veritabanı üzerinden gerçek sorgu senaryoları. SQL vs NoSQL karar kriterleri.
- Oturum 3: Veri bilimi yaşam döngüsü, Python proje yapısı (venv, requirements.txt), NumPy array işlemleri, Pandas ile veri yükleme/temizleme/dönüştürme, EDA teknikleri, Matplotlib & Seaborn, baseline model.
- Oturum 4: Linux temel komutları, Git versiyon kontrolü, Docker mimarisi (image/container/volume), Dockerfile yazımı, Docker Compose. Bitirme projesi tanıtımı.
- Oturum 5: Apache Spark mimarisi (Driver, Executor, Cluster Manager), lazy evaluation, DAG, PySpark DataFrame API, Spark UI ile monitoring.
- Oturum 6: Veri ambarı katmanları (Staging → ODS → DWH → Data Mart), Star/Snowflake Schema, Fact/Dimension tablolar, SCD tipleri, ETL vs ELT, Apache Airflow ile pipeline orchestration.
- Oturum 7: Event streaming ve batch processing farkı, Kafka mimarisi (Broker, Topic, Partition, Offset, Consumer Group), Producer/Consumer API'leri, hands-on local cluster kurulumu.
- Oturum 8: Databricks & Lakehouse mimarisi, Delta Lake, AWS/GCP/Azure'da veri mühendisliği, araç seçim kriterleri.
- Oturum 9: Power BI mimarisi, DirectQuery vs Import Mode, veri modelleme, DAX fonksiyonları (CALCULATE, FILTER, ALL, SUMX), dashboard UX/UI best practices.
- Oturum 10: LLM çalışma prensibi (pre-training, attention), token/context window/hallüsinasyon, prompting teknikleri, RAG mimarisi, embedding & cosine similarity, vektör veritabanları, agent kavramı, kariyer yolları.
Proje dosyaları ve değerlendirme kriterleri için capstone-project/ klasörüne bakınız. Dataset ve beklentiler 12 Mart oturumunda paylaşılmaktadır.
Python · SQL / SQLite · NumPy · Pandas · Matplotlib · Seaborn · Apache Spark · PySpark · Apache Airflow · Apache Kafka · Docker · Docker Compose · Git · Linux · Databricks · Delta Lake · Power BI · DAX · AWS / GCP / Azure
| Eğitmen & Organizasyon | |
|---|---|
| Enes Fehmi Manan | linkedin.com/in/enesfehmimanan |
| Engin Deniz Alpman | linkedin.com/in/engindenizalpman |
| Runelab AI | linkedin.com/company/runelab-ai |