Skip to content

RuneLabAI/Wtech-Big-Data-Bootcamp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Wtech Big Data Bootcamp

Bu repo, Runelab × Wtech Big Data Bootcamp eğitim programı boyunca işlenen konulara ait notları, örnek kodları, alıştırmaları ve ek kaynakları barındırır. Toplam 5 hafta / 10 oturum boyunca Big Data'nın temellerinden GenAI'a uzanan kapsamlı bir yolculuk izlenmektedir.


Müfredat Genel Bakışı

# Oturum Tarih Hafta
1 Big Data Temelleri 3 Mart Hafta 1
2 Veritabanı ve SQL Temelleri 5 Mart Hafta 1
3 Proje Yapıları ve Veri Manipülasyonu 10 Mart Hafta 2
4 Linux, Docker ve Bitirme Projesi Tanıtımı 12 Mart Hafta 2
5 Apache Spark: PySpark Temelleri 17 Mart Hafta 3
6 Veri Ambarı, ETL ve Airflow 19 Mart Hafta 3
7 Apache Kafka Temelleri 24 Mart Hafta 4
8 Data Engineering Tool Ekosistemi 26 Mart Hafta 4
9 Power BI ve Dashboard Yapıları 26 Mart Hafta 5
10 GenAI'ya Giriş ve Kapanış 31 Mart Hafta 5

Haftalık Özet

Hafta 1 — Temeller

  • Oturum 1: Big Data nedir, 5V (Volume, Velocity, Variety, Veracity, Value), dağıtık sistemler, MapReduce paradigması, güncel araç ekosistemi ve kariyer rolleri.
  • Oturum 2: İlişkisel veritabanı modelleme, normalizasyon, index & trigger, JOIN türleri. E-ticaret veritabanı üzerinden gerçek sorgu senaryoları. SQL vs NoSQL karar kriterleri.

Hafta 2 — Python Ekosistemi & DevOps

  • Oturum 3: Veri bilimi yaşam döngüsü, Python proje yapısı (venv, requirements.txt), NumPy array işlemleri, Pandas ile veri yükleme/temizleme/dönüştürme, EDA teknikleri, Matplotlib & Seaborn, baseline model.
  • Oturum 4: Linux temel komutları, Git versiyon kontrolü, Docker mimarisi (image/container/volume), Dockerfile yazımı, Docker Compose. Bitirme projesi tanıtımı.

Hafta 3 — Büyük Ölçekli İşleme

  • Oturum 5: Apache Spark mimarisi (Driver, Executor, Cluster Manager), lazy evaluation, DAG, PySpark DataFrame API, Spark UI ile monitoring.
  • Oturum 6: Veri ambarı katmanları (Staging → ODS → DWH → Data Mart), Star/Snowflake Schema, Fact/Dimension tablolar, SCD tipleri, ETL vs ELT, Apache Airflow ile pipeline orchestration.

Hafta 5 — Streaming & Ekosistem

  • Oturum 7: Event streaming ve batch processing farkı, Kafka mimarisi (Broker, Topic, Partition, Offset, Consumer Group), Producer/Consumer API'leri, hands-on local cluster kurulumu.
  • Oturum 8: Databricks & Lakehouse mimarisi, Delta Lake, AWS/GCP/Azure'da veri mühendisliği, araç seçim kriterleri.

Hafta 6 — Görselleştirme & GenAI

  • Oturum 9: Power BI mimarisi, DirectQuery vs Import Mode, veri modelleme, DAX fonksiyonları (CALCULATE, FILTER, ALL, SUMX), dashboard UX/UI best practices.
  • Oturum 10: LLM çalışma prensibi (pre-training, attention), token/context window/hallüsinasyon, prompting teknikleri, RAG mimarisi, embedding & cosine similarity, vektör veritabanları, agent kavramı, kariyer yolları.

Bitirme Projesi

Proje dosyaları ve değerlendirme kriterleri için capstone-project/ klasörüne bakınız. Dataset ve beklentiler 12 Mart oturumunda paylaşılmaktadır.


Kullanılan Teknolojiler

Python · SQL / SQLite · NumPy · Pandas · Matplotlib · Seaborn · Apache Spark · PySpark · Apache Airflow · Apache Kafka · Docker · Docker Compose · Git · Linux · Databricks · Delta Lake · Power BI · DAX · AWS / GCP / Azure


Eğitmen & Organizasyon LinkedIn
Enes Fehmi Manan linkedin.com/in/enesfehmimanan
Engin Deniz Alpman linkedin.com/in/engindenizalpman
Runelab AI linkedin.com/company/runelab-ai

About

Runelab x Teknolojide Kadınlar Derneği işbirliğiyle hayata geçirilen 5 hafta 30 saatlik Big Data bootcamp'inin kaynak dosyaları

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors