Büyük Veriyi Uçtan Uca Yönetin: Hadoop, Kafka ve Spark ile Güçlü Veri Altyapıları Kurun
Kurumsal dünyada veri hacminin katlanarak arttığı günümüzde, büyük veri işleme ve analiz becerileri kritik önem kazanmıştır. Big Data: Hadoop, Kafka ve Spark Kurumsal Eğitimi, katılımcılara modern veri altyapılarını anlamaları, kurmaları ve yönetmeleri için gereken teorik temelleri ve uygulamalı becerileri kazandırmayı amaçlamaktadır. Eğitim programı; dağıtık sistem mimarilerinden gerçek zamanlı veri akışı yönetimine, yüksek hacimli veri analizinden üretim ortamı optimizasyonuna kadar uçtan uca bir öğrenme deneyimi sunar.
Bu kapsamlı eğitimde, Apache Hadoop ile büyük veri kümeleri üzerinde dağıtık dosya sistemi yönetimi ve MapReduce işleme teknikleri, Apache Kafka ile güvenilir ve yüksek performanslı mesajlaşma altyapısı kurulumu ve Apache Spark ile bellek içi veri analitiği detaylı şekilde ele alınır. Eğitim; yazılım geliştiriciler, veri mühendisleri, sistem yöneticileri ve karar vericiler için gerçek projelere dayanan pratik bilgilerle donatılmıştır.
Eğitim İçeriği ve Modüller
BÖLÜM 1: HADOOP EKOSİSTEMİ
1. Hadoop’a Giriş
- Büyük Veri Kavramları
- Hacim, Hız, Çeşitlilik, Doğruluk kavramları
- Geleneksel sistemlerin sınırlamaları
- Dağıtık hesaplama prensipleri
- Hadoop’un Tarihçesi ve Gelişimi
- Google’ın MapReduce ve GFS makaleleri
- Apache Hadoop’un ortaya çıkışı
- Hadoop 1.x’ten 3.x’e geçiş süreci
2. Hadoop Mimarisi
- Temel Bileşenler
- Hadoop Common araçları
- Modüler yapı ve bileşenler
- Master-Slave mimarisi
- Hadoop Küme Yapısı
- NameNode ve DataNode rolleri
- ResourceManager ve NodeManager
- Yüksek Erişilebilirlik (HA) yapılandırması
3. HDFS (Hadoop Dağıtık Dosya Sistemi)
- HDFS Temelleri
- Block depolama konsepti
- Replikasyon faktörü ve veri güvenliği
- Rack farkındalığı
- HDFS Komutları ve İşlemleri
- Dosya sistemi operasyonları
- Veri yükleme yöntemleri
- HDFS Federation yapısı
4. HDFS İleri Seviye Konular
- Performans Ayarlama
- Block boyutu optimizasyonu
- Replikasyon stratejileri
- Önbellek yönetimi
- HDFS Güvenliği
- Kerberos kimlik doğrulama
- ACL ve izinler
- Durağan ve aktarım halindeki veri şifreleme
5. Erasure Coding
- Erasure Coding Temelleri
- Reed-Solomon algoritması
- Depolama yükünü azaltma
- EC ile Replikasyon karşılaştırması
- EC Politika Yönetimi
- Politika tanımlama ve uygulama
- Veri dayanıklılığı hesaplamaları
- Performans etkileri
6. MapReduce Çerçevesi
- MapReduce Paradigması
- Map ve Reduce aşamaları
- Shuffle ve Sort işlemleri
- Combiner ve Partitioner kullanımı
- MapReduce Programlama
- Java API ile geliştirme
- Girdi/Çıktı formatları
- Özel veri tipleri
7. MapReduce İleri Seviye
- Optimizasyon Teknikleri
- İş zinciri oluşturma
- Dağıtık önbellek kullanımı
- Sıkıştırma stratejileri
- MapReduce Kalıpları
- Filtreleme kalıpları
- Özetleme kalıpları
- Birleştirme kalıpları
8. YARN (Yeni Bir Kaynak Yöneticisi)
- YARN Mimarisi
- ResourceManager bileşeni
- ApplicationMaster yaşam döngüsü
- Container yönetimi
- Kaynak Zamanlama
- Kapasite Zamanlayıcı
- Adil Zamanlayıcı
- Kaynak tahsis stratejileri
BÖLÜM 2: APACHE KAFKA
1. Kafka’ya Giriş
- Mesaj Kuyruğu ve Akış Konseptleri
- Yayınla-Abone ol modeli
- Olay güdümlü mimari
- Kafka kullanım senaryoları
- Kafka Özellikleri
- Yüksek işlem hacmi
- Dayanıklılık ve hata toleransı
- Yatay ölçeklenebilirlik
2. Kafka Mimarisi
- Temel Bileşenler
- Broker, Topic, Partition kavramları
- Producer ve Consumer yapısı
- ZooKeeper rolü (ve KRaft modu)
- Veri Akışı ve Depolama
- Log tabanlı depolama
- Segment dosyaları ve indeksleme
- Saklama politikaları
3. Kafka Docker Kurulumu
- Konteynerize Kafka
- Docker Compose ile kurulum
- Çoklu broker küme kurulumu
- Ağ yapılandırması
- Geliştirme Ortamı
- Kafka ve ZooKeeper konteynerları
- Schema Registry entegrasyonu
- İzleme araçları
4. Kafka Uygulamalı Çalışmalar
- Producer Geliştirme
- Senkron ve asenkron gönderim
- Bölümleme stratejileri
- Hata yönetimi
- Consumer Geliştirme
- Consumer grupları
- Offset yönetimi
- Yeniden dengeleme
5. Kafka Streams
- Akış İşleme Temelleri
- Durumsuz ve durumlu işlemler
- Zaman pencereleri ve toplamalar
- KTable ve KStream
- Kafka Streams Uygulamaları
- Gerçek zamanlı analitik
- Olay kaynak kalıpları
- CQRS uygulaması
BÖLÜM 3: APACHE SPARK
1. Spark’a Giriş
- Bellek İçi Hesaplama
- RDD (Dirençli Dağıtık Veri Kümesi) konsepti
- DAG (Yönlendirilmiş Döngüsüz Graf) çalıştırma
- Tembel değerlendirme
- Spark Ekosistemi
- Spark Core
- Spark SQL
- Spark Streaming
- MLlib ve GraphX
2. Spark Mimarisi
- Küme Yönetimi
- Standalone, YARN, Mesos, Kubernetes
- Driver ve Executor rolleri
- Bellek yönetimi
- Spark Uygulama Yaşam Döngüsü
- Job, Stage, Task kavramları
- Shuffle operasyonları
- Önbellekleme stratejileri
3. Spark Core Programlama
- RDD İşlemleri
- Dönüşümler (Transformations)
- Eylemler (Actions)
- Çift RDD işlemleri
- Performans Optimizasyonu
- Bölüm ayarlama
- Broadcast değişkenleri
- Accumulator kullanımı
4. Spark SQL ve DataFrames
- Yapılandırılmış Veri İşleme
- DataFrame ve Dataset API
- Catalyst optimize edici
- SQL sorguları
- Veri Kaynakları
- Dosya formatları (Parquet, ORC, Avro)
- Harici veritabanları
- Akış kaynakları
5. Spark Streaming
- Gerçek Zamanlı İşleme
- DStream API
- Yapılandırılmış Streaming
- Pencere işlemleri
- Entegrasyon Kalıpları
- Kafka-Spark entegrasyonu
- Tam olarak bir kez semantiği
- Kontrol noktası oluşturma
6. MLlib ile Makine Öğrenmesi
- ML İş Akışı
- Özellik mühendisliği
- Model eğitimi
- Model değerlendirme
- Algoritmalar
- Sınıflandırma ve Regresyon
- Kümeleme
- Öneri sistemleri
BÖLÜM 4: ENTEGRASYON VE EN İYİ UYGULAMALAR
1. Hadoop-Kafka-Spark Entegrasyonu
- Veri İş Akışı Mimarisi
- Lambda mimarisi
- Kappa mimarisi
- Data lake kalıpları
- Uçtan Uca Kullanım Senaryoları
- Gerçek zamanlı analitik hattı
- ETL/ELT iş akışları
- Log toplama sistemleri
2. Üretim Ortamı Kurulumu
- Küme Planlama
- Donanım boyutlandırma
- Ağ gereksinimleri
- Güvenlik uygulaması
- İzleme ve Yönetim
- Metrik toplama
- Log birleştirme
- Alarm yapılandırması
3. Performans İyileştirme
- Optimizasyon Stratejileri
- Kaynak tahsisi
- Veri serileştirme
- Sıkıştırma teknikleri
- Sorun Giderme
- Yaygın sorunlar
- Hata ayıklama teknikleri
- Performans profilleme

