📊 İLERİ İSTATİSTİK

Hafta 25: Kümeleme Analizi (Cluster Analysis)

Bu hafta: Benzer bireyleri gruplara ayırma. Gözetimsiz (unsupervised) öğrenmenin temeli!

📊 K-Means

Önceden k belirle

🌳 Hiyerarşik

Dendrogram

Doç. Dr. İzzet İNCE | Spor Bilimleri Fakültesi

Akademik Yıl: 2025 - 2026

Sembol ve Kavram Aciklama Tablosu

Kumeleme analizinde kullanilan temel terimler: Bu kavramlari bilmeden kumeleme yapamazsin!

Temel Kavramlar ve Semboller

Kavram / Sembol Ne Demek? Basit Aciklama
k Kume sayisi Kac gruba ayirmak istiyorsun? Ornegin k=3 demek 3 grup olustur demek.
K-Means En populer kumeleme yontemi Benzer seyleri otomatik gruplayan algoritma. "k tane ortalama bul" anlamina gelir.
Centroid Kume merkezi Her grubun "orta noktasi". Sanki grubun kaptani gibi dusun.
Silhouette Score Kumeleme kalitesi olcusu -1 ile +1 arasi. +1'e yakin = cok iyi gruplama. 0.5'ten buyuk olmasi istenir.
Dendrogram Agac seklinde grafik Hiyerarsik kumelemede kimlerin kimlerle gruplandigini gosteren soy agaci gibi sekil.
Elbow (Dirsek) Optimal kume sayisi bulma Grafikte "dirsek" gibi kivrilmanin oldugu yer en iyi k sayisidir.
WSS Within Sum of Squares Kume ici toplam uzaklik. Kucuk olmasi iyi - grup icindekiler birbirine yakin demek.
Hiyerarsik Asama asama kumeleme Basitten karmasiga veya tersine dogru kumeleri birlestiren/bolen yontem.

Kolay Hatirlama Ipuclari

K-Means: "K tane kaptan sec, oyunculari en yakin kaptana ata" gibi dusun.

Centroid: Futbol takiminin orta saha oyuncusu gibi - grubun merkezinde.

Silhouette: Karne notu gibi. 0.5'in ustu = gecti, 0.7'nin ustu = basarili!

Dendrogram: Aile agaci gibi - kim kiminle akraba gosterir.

Hiyerarsik vs K-Means Karsilastirma

Hangi yontemi ne zaman kullanmali? Iki yontemin avantaj ve dezavantajlarini ogren!

K-Means vs Hiyerarsik Kumeleme Karsilastirmasi

Ozellik K-Means Hiyerarsik
Kume sayisi (k) Onceden belirlemen lazim Sonradan dendrogram'dan secersin
Hiz Cok hizli Yavas (buyuk veride)
Buyuk veri Uygun (1000+ kisi) Zor (max 500 kisi)
Gorsellestirme Scatter plot Dendrogram (agac)
Sonuc tutarliligi Her calistirmada farkli olabilir Her zaman ayni sonuc
Kume sekli Yuvarlak kumeler sever Her sekil olabilir
Uc degerlere duyarlilik Cok hassas! Orta hassas

K-Means Sec Eger:

Cok fazla verin varsa (500+)

Kume sayisini biliyorsan

Hizli sonuc istiyorsan

Hiyerarsik Sec Eger:

Kac kume bilmiyorsan

Gruplarin yapisini gormek istiyorsan

Az verin varsa (200-)

Pratik Oneri

Ilk basta: Hiyerarsik ile baslayip dendrogram'a bak, kac kume mantikli gor.

Sonra: O k sayisiyla K-Means calistir (daha stabil sonuc icin).

Karsilastir: Iki yontemin sonuclarini kiyasla - benzerlerse guvenebilirsin!

Kumeleme Analizi Nedir?

Gruplama: Onceden tanimlanmis grup yok! Veriye bakarak benzer bireyleri otomatik gruplara ayirma.

Gozetimli (Supervised)

Hedef degisken var

Regresyon, siniflandirma

Gozletimsiz (Unsupervised)

Hedef degisken yok

Kumeleme, boyut indirgeme

Spor Ornegi

Veri: 100 sporcunun fiziksel ve fizyolojik ozellikleri

Soru: Dogal olarak kac farkli sporcu profili var?

Kumeleme ile kesfet: "Dayaniklilik tipi", "Guc tipi", "Hibrit tip"...

📊 K-Means Kümeleme

En Popüler Yöntem: k sayıda küme merkezini iteratif olarak optimize eder.

📋 Algoritma Adımları

1. k sayıda rastgele merkez (centroid) seç

2. Her noktayı en yakın merkeze ata

3. Merkezleri yeniden hesapla (küme ortalaması)

4. Değişim olmayana kadar 2-3'ü tekrarla

📊 K-Means Görselleştirme

Küme 1 Küme 2

⚠️ Kritik Ön İşlem: Standardizasyon

Değişkenlerin birimleri farklıysa (örn: Boy [cm] vs Ağırlık [kg] vs Yağ [%]), büyük değerli değişken analizi domine eder.
Bu yüzden K-Means öncesi veriler mutlaka Z-skoru (Standardizasyon) veya Min-Max Normalizasyonu ile aynı ölçeğe getirilmelidir!

Hiyerarsik Kumeleme

Agac Yapisi: Bireylerden baslayarak asamali olarak kumeler olustur. Dendrogram ile gorsellestir.

Agglomerative (Birleştirici)

Aşağıdan yukarı

Her birey ayrı başlar, birleşir

Divisive (Bölücü)

Yukarıdan aşağı

Tek kümeden başlar, bölünür

📊 Bağlantı Yöntemleri

Ward: Varyans artışını minimize et (en yaygın)

Single: En yakın iki nokta

Complete: En uzak iki nokta

Average: Ortalama mesafe

KUMELEME ANALIZI VARSAYIMLARI

Önemli Not: Kümeleme, parametrik olmayan bir yöntemdir. Ancak sonuçların güvenilir olması için bazı önemli varsayımlar karşılanmalıdır!
KÜMELEME VARSAYIMLARI 1. ÖRNEKLEM & STANDARDİZASYON • Yeterli gözlem sayısı • Z-skoru dönüşümü • Aynı ölçek 2. UÇ DEĞERLER • Aykırı gözlem tespiti • Mahalanobis mesafesi • Winsorization 3. DEĞİŞKEN SEÇİMİ • Çoklu bağıntı kontrolü • VIF < 5 • Teorik uygunluk 4. KÜME YAPISI • Doğal gruplar var mı? • Hopkins istatistiği • H > 0.5 ⚠️ ÖNEMLİ FARK Kümeleme istatistiksel test DEĞİL → p değeri YOK! Varsayımlar kalite ve güvenilirlik için önemli

📋 Varsayım Kontrolü Neden Önemli?

Kümeleme bir keşif aracıdır - hipotez testi DEĞİL. Ancak:

• ❌ Standardizasyon yapılmazsa → Büyük değerli değişken kümelemeyi domine eder

• ❌ Uç değerler temizlenmezse → Sahte kümeler oluşur

• ❌ Çoklu bağıntılı değişkenler → Bazı özellikler abartılı ağırlık alır

Varsayim 1: Orneklem ve Standardizasyon

Temel Gereksinim: Yeterli gözlem sayısı ve değişkenlerin aynı ölçeğe getirilmesi!

📏 Örneklem Büyüklüğü

Minimum: n ≥ 2^k (k = değişken sayısı)

5 değişken → minimum 32 gözlem

İdeal: Küme başına ≥ 50

⚖️ Standardizasyon

Z-skoru: (x - μ) / σ

Ortalama = 0, SS = 1

Alternatif: Min-Max (0-1)

📊 Standardizasyon Neden Şart?

❌ Standardizasyon YOK Boy: 175 cm Ağırlık: 70 kg Yağ %: 15 Boy analizi domine eder! ✅ Standardizasyon VAR Boy: Z = 0.8 Ağırlık: Z = 0.5 Yağ %: Z = -0.3 Eşit katkı, adil kümeleme!
🏃 Spor Örneği: Sporcu Profilleme

Değişkenler: Boy (cm), Ağırlık (kg), VO2max (ml/kg/dk), Dikey sıçrama (cm)

Problem: Boy 160-200 arası, Yağ % 8-25 arası → Boy 10x daha büyük değerler!

Standardizasyon olmadan: Sadece boya göre kümeleme yapılır

Standardizasyon ile: Tüm özellikler eşit katkı sağlar

⚠️ SPSS / JASP Uyarısı

Bazı yazılımlar otomatik standardizasyon yapmaz!

SPSS: Analyze → Classify → K-Means → Options → "Standardize values" işaretleyin

JASP: Varsayılan olarak standardize ETMEZ - önce Transform kullanın

Varsayim 2: Uc Degerler ve Aykiri Gozlemler

Kritik Tehlike: Tek bir uç değer, tüm kümeleme sonucunu bozabilir!

❌ Uç Değer Etkisi

Tek başına küme oluşturur

Diğer kümeleri birleştirir

Merkezleri kaydırır

✅ Tespit Yöntemleri

Tek değişken: |Z| > 3

Çok değişken: Mahalanobis

Görsel: Scatter plot

📊 Uç Değer Kümelemeyi Nasıl Bozar?

❌ Uç Değer Var Uç değer k=3 → 2 gerçek + 1 sahte küme ✅ Uç Değer Temizlendi k=2 → Gerçek küme yapısı

📋 Uç Değer Tespit ve Çözüm Stratejileri

Yöntem Nasıl? Ne Zaman?
Z-skoru |Z| > 3 ise uç değer Tek değişken kontrolü
Mahalanobis p < 0.001 ise aykırı Çok değişkenli kontrol
IQR Q1-1.5×IQR veya Q3+1.5×IQR dışı Robust yöntem
🏃 Çözüm Seçenekleri

1. Çıkarma: Uç değer gerçekten hatalıysa (veri girişi hatası)

2. Winsorization: Uç değerleri %5 veya %95 percentiline çek

3. Robust Kümeleme: K-Medoids (PAM) kullan - medyan bazlı, uç değerlere dayanıklı

4. Ayrı İncele: Uç değer gerçek bir alt grupsa, raporla

Varsayim 3: Degisken Secimi ve Coklu Baginti

Dengeli Katkı: Yüksek korelasyonlu değişkenler, o boyutu abartılı şekilde etkiler!

❌ Yüksek Korelasyon Problemi

|r| > 0.80 dikkat!

Aynı bilgi çift sayılır

Kümeleme yanlı olur

✅ Çözümler

Değişken birini çıkar

PCA ile boyut indirgeme

VIF kontrolü (< 5)

📊 Korelasyon Matrisi Örneği

Sporcu Özellikleri Korelasyon Matrisi Boy Kilo BMI VO2max Sprint Boy Kilo BMI VO2 Sprint 1.00 0.65 0.22 0.15 -0.10 0.65 1.00 0.92 -0.35 -0.20 0.22 0.92 1.00 -0.45 -0.18 0.15 -0.35 -0.45 1.00 0.55 -0.10 -0.20 -0.18 0.55 1.00 ⚠️ Kilo-BMI r=0.92 → Birini çıkar veya PCA uygula!

📋 Değişken Seçimi Kontrol Listesi

Korelasyon matrisi: |r| > 0.80 olan çiftleri belirle

VIF hesapla: VIF > 5 ise çoklu bağıntı var

Teorik değerlendir: Hangi değişken kavramsal olarak daha önemli?

PCA alternatifi: Boyut indirgeme ile bağımsız faktörler oluştur

💡 Pratik Örnek: Futbolcu Kümeleme

Orijinal değişkenler: Boy, Kilo, BMI, Sprint 10m, Sprint 30m, Çeviklik T-test

Problem: Kilo-BMI (r=0.92), Sprint 10m-30m (r=0.88) yüksek korelasyon

Çözüm: BMI çıkar (Boy+Kilo zaten var), Sprint 10m çıkar (30m yeterli)

Final değişkenler: Boy, Kilo, Sprint 30m, Çeviklik → Temiz kümeleme!

Varsayim Saglanmazsa Ne Yapmali?

Karar Ağacı: Her varsayım ihlali için sistematik çözüm yolu.
KÜMELEME ÖNCESİ 1. VERİ STANDARDİZE Mİ? Farklı birimler var mı? Evet ✓ Hayır ✗ Z-skoru uygula! 2. UÇ DEĞER VAR MI? |Z| > 3 veya Mahalanobis? Hayır ✓ Evet ✗ Temizle/Winsorize veya K-Medoids kullan 3. YÜKSEK KORELASYON? |r| > 0.80? Hayır ✓ Evet ✗ Değişken çıkar/PCA KÜMELEME HAZIR ✓ BONUS: Hopkins Testi Küme yapısı var mı? H > 0.5 → Küme VAR ✓ H ≈ 0.5 → Rastgele ✗

🔄 K-Means Alternatifleri

Uç değer var: K-Medoids (PAM)

Farklı şekiller: DBSCAN

Belirsiz k: Hiyerarşik

📊 Doğrulama Yöntemleri

İç: Silhouette, Elbow

Dış: Karşılaştırma (varsa)

Stabilite: Bootstrap

⚠️ Önemli Hatırlatma

Kümeleme sonuçları subjektiftir - farklı ayarlar farklı sonuçlar verir!

• Birden fazla yöntem dene (K-Means vs Hiyerarşik)

• Birden fazla k değeri karşılaştır

• Sonuçların teorik anlamlılığını değerlendir

→ "İstatistiksel olarak en iyi" her zaman "pratik olarak en iyi" değildir!

Kume Sayisi Belirleme

Kritik Karar: Kaç küme optimal? Birden fazla yöntem kullan!

Elbow Yöntemi

WSS grafiğinde dirsek

En yaygın kullanılan

Silhouette Skoru

-1 ile 1 arası

> 0.5 iyi ayrım

Gap İstatistiği

Referans dağılımla karşılaştır

İstatistiksel yöntem

📋 Pratik Öneri

• Elbow plot'ta dirsek noktasını bul

• Silhouette skorlarını karşılaştır

• Silhouette skorlarını karşılaştır

• Teorik olarak anlamlı mı değerlendir

📐 Uzaklık (Benzerlik) Nasıl Ölçülür?

En yaygın yöntem Öklid (Euclidean) Mesafesidir:

d(x,y) = √[Σ(xᵢ - yᵢ)²]

Alternatifler: Manhattan (Şehir Bloğu) Mesafesi (Aykırı değerlere daha dayanıklı).

Sporcu Gruplama - Somut Spor Ornekleri

Performans profiline gore oyuncu tipleri nasil belirlenir? 3 farkli spordan gercek ornekler!

Ornek 1: Futbolda Oyuncu Tipleri Belirleme

Senaryo: Bir futbol akademisi 120 genc oyuncuyu performans profillerine gore gruplamak istiyor.

Degisken Aciklama Ornek Degerler
Sprint 30m (sn) Hiz olcumu 4.2 - 5.1 sn
Yo-Yo IR1 (m) Dayaniklilik 1200 - 2400 m
Dikey sicrama (cm) Patlayici guc 28 - 48 cm
Pas isabeti (%) Teknik beceri 65 - 92 %

K-Means Sonucu (k=3):

  • Kume 1 - Hiz Tipi (n=42): Yuksek sprint, orta dayaniklilik. Kanat oyunculari icin ideal.
  • Kume 2 - Dayaniklilik Tipi (n=38): Yuksek Yo-Yo, orta hiz. Orta saha oyunculari.
  • Kume 3 - Guc Tipi (n=40): Yuksek sicrama, dusuk dayaniklilik. Forvet ve stoper adaylari.

Silhouette = 0.58 - Iyi ayrim!

Ornek 2: Hentbolde Pozisyon Analizi

Senaryo: Milli takim secmeleri icin 80 hentbolcuyu fiziksel ozelliklerine gore gruplamak.

Degiskenler: Boy (cm), El acikligi (cm), 20m sprint (sn), Top atma hizi (km/s), Reaktif ceviklik (ms)

Hiyerarsik Kumeleme Sonucu:

  • Kume A - Uzun Oyuncular (n=25): Yuksek boy + el acikligi. Kaleci ve pivot adaylari.
  • Kume B - Hizli Aticilar (n=30): Yuksek atis hizi + sprint. Kenar ve orta sirt oyunculari.
  • Kume C - Cevik Oyuncular (n=25): Dusuk boy ama yuksek ceviklik. Oyun kurucu adaylari.

Dendrogram acikca 3 grup gosteriyor!

Ornek 3: Yuzmede Sporcuyu Dogru Stile Yonlendirme

Senaryo: 60 genc yuzucuyu hangi yuzme stiline yonlendirilecegine karar vermek icin gruplamak.

Degiskenler: Boy (cm), Kol uzunlugu (cm), Ayak esnekligi (derece), 15m dalma mesafesi (sn), Bacak gucu (W)

K-Means Sonucu (k=4):

  • Kume 1 - Serbest/Sirtustucu (n=18): Uzun kol, iyi dalma. 100-200m mesafeler.
  • Kume 2 - Kurbagalama (n=12): Esnek ayak, guclu bacak. Teknik agirlikli stil.
  • Kume 3 - Kelebek (n=15): Kisa boy ama patlayici guc. 50-100m mesafeler.
  • Kume 4 - Karisik (n=15): Dengeli profil. Bireysel karisik veya bayrak icin.

Elbow grafigi k=4'te net dirsek gosteriyor!

Kume Sayisi Belirleme - Spor Ornekleri

Kac gruba ayirmali? Elbow ve Silhouette yontemleriyle gercek ornekler!

Ornek 1: Basketbolda Oyuncu Rolleri - Elbow Yontemi

Veri: NBA'den 450 oyuncunun mac istatistikleri (sayi, asist, ribaund, blok, top calma)

Elbow Grafigi Sonucu:

k degeri WSS (ici toplam) Yorum
k=2 45,200 Cok genel, az bilgi
k=3 28,400 Buyuk dusus!
k=4 19,100 DIRSEK NOKTASI!
k=5 16,800 Az iyilesme
k=6 15,200 Gereksiz detay

Karar: k=4 secildi. Roller: Skorerler, Playmakerlar, Rebounders, Savunmacilar

Ornek 2: Atletizmde Sporcu Profilleri - Silhouette Karsilastirma

Veri: 200 atletin fiziksel ve performans verileri (boy, kilo, 100m, 1500m, uzun atlama)

Silhouette Skorlari:

k degeri Silhouette Skoru Degerlendirme
k=2 0.48 Orta (sadece hiz vs dayaniklilik)
k=3 0.62 EN IYI!
k=4 0.51 Iyi ama 3'ten kotu
k=5 0.39 Zayif ayrim

Karar: k=3 secildi. Gruplar: Sprinterlar, Orta mesafeciler, Atlayicilar

Ornek 3: Halterde Siklet Sinifi Onerisi - Kombine Yontem

Veri: 80 genc haltercinin fiziksel ve performans verileri

Degiskenler: Vucut agirligi (kg), Kas kutlesi (kg), Kopus (kg), Silkme (kg), Dikey sicrama (cm)

Analiz Sureci:

  1. Elbow: k=3, k=4, k=5 arasinda belirsiz
  2. Silhouette: k=4 en yuksek (0.55)
  3. Gap Istatistigi: k=4 oneriyor
  4. Teorik deger: 4 siklet sinifi mantikli (hafif, orta, agir, super agir tip)

Sonuc Kumeleri:

  • Hafif Tip (n=22): 55-67 kg, yuksek guc/kilo orani
  • Orta Tip (n=25): 67-81 kg, dengeli profil
  • Agir Tip (n=20): 81-96 kg, yuksek mutlak guc
  • Super Agir Tip (n=13): 96+ kg, en yuksek kaldirma

Onemli Hatirlatma

Tek yonteme guvenme! Elbow + Silhouette + Teorik mantik birlikte kullan.

Istatistik her zaman yetmez: k=4 istatistiksel en iyi olsa bile, sporun gercekligine uygun mu diye sor!

Spor Senaryolari

Gercek Hayat Uygulamalari - Varsayim Kontrolleri ile Birlikte
🏀 Senaryo 1: Basketbol Oyuncu Profilleme

Değişkenler: Sayı, asist, ribaund, blok, top çalma (5 değişken)

n = 100 oyuncu

Varsayım Kontrol Sonuç Karar
Örneklem n ≥ 2^5 = 32? 100 ≥ 32 ✓ Yeterli
Standardizasyon Farklı birimler? Hepsi sayı ✓ Yine de Z-skoru önerilir
Uç Değer |Z| > 3? 2 oyuncu ✗ Winsorize edildi
Çoklu Bağıntı |r| > 0.80? Yok ✓ Sorunsuz

Sonuç (k=4): Skorerler (n=28), Playmakerlar (n=22), Defenders (n=18), Rebounders (n=32)

Silhouette = 0.52 → İyi ayrım

🏃 Senaryo 2: Koşucu Segmentasyonu (Problemli)

Değişkenler: Boy, Kilo, BMI, VO2max, 10km süre, 5km süre (6 değişken)

n = 45 koşucu

Varsayım Kontrol Sonuç Çözüm
Örneklem n ≥ 2^6 = 64? 45 < 64 ✗ Az küme, dikkatli yorumla
Standardizasyon Farklı birimler? cm, kg, %, ml/kg, dk ✗ Z-skoru ŞART!
Çoklu Bağıntı |r| > 0.80? Kilo-BMI (r=0.91) ✗
10km-5km (r=0.95) ✗
BMI ve 5km çıkar!

Düzeltme sonrası: 4 değişken (Boy, Kilo, VO2max, 10km) ile yeniden kümeleme

📊 APA Raporlama Örneği

"Kümeleme analizi öncesi varsayım kontrolleri yapılmıştır. Tüm değişkenler Z-skoruna dönüştürülmüş, |Z| > 3 kriterine göre belirlenen 2 uç değer winsorize edilmiştir. Yüksek korelasyonlu değişken çiftleri (r > .80) nedeniyle BMI ve 5km değişkenleri analizden çıkarılmıştır. K-means kümeleme analizi (k=3) uygulanmış, Elbow yöntemi ve silhouette analizi (ortalama silhouette = .48) 3 kümenin optimal olduğunu göstermiştir."

Sinif Ici Aktivite: Sporcu Kumeleme

Uygulama: Aşağıdaki veri setini analiz edin ve varsayımları kontrol edin.
📋 Senaryo: Genç Futbolcu Akademisi

Amaç: 80 genç futbolcuyu performans profillerine göre gruplamak

Değişkenler:

  • Boy (cm): 155-185 arası
  • Kilo (kg): 45-75 arası
  • Sprint 30m (sn): 4.2-5.5 arası
  • Yo-Yo IR1 (m): 800-2400 arası
  • Dikey sıçrama (cm): 25-50 arası
  • Çeviklik T-test (sn): 9.5-12.5 arası

Ek bilgi: 1 oyuncunun Yo-Yo skoru 3500m (diğerlerinden çok farklı)

❓ Sorular

1. Örneklem büyüklüğü yeterli mi? (n ≥ 2^k kuralı)

2. Standardizasyon gerekli mi? Neden?

3. 3500m Yo-Yo skoru ile ne yapmalıyız?

4. Boy-Kilo arasında yüksek korelasyon beklenir mi?

Hafta 25 Ozet ve Quiz

Kumeleme Analizi - Benzer bireyleri gruplama

📋 Kümeleme Öncesi Kontrol Listesi

Adım Kontrol Kriter
1. Örneklem n ≥ 2^k 5 değişken → min 32, ideal 100+
2. Standardizasyon Z-skoru Farklı birimler varsa ŞART
3. Uç Değer |Z| > 3 veya Mahalanobis Temizle/Winsorize/K-Medoids
4. Çoklu Bağıntı |r| < 0.80 Yüksekse değişken çıkar/PCA

K-Means

k önceden belirle

Elbow, Silhouette

Hiyerarşik

Dendrogram

Ward yöntemi

Silhouette

> 0.5 iyi ayrım

-1 ile 1 arası

🧠 Quiz

Soru 1: Kümeleme hangi tür öğrenmedir?

Soru 2: Standardizasyon neden gerekli?

Soru 3: |r| = 0.92 olan iki değişken ne yapılmalı?

💡 Hatırla!

Kümeleme bir keşif aracıdır - p değeri vermez!

Varsayımlar sonuçların güvenilirliği için önemlidir.

Farklı ayarlar farklı sonuç verir → Teorik anlamlılık değerlendir!

1 / 17