📊 İLERİ İSTATİSTİK
Hafta 25: Kümeleme Analizi (Cluster Analysis)
📊 K-Means
Önceden k belirle
🌳 Hiyerarşik
Dendrogram
Doç. Dr. İzzet İNCE | Spor Bilimleri Fakültesi
Akademik Yıl: 2025 - 2026
Sembol ve Kavram Aciklama Tablosu
Temel Kavramlar ve Semboller
| Kavram / Sembol | Ne Demek? | Basit Aciklama |
|---|---|---|
| k | Kume sayisi | Kac gruba ayirmak istiyorsun? Ornegin k=3 demek 3 grup olustur demek. |
| K-Means | En populer kumeleme yontemi | Benzer seyleri otomatik gruplayan algoritma. "k tane ortalama bul" anlamina gelir. |
| Centroid | Kume merkezi | Her grubun "orta noktasi". Sanki grubun kaptani gibi dusun. |
| Silhouette Score | Kumeleme kalitesi olcusu | -1 ile +1 arasi. +1'e yakin = cok iyi gruplama. 0.5'ten buyuk olmasi istenir. |
| Dendrogram | Agac seklinde grafik | Hiyerarsik kumelemede kimlerin kimlerle gruplandigini gosteren soy agaci gibi sekil. |
| Elbow (Dirsek) | Optimal kume sayisi bulma | Grafikte "dirsek" gibi kivrilmanin oldugu yer en iyi k sayisidir. |
| WSS | Within Sum of Squares | Kume ici toplam uzaklik. Kucuk olmasi iyi - grup icindekiler birbirine yakin demek. |
| Hiyerarsik | Asama asama kumeleme | Basitten karmasiga veya tersine dogru kumeleri birlestiren/bolen yontem. |
Kolay Hatirlama Ipuclari
K-Means: "K tane kaptan sec, oyunculari en yakin kaptana ata" gibi dusun.
Centroid: Futbol takiminin orta saha oyuncusu gibi - grubun merkezinde.
Silhouette: Karne notu gibi. 0.5'in ustu = gecti, 0.7'nin ustu = basarili!
Dendrogram: Aile agaci gibi - kim kiminle akraba gosterir.
Hiyerarsik vs K-Means Karsilastirma
K-Means vs Hiyerarsik Kumeleme Karsilastirmasi
| Ozellik | K-Means | Hiyerarsik |
|---|---|---|
| Kume sayisi (k) | Onceden belirlemen lazim | Sonradan dendrogram'dan secersin |
| Hiz | Cok hizli | Yavas (buyuk veride) |
| Buyuk veri | Uygun (1000+ kisi) | Zor (max 500 kisi) |
| Gorsellestirme | Scatter plot | Dendrogram (agac) |
| Sonuc tutarliligi | Her calistirmada farkli olabilir | Her zaman ayni sonuc |
| Kume sekli | Yuvarlak kumeler sever | Her sekil olabilir |
| Uc degerlere duyarlilik | Cok hassas! | Orta hassas |
K-Means Sec Eger:
Cok fazla verin varsa (500+)
Kume sayisini biliyorsan
Hizli sonuc istiyorsan
Hiyerarsik Sec Eger:
Kac kume bilmiyorsan
Gruplarin yapisini gormek istiyorsan
Az verin varsa (200-)
Pratik Oneri
Ilk basta: Hiyerarsik ile baslayip dendrogram'a bak, kac kume mantikli gor.
Sonra: O k sayisiyla K-Means calistir (daha stabil sonuc icin).
Karsilastir: Iki yontemin sonuclarini kiyasla - benzerlerse guvenebilirsin!
Kumeleme Analizi Nedir?
Gozetimli (Supervised)
Hedef degisken var
Regresyon, siniflandirma
Gozletimsiz (Unsupervised)
Hedef degisken yok
Kumeleme, boyut indirgeme
Veri: 100 sporcunun fiziksel ve fizyolojik ozellikleri
Soru: Dogal olarak kac farkli sporcu profili var?
Kumeleme ile kesfet: "Dayaniklilik tipi", "Guc tipi", "Hibrit tip"...
📊 K-Means Kümeleme
📋 Algoritma Adımları
1. k sayıda rastgele merkez (centroid) seç
2. Her noktayı en yakın merkeze ata
3. Merkezleri yeniden hesapla (küme ortalaması)
4. Değişim olmayana kadar 2-3'ü tekrarla
📊 K-Means Görselleştirme
⚠️ Kritik Ön İşlem: Standardizasyon
Değişkenlerin birimleri farklıysa (örn: Boy [cm] vs Ağırlık [kg] vs Yağ [%]), büyük değerli değişken
analizi domine eder.
Bu yüzden K-Means öncesi veriler mutlaka Z-skoru (Standardizasyon) veya
Min-Max Normalizasyonu ile aynı ölçeğe getirilmelidir!
Hiyerarsik Kumeleme
Agglomerative (Birleştirici)
Aşağıdan yukarı
Her birey ayrı başlar, birleşir
Divisive (Bölücü)
Yukarıdan aşağı
Tek kümeden başlar, bölünür
📊 Bağlantı Yöntemleri
• Ward: Varyans artışını minimize et (en yaygın)
• Single: En yakın iki nokta
• Complete: En uzak iki nokta
• Average: Ortalama mesafe
KUMELEME ANALIZI VARSAYIMLARI
📋 Varsayım Kontrolü Neden Önemli?
Kümeleme bir keşif aracıdır - hipotez testi DEĞİL. Ancak:
• ❌ Standardizasyon yapılmazsa → Büyük değerli değişken kümelemeyi domine eder
• ❌ Uç değerler temizlenmezse → Sahte kümeler oluşur
• ❌ Çoklu bağıntılı değişkenler → Bazı özellikler abartılı ağırlık alır
Varsayim 1: Orneklem ve Standardizasyon
📏 Örneklem Büyüklüğü
Minimum: n ≥ 2^k (k = değişken sayısı)
5 değişken → minimum 32 gözlem
İdeal: Küme başına ≥ 50
⚖️ Standardizasyon
Z-skoru: (x - μ) / σ
Ortalama = 0, SS = 1
Alternatif: Min-Max (0-1)
📊 Standardizasyon Neden Şart?
Değişkenler: Boy (cm), Ağırlık (kg), VO2max (ml/kg/dk), Dikey sıçrama (cm)
Problem: Boy 160-200 arası, Yağ % 8-25 arası → Boy 10x daha büyük değerler!
Standardizasyon olmadan: Sadece boya göre kümeleme yapılır
Standardizasyon ile: Tüm özellikler eşit katkı sağlar
⚠️ SPSS / JASP Uyarısı
Bazı yazılımlar otomatik standardizasyon yapmaz!
• SPSS: Analyze → Classify → K-Means → Options → "Standardize values" işaretleyin
• JASP: Varsayılan olarak standardize ETMEZ - önce Transform kullanın
Varsayim 2: Uc Degerler ve Aykiri Gozlemler
❌ Uç Değer Etkisi
Tek başına küme oluşturur
Diğer kümeleri birleştirir
Merkezleri kaydırır
✅ Tespit Yöntemleri
Tek değişken: |Z| > 3
Çok değişken: Mahalanobis
Görsel: Scatter plot
📊 Uç Değer Kümelemeyi Nasıl Bozar?
📋 Uç Değer Tespit ve Çözüm Stratejileri
| Yöntem | Nasıl? | Ne Zaman? |
|---|---|---|
| Z-skoru | |Z| > 3 ise uç değer | Tek değişken kontrolü |
| Mahalanobis | p < 0.001 ise aykırı | Çok değişkenli kontrol |
| IQR | Q1-1.5×IQR veya Q3+1.5×IQR dışı | Robust yöntem |
1. Çıkarma: Uç değer gerçekten hatalıysa (veri girişi hatası)
2. Winsorization: Uç değerleri %5 veya %95 percentiline çek
3. Robust Kümeleme: K-Medoids (PAM) kullan - medyan bazlı, uç değerlere dayanıklı
4. Ayrı İncele: Uç değer gerçek bir alt grupsa, raporla
Varsayim 3: Degisken Secimi ve Coklu Baginti
❌ Yüksek Korelasyon Problemi
|r| > 0.80 dikkat!
Aynı bilgi çift sayılır
Kümeleme yanlı olur
✅ Çözümler
Değişken birini çıkar
PCA ile boyut indirgeme
VIF kontrolü (< 5)
📊 Korelasyon Matrisi Örneği
📋 Değişken Seçimi Kontrol Listesi
✓ Korelasyon matrisi: |r| > 0.80 olan çiftleri belirle
✓ VIF hesapla: VIF > 5 ise çoklu bağıntı var
✓ Teorik değerlendir: Hangi değişken kavramsal olarak daha önemli?
✓ PCA alternatifi: Boyut indirgeme ile bağımsız faktörler oluştur
Orijinal değişkenler: Boy, Kilo, BMI, Sprint 10m, Sprint 30m, Çeviklik T-test
Problem: Kilo-BMI (r=0.92), Sprint 10m-30m (r=0.88) yüksek korelasyon
Çözüm: BMI çıkar (Boy+Kilo zaten var), Sprint 10m çıkar (30m yeterli)
Final değişkenler: Boy, Kilo, Sprint 30m, Çeviklik → Temiz kümeleme!
Varsayim Saglanmazsa Ne Yapmali?
🔄 K-Means Alternatifleri
Uç değer var: K-Medoids (PAM)
Farklı şekiller: DBSCAN
Belirsiz k: Hiyerarşik
📊 Doğrulama Yöntemleri
İç: Silhouette, Elbow
Dış: Karşılaştırma (varsa)
Stabilite: Bootstrap
Kümeleme sonuçları subjektiftir - farklı ayarlar farklı sonuçlar verir!
• Birden fazla yöntem dene (K-Means vs Hiyerarşik)
• Birden fazla k değeri karşılaştır
• Sonuçların teorik anlamlılığını değerlendir
→ "İstatistiksel olarak en iyi" her zaman "pratik olarak en iyi" değildir!
Kume Sayisi Belirleme
Elbow Yöntemi
WSS grafiğinde dirsek
En yaygın kullanılan
Silhouette Skoru
-1 ile 1 arası
> 0.5 iyi ayrım
Gap İstatistiği
Referans dağılımla karşılaştır
İstatistiksel yöntem
• Elbow plot'ta dirsek noktasını bul
• Silhouette skorlarını karşılaştır
• Silhouette skorlarını karşılaştır
• Teorik olarak anlamlı mı değerlendir
📐 Uzaklık (Benzerlik) Nasıl Ölçülür?
En yaygın yöntem Öklid (Euclidean) Mesafesidir:
d(x,y) = √[Σ(xᵢ - yᵢ)²]
Alternatifler: Manhattan (Şehir Bloğu) Mesafesi (Aykırı değerlere daha dayanıklı).
Sporcu Gruplama - Somut Spor Ornekleri
Ornek 1: Futbolda Oyuncu Tipleri Belirleme
Senaryo: Bir futbol akademisi 120 genc oyuncuyu performans profillerine gore gruplamak istiyor.
| Degisken | Aciklama | Ornek Degerler |
|---|---|---|
| Sprint 30m (sn) | Hiz olcumu | 4.2 - 5.1 sn |
| Yo-Yo IR1 (m) | Dayaniklilik | 1200 - 2400 m |
| Dikey sicrama (cm) | Patlayici guc | 28 - 48 cm |
| Pas isabeti (%) | Teknik beceri | 65 - 92 % |
K-Means Sonucu (k=3):
- Kume 1 - Hiz Tipi (n=42): Yuksek sprint, orta dayaniklilik. Kanat oyunculari icin ideal.
- Kume 2 - Dayaniklilik Tipi (n=38): Yuksek Yo-Yo, orta hiz. Orta saha oyunculari.
- Kume 3 - Guc Tipi (n=40): Yuksek sicrama, dusuk dayaniklilik. Forvet ve stoper adaylari.
Silhouette = 0.58 - Iyi ayrim!
Ornek 2: Hentbolde Pozisyon Analizi
Senaryo: Milli takim secmeleri icin 80 hentbolcuyu fiziksel ozelliklerine gore gruplamak.
Degiskenler: Boy (cm), El acikligi (cm), 20m sprint (sn), Top atma hizi (km/s), Reaktif ceviklik (ms)
Hiyerarsik Kumeleme Sonucu:
- Kume A - Uzun Oyuncular (n=25): Yuksek boy + el acikligi. Kaleci ve pivot adaylari.
- Kume B - Hizli Aticilar (n=30): Yuksek atis hizi + sprint. Kenar ve orta sirt oyunculari.
- Kume C - Cevik Oyuncular (n=25): Dusuk boy ama yuksek ceviklik. Oyun kurucu adaylari.
Dendrogram acikca 3 grup gosteriyor!
Ornek 3: Yuzmede Sporcuyu Dogru Stile Yonlendirme
Senaryo: 60 genc yuzucuyu hangi yuzme stiline yonlendirilecegine karar vermek icin gruplamak.
Degiskenler: Boy (cm), Kol uzunlugu (cm), Ayak esnekligi (derece), 15m dalma mesafesi (sn), Bacak gucu (W)
K-Means Sonucu (k=4):
- Kume 1 - Serbest/Sirtustucu (n=18): Uzun kol, iyi dalma. 100-200m mesafeler.
- Kume 2 - Kurbagalama (n=12): Esnek ayak, guclu bacak. Teknik agirlikli stil.
- Kume 3 - Kelebek (n=15): Kisa boy ama patlayici guc. 50-100m mesafeler.
- Kume 4 - Karisik (n=15): Dengeli profil. Bireysel karisik veya bayrak icin.
Elbow grafigi k=4'te net dirsek gosteriyor!
Kume Sayisi Belirleme - Spor Ornekleri
Ornek 1: Basketbolda Oyuncu Rolleri - Elbow Yontemi
Veri: NBA'den 450 oyuncunun mac istatistikleri (sayi, asist, ribaund, blok, top calma)
Elbow Grafigi Sonucu:
| k degeri | WSS (ici toplam) | Yorum |
|---|---|---|
| k=2 | 45,200 | Cok genel, az bilgi |
| k=3 | 28,400 | Buyuk dusus! |
| k=4 | 19,100 | DIRSEK NOKTASI! |
| k=5 | 16,800 | Az iyilesme |
| k=6 | 15,200 | Gereksiz detay |
Karar: k=4 secildi. Roller: Skorerler, Playmakerlar, Rebounders, Savunmacilar
Ornek 2: Atletizmde Sporcu Profilleri - Silhouette Karsilastirma
Veri: 200 atletin fiziksel ve performans verileri (boy, kilo, 100m, 1500m, uzun atlama)
Silhouette Skorlari:
| k degeri | Silhouette Skoru | Degerlendirme |
|---|---|---|
| k=2 | 0.48 | Orta (sadece hiz vs dayaniklilik) |
| k=3 | 0.62 | EN IYI! |
| k=4 | 0.51 | Iyi ama 3'ten kotu |
| k=5 | 0.39 | Zayif ayrim |
Karar: k=3 secildi. Gruplar: Sprinterlar, Orta mesafeciler, Atlayicilar
Ornek 3: Halterde Siklet Sinifi Onerisi - Kombine Yontem
Veri: 80 genc haltercinin fiziksel ve performans verileri
Degiskenler: Vucut agirligi (kg), Kas kutlesi (kg), Kopus (kg), Silkme (kg), Dikey sicrama (cm)
Analiz Sureci:
- Elbow: k=3, k=4, k=5 arasinda belirsiz
- Silhouette: k=4 en yuksek (0.55)
- Gap Istatistigi: k=4 oneriyor
- Teorik deger: 4 siklet sinifi mantikli (hafif, orta, agir, super agir tip)
Sonuc Kumeleri:
- Hafif Tip (n=22): 55-67 kg, yuksek guc/kilo orani
- Orta Tip (n=25): 67-81 kg, dengeli profil
- Agir Tip (n=20): 81-96 kg, yuksek mutlak guc
- Super Agir Tip (n=13): 96+ kg, en yuksek kaldirma
Onemli Hatirlatma
Tek yonteme guvenme! Elbow + Silhouette + Teorik mantik birlikte kullan.
Istatistik her zaman yetmez: k=4 istatistiksel en iyi olsa bile, sporun gercekligine uygun mu diye sor!
Spor Senaryolari
Değişkenler: Sayı, asist, ribaund, blok, top çalma (5 değişken)
n = 100 oyuncu
| Varsayım | Kontrol | Sonuç | Karar |
|---|---|---|---|
| Örneklem | n ≥ 2^5 = 32? | 100 ≥ 32 ✓ | Yeterli |
| Standardizasyon | Farklı birimler? | Hepsi sayı ✓ | Yine de Z-skoru önerilir |
| Uç Değer | |Z| > 3? | 2 oyuncu ✗ | Winsorize edildi |
| Çoklu Bağıntı | |r| > 0.80? | Yok ✓ | Sorunsuz |
Sonuç (k=4): Skorerler (n=28), Playmakerlar (n=22), Defenders (n=18), Rebounders (n=32)
Silhouette = 0.52 → İyi ayrım
Değişkenler: Boy, Kilo, BMI, VO2max, 10km süre, 5km süre (6 değişken)
n = 45 koşucu
| Varsayım | Kontrol | Sonuç | Çözüm |
|---|---|---|---|
| Örneklem | n ≥ 2^6 = 64? | 45 < 64 ✗ | Az küme, dikkatli yorumla |
| Standardizasyon | Farklı birimler? | cm, kg, %, ml/kg, dk ✗ | Z-skoru ŞART! |
| Çoklu Bağıntı | |r| > 0.80? | Kilo-BMI (r=0.91) ✗ 10km-5km (r=0.95) ✗ |
BMI ve 5km çıkar! |
Düzeltme sonrası: 4 değişken (Boy, Kilo, VO2max, 10km) ile yeniden kümeleme
📊 APA Raporlama Örneği
"Kümeleme analizi öncesi varsayım kontrolleri yapılmıştır. Tüm değişkenler Z-skoruna dönüştürülmüş, |Z| > 3 kriterine göre belirlenen 2 uç değer winsorize edilmiştir. Yüksek korelasyonlu değişken çiftleri (r > .80) nedeniyle BMI ve 5km değişkenleri analizden çıkarılmıştır. K-means kümeleme analizi (k=3) uygulanmış, Elbow yöntemi ve silhouette analizi (ortalama silhouette = .48) 3 kümenin optimal olduğunu göstermiştir."
Sinif Ici Aktivite: Sporcu Kumeleme
Amaç: 80 genç futbolcuyu performans profillerine göre gruplamak
Değişkenler:
- Boy (cm): 155-185 arası
- Kilo (kg): 45-75 arası
- Sprint 30m (sn): 4.2-5.5 arası
- Yo-Yo IR1 (m): 800-2400 arası
- Dikey sıçrama (cm): 25-50 arası
- Çeviklik T-test (sn): 9.5-12.5 arası
Ek bilgi: 1 oyuncunun Yo-Yo skoru 3500m (diğerlerinden çok farklı)
❓ Sorular
1. Örneklem büyüklüğü yeterli mi? (n ≥ 2^k kuralı)
2. Standardizasyon gerekli mi? Neden?
3. 3500m Yo-Yo skoru ile ne yapmalıyız?
4. Boy-Kilo arasında yüksek korelasyon beklenir mi?
✅ Cevaplar
1. Örneklem: 6 değişken → 2^6 = 64 minimum. 80 > 64 ✓ Yeterli!
2. Standardizasyon: EVET! Boy (cm), Kilo (kg), süre (sn), mesafe (m) farklı birimler. Z-skoru şart.
3. 3500m Yo-Yo: Bu bir uç değer (|Z| > 3 olacak). Seçenekler:
- Gerçekten elit ise → Ayrı raporla veya özel küme
- Ölçüm hatası ise → Çıkar
- Analizi bozmamak için → Winsorize (%95'e çek)
4. Boy-Kilo: Genç sporcularda r ≈ 0.65-0.75 beklenir. Eğer r > 0.80 ise birini çıkar veya BMI hesaplama.
Önerilen Adımlar: Z-skoru → Uç değer kontrolü → Korelasyon matrisi → K-Means (k=3-4 dene) → Silhouette karşılaştır
Hafta 25 Ozet ve Quiz
📋 Kümeleme Öncesi Kontrol Listesi
| Adım | Kontrol | Kriter |
|---|---|---|
| 1. Örneklem | n ≥ 2^k | 5 değişken → min 32, ideal 100+ |
| 2. Standardizasyon | Z-skoru | Farklı birimler varsa ŞART |
| 3. Uç Değer | |Z| > 3 veya Mahalanobis | Temizle/Winsorize/K-Medoids |
| 4. Çoklu Bağıntı | |r| < 0.80 | Yüksekse değişken çıkar/PCA |
K-Means
k önceden belirle
Elbow, Silhouette
Hiyerarşik
Dendrogram
Ward yöntemi
Silhouette
> 0.5 iyi ayrım
-1 ile 1 arası
🧠 Quiz
Soru 1: Kümeleme hangi tür öğrenmedir?
Soru 2: Standardizasyon neden gerekli?
Soru 3: |r| = 0.92 olan iki değişken ne yapılmalı?
Kümeleme bir keşif aracıdır - p değeri vermez!
Varsayımlar sonuçların güvenilirliği için önemlidir.
Farklı ayarlar farklı sonuç verir → Teorik anlamlılık değerlendir!