📊 TEMEL İSTATİSTİK DERSLERİ
Hafta 16: Regresyon - Tahmin Etmenin Bilimi
Doç. Dr. İzzet İNCE | Spor Bilimleri Fakültesi
Akademik Yıl: 2025 - 2026
📈 Regresyon Nedir?
Korelasyon
"İlişki var mı?"
Güç ve yön
Regresyon
"Y'yi tahmin edebilir miyim?"
Tahmin denklemi
Soru: Bir sporcunun squat 1RM'i 120 kg ise, dikey sıçraması kaç cm olur?
Korelasyon: "Squat ve sıçrama arasında r = 0.75 pozitif ilişki var"
Regresyon: "Squat 120 kg ise → Tahmin: Sıçrama ≈ 55 cm"
📊 Terimler
X (Bağımsız/Yordayıcı): Tahmin için kullanılan değişken (squat)
Y (Bağımlı/Kriter): Tahmin edilen değişken (sıçrama)
🧠 Derinlemesine Analiz: "LINE" Varsayımları
Regresyonun geçerli olması için 4 şart (LINE) sağlanmalıdır:
- L (Linearity): İlişki doğrusal olmalı.
- I (Independence): Hatalar birbirinden bağımsız olmalı.
- N (Normality of Residuals): Hatalar (residuals) normal dağılmalı.
- E (Equal Variance/Homoscedasticity): Varyans her yerde eşit olmalı.
REGRESYON SEMBOLLERI VE KAVRAMLARI
TEMEL SEMBOLLER TABLOSU
| Sembol | Adi | Ne Demek? | Ornek |
|---|---|---|---|
| Y | Bagimli Degisken | Tahmin etmek istedigimiz sey | Dikey sicrama (cm) |
| X | Bagimsiz Degisken | Tahmin icin kullandigimiz sey | Squat 1RM (kg) |
| Y | Tahmin Edilen Y | Formul ile hesapladigimiz deger | Tahmini sicrama = 52 cm |
| b0 (a) | Sabit (Intercept) | X = 0 iken Y'nin degeri | Baslangic noktasi = 15 |
| b1 (b) | Egim (Slope) | X 1 birim artinca Y ne kadar degisir? | Her 1 kg = 0.35 cm artis |
| R2 | Belirlilik Katsayisi | Modelimiz ne kadar iyi? (%) | R2 = 0.64 = %64 aciklaniyor |
| Residual | Artik (Hata) | Gercek deger - Tahmin = Hata | 55 - 52 = 3 cm hata |
| SEE | Tahminin Std. Hatasi | Ortalama ne kadar sapiyoruz? | SEE = 4.2 cm (ort. hata) |
TEMEL FORMUL
Oku: Tahmin = Sabit + (Egim x Bagimsiz Degisken)
ORNEK: Formulu Okuyalim
Denklem: Sicrama = 15 + 0.35 x Squat
Anlami: Bir sporcunun sicramasini tahmin etmek icin:
1. Sabit degeri al: 15
2. Squat degerini 0.35 ile carp
3. Ikisini topla = Tahmini sicrama
Basit Dogrusal Regresyon
📊 Regresyon Çizgisi ve Artıklar
🎯 En Küçük Kareler (OLS)
Çizgi, tüm noktaların çizgiye olan dikey uzaklıklarının (artıkların) karelerinin toplamını MİNİMİZE eder.
SPOR ORNEKLERI: Adim Adim Hesaplama
ORNEK 1: FUTBOL - Antrenman Saati ve Sprint Suresi
Soru: Haftalik antrenman saati (X) ile 30m sprint suresi (Y) arasindaki iliski nedir?
| Sporcu | Antrenman (saat/hafta) | Sprint (saniye) |
|---|---|---|
| 1 | 8 | 4.8 |
| 2 | 10 | 4.5 |
| 3 | 12 | 4.3 |
| 4 | 15 | 4.0 |
| 5 | 18 | 3.8 |
Adim 1: Veriyi incele - Antrenman arttikca sprint suresi azaliyor (negatif iliski)
Adim 2: Regresyon analizi yap
Adim 3: Sonuc: Y = 5.6 - 0.10 x X
Yorum: Her 1 saat fazla antrenman = Sprint suresi 0.10 sn azalir!
TAHMIN: 14 saat antrenman yapan sporcu = 5.6 - 0.10 x 14 = 4.2 saniye
ORNEK 2: BASKETBOL - Boy ve Ribaund Sayisi
Soru: Oyuncu boyu (X) ile mac basi ribaund sayisi (Y) arasindaki iliski nedir?
| Oyuncu | Boy (cm) | Ribaund/Mac |
|---|---|---|
| 1 | 180 | 3 |
| 2 | 190 | 5 |
| 3 | 195 | 6 |
| 4 | 200 | 8 |
| 5 | 210 | 11 |
Adim 1: Veriyi incele - Boy arttikca ribaund artiyor (pozitif iliski)
Adim 2: Regresyon analizi yap
Adim 3: Sonuc: Y = -42 + 0.25 x X
Yorum: Her 1 cm boy artisi = 0.25 ribaund artisi!
TAHMIN: 205 cm boyundaki oyuncu = -42 + 0.25 x 205 = 9.25 ribaund/mac
ORNEK 3: YUZME - Haftalik Km ve 100m Suresi
Soru: Haftalik yuzme mesafesi (X) ile 100m serbest suresi (Y) arasindaki iliski?
| Yuzucu | Haftalik (km) | 100m Suresi (sn) |
|---|---|---|
| 1 | 15 | 68 |
| 2 | 20 | 64 |
| 3 | 25 | 60 |
| 4 | 30 | 57 |
| 5 | 35 | 54 |
Sonuc: Y = 80 - 0.75 x X
Yorum: Her 1 km fazla antrenman = Sure 0.75 sn azalir!
TAHMIN: 28 km antrenman yapan yuzucu = 80 - 0.75 x 28 = 59 saniye
REGRESYON DENKLEMINI YORUMLAMA
ORNEK 1: HALTER - Squat ve Clean Performansi
Denklem: Clean = 25 + 0.65 x Squat
b0 = 25 (Sabit):
Squat 0 kg olsa bile (teorik), clean tahmini 25 kg olur.
(Pratikte anlamsiz ama matematiksel gereklilik)
b1 = 0.65 (Egim):
Squat 1 kg artarsa, clean 0.65 kg artar.
Squat 10 kg artarsa, clean 6.5 kg artar.
ORNEK HESAP: Squat = 140 kg ise, Clean = 25 + 0.65 x 140 = 116 kg
ORNEK 2: VOLEYBOL - Dikey Sicrama ve Smas Hizi
Denklem: Smas_Hizi = 30 + 1.2 x Sicrama
b0 = 30 (Sabit):
Sicrama 0 cm olsa, smas hizi 30 km/h olur (baslangic noktasi).
b1 = 1.2 (Egim):
Sicrama 1 cm artarsa, smas hizi 1.2 km/h artar.
Sicrama 5 cm artarsa, smas hizi 6 km/h artar.
ORNEK HESAP: Sicrama = 55 cm ise, Smas Hizi = 30 + 1.2 x 55 = 96 km/h
ORNEK 3: ATLETIZM - Vucud Yag Orani ve 5000m Suresi
Denklem: Sure = 14 + 0.5 x Yag_Yuzdesi
b0 = 14 (Sabit):
Yag %0 olsa (teorik), 5000m suresi 14 dakika olur.
b1 = 0.5 (Egim):
Yag orani %1 artarsa, sure 0.5 dakika (30 sn) artar.
DIKKAT: Pozitif egim = yag arttikca sure UZAR (kotu)!
ORNEK HESAP: Yag = %12 ise, Sure = 14 + 0.5 x 12 = 20 dakika
R2 (BELIRLILIK KATSAYISI) YORUMLAMA
R2 NEDIR? BASITCE
R2 = Y'deki degisimin yuzde kaci X tarafindan aciklaniyor?
R2 = 0.64 demek = Y'nin %64'u X ile aciklaniyor, %36 baska seylerden!
ORNEK 1: ATLETIZM - VO2max ve 10km Suresi
Model: 10km Suresi = 60 - 0.5 x VO2max
R2 = 0.81
YORUM:
10km kosma suresindeki degisimin %81'i VO2max ile aciklaniyor.
Geri kalan %19 baska faktorlerden (teknik, motivasyon, hava durumu, vs.)
Sonuc: Cok iyi bir model! VO2max kosu performansini buyuk olcude acikliyor.
ORNEK 2: FUTBOL - Pas Basarisi ve Galibiyet
Model: Galibiyet = 2 + 0.08 x Pas_Basarisi
R2 = 0.35
YORUM:
Galibiyet sayisindaki degisimin sadece %35'i pas basarisiyla aciklaniyor.
Geri kalan %65 baska faktorlerden (sut isabeti, defans, kaleci, vs.)
Sonuc: Orta duzeyde model. Pas basarisi tek basina galibiyeti tahmin etmek icin yetersiz!
ORNEK 3: HALTER - Kol Cevresi ve Bench Press
Model: Bench = -80 + 4.4 x Kol_Cevresi
R2 = 0.92
YORUM:
Bench press performansindaki degisimin %92'si kol cevresiyle aciklaniyor.
Sadece %8 baska faktorlerden (teknik, kas lifi tipi, vs.)
Sonuc: Mukemmel model! Kol cevresi bench press'i cok iyi tahmin ediyor.
R2 DEGERLENDIRME TABLOSU
| R2 Degeri | Derecelendirme | Yorum |
|---|---|---|
| 0.00 - 0.25 | Zayif | Model pek ise yaramiyor |
| 0.25 - 0.50 | Orta | Kismi aciklama, baska faktorler de lazim |
| 0.50 - 0.75 | Iyi | Yari yariya acikliyor, kullanilabilir |
| 0.75 - 1.00 | Cok Iyi | Model guclu, tahminler guvenilir |
Regresyon Denklemi
Basit Doğrusal Regresyon:
Ŷ = Tahmin edilen Y | a = Sabit | b = Eğim katsayısı
a (Intercept)
Çizginin Y eksenini kestiği nokta
X = 0 iken Y'nin değeri
b (Slope)
X bir birim artınca Y ne kadar değişir?
Değişim oranı
Denklem: Sıçrama = 15 + 0.35 × Squat
Yorum: Squat her 1 kg artınca, sıçrama 0.35 cm artar.
Tahmin: Squat = 100 kg → Sıçrama = 15 + 0.35×100 = 50 cm
R2 (Aciklanan Varyans)
R-Squared:
0 ile 1 arasında değer alır | r²'ye eşit
📊 R² Yorumlama
| R² Değeri | Yorum | Açıklama |
|---|---|---|
| R² = 0.10 | Zayıf | Sadece %10 açıklanıyor |
| R² = 0.30 | Orta | %30 açıklanıyor |
| R² = 0.60 | İyi | %60 açıklanıyor |
⚖️ İleri Detay: Adjusted R² (Düzeltilmiş R²)
Modele her yeni değişken eklediğinizde (saçma bile olsa) R² artar. Bu bir "şişirme"dir.
Adjusted R² ise sizi gereksiz değişken eklediğiniz için cezalandırır.
Akademik makalelerde Adjusted R² raporlanmalıdır!
Coklu Regresyon
Çoklu Regresyon Denklemi:
Yordayıcılar:
• X₁ = Squat (kg)
• X₂ = Vücut yağ yüzdesi (%)
• X₃ = Bacak uzunluğu (cm)
Denklem: Sprint = 15.2 - 0.02×Squat + 0.05×Yağ - 0.03×Bacak
R² = 0.72 → Bu 3 değişken sprint süresinin %72'sini açıklıyor!
⚠️ Dikkat: Çoklu regresyonda multicollinearity (yordayıcılar arası yüksek korelasyon) sorun olabilir!
🚫 Çoklu Bağlantı (Multicollinearity) ve VIF
Eğer iki bağımsız değişken birbirine çok benziyorsa (r > 0.90), model kafayı yer!
VIF (Variance Inflation Factor) değeri 10'un (bazı kaynaklarda 5'in)
üzerindeyse o değişken modelden atılmalıdır.
LINE VARSAYIMLARI - ONEMLI!
Bu 4 varsayım sağlanmazsa, regresyon sonuçları GÜVENĐLMEZ!
📋 LINE = 4 Temel Varsayım
Her harf bir varsayımı temsil eder - hepsini hatırla!
L - Linearity
DOĞRUSALLIK
X ve Y arasındaki ilişki düz çizgi şeklinde olmalı
Kontrol: Scatter plot
I - Independence
BAĞIMSIZLIK
Hatalar (residuals) birbirinden bağımsız olmalı
Kontrol: Durbin-Watson
N - Normality
NORMALLİK
Hatalar (residuals) normal dağılmalı
Kontrol: Shapiro-Wilk (artıklara)
E - Equal Variance
EŞİT VARYANS
Hataların yayılımı her yerde eşit olmalı
Kontrol: Residual plot
⚽ Spor Bilimlerinde Neden Önemli?
Performans tahmin modellerinde varsayım ihlalleri yanlış antrenman kararlarına yol açar!
Örneğin: "Squat arttıkça sprint iyileşir" modeli eğri bir ilişkiyi kaçırabilir.
L ve I: Dogrusallik ve Bagimsizlik
L - DOĞRUSALLIK
Nasıl Kontrol?
1. Scatter plot çiz
2. Düz çizgi mi, eğri mi?
Düz çizgi → ✅ OK
Eğri/U şekli → ❌ Sorun
I - BAĞIMSIZLIK
Nasıl Kontrol?
Durbin-Watson Testi
DW ≈ 2: Bağımsız ✅
DW < 1.5: Pozitif otokorelasyon ❌
DW > 2.5: Negatif otokorelasyon ❌
📊 Doğrusal vs Doğrusal Olmayan İlişki
Model: Sprint süresi ~ Squat 1RM
Durbin-Watson: DW = 1.89
→ DW ≈ 2, hatalar bağımsız, varsayım sağlanıyor ✅
N ve E: Normallik ve Esit Varyans
N - NORMALLİK (Residuals)
Nasıl Kontrol?
ARTIKLARA Shapiro-Wilk
p > 0.05: Normal ✅
p ≤ 0.05: Normal değil ❌
+ Q-Q plot düz çizgi olmalı
E - EŞİT VARYANS (Homoscedasticity)
Nasıl Kontrol?
Residual vs Predicted plot
Rastgele dağılım: OK ✅
Huni şekli: Sorun ❌
Breusch-Pagan testi de kullanılır
📊 Homoscedasticity vs Heteroscedasticity
Model: VO2max ~ Antrenman saati
Artıklara Shapiro-Wilk: W = 0.967, p = 0.542
→ p > 0.05, artıklar normal dağılıyor ✅
⚠️ ÖNEMLİ: Shapiro-Wilk ORİJİNAL verilere DEĞİL!
Regresyonda normallik kontrolü ARTIKLARA (residuals = Y - Ŷ) yapılır, ham Y değerlerine DEĞİL!
Varsayim Saglanmazsa Ne Yapilir?
| Varsayım | İhlal Belirtisi | Çözüm |
|---|---|---|
| L - Doğrusallık | Scatter plot'ta eğri ilişki |
• Veri dönüştürme (log, sqrt) • Polinom regresyon (X²) • Non-linear regresyon |
| I - Bağımsızlık | DW < 1.5 veya > 2.5 |
• Zaman serisi analizi • Otokorelasyon düzeltmesi • Farklı model (GLS) |
| N - Normallik | Artıklarda Shapiro p < 0.05 |
• Veri dönüştürme (log Y) • Aykırı değerleri çıkar • Bootstrap regresyon |
| E - Eşit Varyans | Huni şekli residual plot |
• Ağırlıklı regresyon (WLS) • Robust standart hatalar • Veri dönüştürme |
🔄 En Yaygın Çözüm
LOG Dönüşümü
Y veya X'i logaritma al
Çarpık dağılımı düzeltir
⚠️ Son Çare
Non-parametrik
Spearman korelasyonu
Sıralama temelli analiz
Orijinal: Yarış süresi ~ Antrenman km (sağa çarpık)
Dönüştürülmüş: log(Yarış süresi) ~ Antrenman km
→ Dönüşüm sonrası normallik sağlandı ✅
Adim Adim Regresyon Uygulamasi
🎯 Senaryo: Squat'tan Dikey Sıçrama Tahmini
Soru: Squat 1RM (kg) ile dikey sıçrama (cm) arasındaki ilişkiyi modelleyelim
Veri: 30 sporcu
| ADIM | YAPILACAK İŞ | SONUÇ | KARAR |
|---|---|---|---|
| 1️⃣ Scatter | X-Y grafiği çiz | Düz çizgi şeklinde | ✅ Doğrusal ilişki |
| 2️⃣ Model | Regresyon analizi | Ŷ = 18.5 + 0.32X R² = 0.56, p < 0.001 |
✅ Anlamlı model |
| 3️⃣ Normallik | Artıklara Shapiro-Wilk | W = 0.961, p = 0.328 | ✅ Artıklar normal |
| 4️⃣ Bağımsızlık | Durbin-Watson | DW = 2.12 | ✅ Hatalar bağımsız |
| 5️⃣ Eşit Varyans | Residual plot kontrol | Rastgele dağılım | ✅ Homoscedasticity |
📋 APA Formatında Raporlama
"Basit doğrusal regresyon analizi sonuçlarına göre, squat 1RM dikey sıçrama performansının anlamlı bir yordayıcısıdır, F(1, 28) = 35.64, p < .001, R² = .56. Squat'taki her 1 kg artış, sıçramada 0.32 cm artışla ilişkilidir (β = .75). Tüm LINE varsayımları sağlanmıştır."
Spor Senaryolari - LINE Varsayim Kontrollu
Model: Dikey Sıçrama ~ Squat 1RM (n=40 futbolcu)
| Varsayım | Test | Sonuç | Karar |
|---|---|---|---|
| L - Doğrusallık | Scatter plot | Düz çizgi | ✅ |
| I - Bağımsızlık | Durbin-Watson | DW = 1.92 | ✅ |
| N - Normallik | Shapiro (artıklar) | p = 0.412 | ✅ |
| E - Eşit Varyans | Residual plot | Rastgele | ✅ |
→ Tüm varsayımlar OK, regresyon geçerli!
Model: 100m Yüzme Süresi ~ Antrenman Hacmi (n=25)
| Varsayım | Test | Sonuç | Karar |
|---|---|---|---|
| L - Doğrusallık | Scatter plot | Eğri ilişki! | ❌ |
| E - Eşit Varyans | Residual plot | Huni şekli! | ❌ |
Çözüm: log(Süre) dönüşümü yapıldı → Varsayımlar sağlandı ✅
Model: Maç Performansı ~ Boy + Kilo + Antrenman Yükü (n=60)
VIF Kontrolü: Boy-Kilo (VIF = 8.5) → Multicollinearity şüphesi!
Çözüm: Vücut Kitle İndeksi (VKİ) hesaplanarak tek değişken haline getirildi.
Sinif Ici Aktivite: Regresyon Analizi
📊 Veri Seti: Halter Sporcuları (n=15)
Kol çevresi (cm) ile bench press 1RM (kg) arasındaki ilişki
| Sporcu | Kol (cm) | Bench (kg) | Sporcu | Kol (cm) | Bench (kg) |
|---|---|---|---|---|---|
| 1 | 32 | 65 | 9 | 40 | 95 |
| 2 | 34 | 72 | 10 | 41 | 100 |
| 3 | 35 | 75 | 11 | 42 | 105 |
| 4 | 36 | 78 | 12 | 43 | 110 |
| 5 | 37 | 82 | 13 | 44 | 115 |
| 6 | 38 | 85 | 14 | 45 | 118 |
| 7 | 38 | 88 | 15 | 46 | 125 |
| 8 | 39 | 90 | - | ||
📝 Görev 1
Scatter plot çizin
Doğrusal mı kontrol edin
📝 Görev 2
Regresyon denklemi yazın
Ŷ = a + bX
📝 Görev 3
LINE kontrol
4 varsayımı değerlendirin
💡 Bonus Soru
Kol çevresi 47 cm olan bir sporcunun tahmini bench press'i kaç kg?
Hafta 16 Ozet ve Quiz
📈 Regresyon
Ŷ = a + bX
Tahmin denklemi
📊 R²
Açıklanan varyans
0-1 arası
⚠️ LINE
4 Varsayım
L-I-N-E
🔄 Çözümler
Dönüşüm/Alternatif
Log, WLS, Bootstrap
🧠 Quiz: LINE Varsayımları
Soru 1: Regresyonda normallik kontrolü NEYE yapılır?
Soru 2: Durbin-Watson (DW) = 0.95 ise ne olur?
Soru 3: Residual plot'ta "huni şekli" ne gösterir?
📋 LINE Hatırlatıcı
Linearity → Scatter plot | Independence → Durbin-Watson | Normality → Shapiro (artıklara) | Equal Variance → Residual plot