📊 TEMEL İSTATİSTİK DERSLERİ
Hafta 13: Hipotez Testi, P-Değeri ve Standart Hata
🎯 Hipotez
Test edilebilir iddia
📊 P-Değeri
Şans olasılığı
📏 Standart Hata
Tahmin güvenilirliği
Doç. Dr. İzzet İNCE | Spor Bilimleri Fakültesi
Akademik Yıl: 2025 - 2026
🤔 Bu Fark Gerçek Mi?
🎯 "Fark Gerçek mi?" Sorusu Nedir? - Basit Açıklama
Düşün: Arkadaşın "Bu restoran çok iyi!" diyor. 3 kez gittin, 2'sinde yemek güzeldi, 1'inde berbattı.
Soru: Bu restoran GERÇEKTEN iyi mi, yoksa şansına mı denk geldin?
Hipotez testi tam olarak bunu soruyor: "Gördüğüm fark gerçek mi, yoksa rastlantı mı?"
Deney: 20 futbolcuya 8 hafta yeni antrenman programı uyguladık.
Önce: Ortalama sprint süresi = 4.50 sn
Sonra: Ortalama sprint süresi = 4.35 sn
Fark: 0.15 saniye iyileşme! 🎉
AMA: Bu 0.15 saniyelik fark gerçekten antrenmanın etkisi mi, yoksa tesadüf mü?
🚌 Günlük Hayat Örneği: Otobüs Bekleme
Senaryo: Yeni bir otobüs hattı açıldı. Eskiden 15 dakika bekliyordun, şimdi 12 dakika bekledin.
Soru: Bu 3 dakikalık fark gerçek mi?
- Belki o gün trafik azdı (ŞANS)
- Belki gerçekten sefer sıklaştı (GERÇEK ETKİ)
Nasıl anlarız? 1 gün değil, 30 gün ölçeriz! Tutarlı bir fark varsa GERÇEK, yoksa ŞANS!
✅ Gerçek Etki
Antrenman programı işe yaradı!
❌ Şans/Rastlantı
Ölçüm hatası, günlük varyasyon, tesadüf...
🔬 İşte bu soruyu cevaplamak için HİPOTEZ TESTİ yapıyoruz!
🍳 FARK GERÇEK Mİ TARİFİ
Ölç
Önce ve sonra verileri topla
Farkı Hesapla
Ortalamalar arasındaki fark ne?
p-değeri bul
Bu fark şans eseri olabilir mi?
Karar Ver
p < 0.05 ise GERÇEK!
🎯 Hipotez Nedir?
📖 Kavramların Basit Anlamları:
| H₀ | Sifir Hipotezi - "Hicbir sey degismedi, fark yok" varsayimi. Mahkemede "masum" kabul etmek gibi. Ornek: "Antrenman etkisiz, sporcular ayni kaldi" |
| H₁ | Alternatif Hipotez - "Bir fark var!" iddiasi. Mahkemede "suclu" demek gibi - kanitlamamiz gerekir! Ornek: "Antrenman performansi artirdi" |
| p-degeri | Sans olasiligi - "Bu fark sans eseri olabilir mi?" sorusunun cevabi (0 ile 1 arasi sayi). p = 0.02 demek: "100 deneyin sadece 2'sinde bu sonuc sansa bagli olur" |
| α = 0.05 | Karar esigi - Bilim dunyasinin kabul ettigi sinir. p < 0.05 ise "FARK VAR!" deriz p >= 0.05 ise "Fark yok veya kanit yetersiz" deriz |
H₀ (Null Hipotez)
"Fark YOK" veya "Etki YOK"
Varsayılan durum, reddedilmeye çalışılır
H₁ (Alternatif Hipotez)
"Fark VAR" veya "Etki VAR"
Kanıtlamaya çalıştığımız iddia
H₀: "Yeni antrenman programı sprint süresini değiştirmez" (μ₁ = μ₂)
H₁: "Yeni antrenman programı sprint süresini iyileştirir" (μ₁ ≠ μ₂ veya μ₁ < μ₂)
🎲 Mantık: "Suçlu Kanıtlanana Kadar Masumdur"
Null hipotez doğru kabul edilir. Kanıt yeterince güçlüyse reddedilir!
⚖️ MAHKEME ANALOJİSİ - Hipotez Testini Anla!
🏛️ Mahkemede:
Varsayım: "Sanık MASUMDUR"
Savcı: Suçlu olduğunu kanıtlamalı
Kanıt güçlüyse: MAHKUM!
Kanıt zayıfsa: BERAAT!
🔬 Hipotez Testinde:
H₀ (Varsayım): "Fark YOK"
Araştırmacı: Fark olduğunu kanıtlamalı
p < 0.05: H₀ REDDEDİLİR!
p ≥ 0.05: H₀ REDDEDİLEMEZ!
Anahtar: Masum (H₀) varsayılır → Kanıt toplanır → Kanıt çok güçlüyse suçlu (H₁) kabul edilir!
🍳 HİPOTEZ TESTİ TARİFİ
H₀ ve H₁ yaz
H₀: Fark yok
H₁: Fark var
α = 0.05 belirle
Yanılma payı %5
p-değeri hesapla
Test yap, p bul
p < α ise H₀ RED!
Fark GERÇEK!
🏀 SPOR ÖRNEĞİ: Serbest Atış Programı
Senaryo: Basketbol takımına yeni serbest atış tekniği öğretildi.
| H₀: | "Yeni teknik serbest atış yüzdesini DEĞİŞTİRMEZ" (μönce = μsonra) |
| H₁: | "Yeni teknik serbest atış yüzdesini ARTIRIR" (μsonra > μönce) |
Önce: %68 isabet | Sonra: %75 isabet | p = 0.02
→ p < 0.05, H₀ reddedildi! Yeni teknik GERÇEKTEN işe yarıyor!
🧠 Derinlemesine Analiz: Tek Yönlü vs Çift Yönlü
Çift Yönlü (Two-Tailed): "Fark var mı?" diye sorar. Yön belirtmez (Daha iyi
veya daha kötü olabilir). Standarttır.
Tek Yönlü (One-Tailed): "Daha İYİ mi?" diye sorar. Yön bellidir.
📊 P-Değeri Nedir?
🎯 P-DEĞERİ Nedir? - En Basit Açıklama
P-değeri şunu sorar: "Eğer gerçekte HİÇBİR fark yoksa, bu kadar büyük bir farkı ŞANS ESERİ görme ihtimalim nedir?"
p = 0.02 demek:
"100 kez deney yapsam ve gerçekte fark OLMASAYDI, sadece 2 tanesinde bu sonucu görürdüm."
Çok düşük! → Bu sonuç şans olamaz, GERÇEK bir fark var!
P-Değeri Yorumu:
🎰 Günlük Hayat Örneği: Hileli Zar
Senaryo: Arkadaşın zarla oynuyor. 10 kez attı, 8'inde 6 geldi!
Soru: Zar hileli mi?
H₀: "Zar normal" (Hileli değil)
Hesap: Normal zarda 10 atışta 8 kez 6 gelme olasılığı = %0.001 (p = 0.00001)
p çok düşük! → Normal bir zarla bu NEREDEYSE İMKANSIZ! → Zar HİLELİ!
📊 P-Değeri Görselleştirmesi
🍳 P-DEĞERİNİ ANLAMA TARİFİ
Varsay
"Fark yok" (H₀ doğru)
Sor
"Bu sonuç ne kadar olası?"
Hesapla
p-değeri = şans olasılığı
Karar
p küçükse → GERÇEK!
🤔 Basit Anlatım
P = 0.03 → "Gerçekte fark olmasaydı, bu sonucu 100 deneyin sadece 3'ünde görürdük."
→ Bu çok düşük! Muhtemelen gerçek bir etki var!
🏊 SPOR ÖRNEĞİ: Yüzme Süreleri
Senaryo: Yeni yüzme tekniği öğretildi. 100m süreleri:
Önce: 62.5 sn | Sonra: 61.2 sn | Fark: 1.3 sn
p = 0.008
Yorum: "Eğer teknik hiç işe yaramasaydı, bu kadar iyileşmeyi 1000 yüzücünün sadece 8'inde görürdük."
→ p < 0.05, bu iyileşme ŞANS DEĞİL, teknik GERÇEKTEN işe yarıyor!
📋 P-Degerini Yorumlama
⭐ ALTIN KURAL (Bunu Ezberle!):
p < 0.05
"ANLAMLI FARK VAR!"
H₀ reddedilir ✅
p >= 0.05
"Fark yok veya kanit yetersiz"
H₀ reddedilemez ❌
📊 P-Değeri Karar Tablosu
| P-Değeri | Karar | Yorum |
|---|---|---|
| p < 0.001 | H₀ Reddedilir | Çok güçlü kanıt! ⭐⭐⭐ |
| p < 0.01 | H₀ Reddedilir | Güçlü kanıt ⭐⭐ |
| p < 0.05 | H₀ Reddedilir | Anlamlı ⭐ |
| p ≥ 0.05 | H₀ Reddedilemez | Kanıt yetersiz ❌ |
⚠️ Dikkat: p ≥ 0.05 "fark YOK" demek DEĞİL! "Fark olduğuna dair YETERLİ kanıt bulamadık" demek.
🛒 Günlük Hayat Örnekleri: P-Değeri Yorumlama
🍕 Pizza Sipariş Süresi
Soru: "Yeni kuryeler daha hızlı mı?"
Eski: 35 dk | Yeni: 28 dk
p = 0.01
✅ p < 0.05 → EVET! Gerçekten hızlılar!
☕ Kahve Makinesi
Soru: "Yeni makine daha iyi mi?"
Eski: 4.2 puan | Yeni: 4.3 puan
p = 0.38
❌ p > 0.05 → Fark şans olabilir!
🍳 P-DEĞERİ YORUMLAMA TARİFİ
p değerine bak
0 ile 1 arasında bir sayı
0.05 ile karşılaştır
Sihirli eşik değeri
p < 0.05 mi?
Evet ise → ANLAMLI!
Karar yaz
"H₀ reddedildi" veya "reddedilemedi"
🏃 SPOR ÖRNEĞİ: Farklı P-Değerleri
| Çalışma | p-değeri | Yorum |
|---|---|---|
| Protein tozu → Kas kütlesi | p = 0.001 | ⭐⭐⭐ ÇOK GÜÇLÜ kanıt! |
| Esneme → Sakatlık azalması | p = 0.03 | ⭐ Anlamlı fark var |
| Müzik → Sprint hızı | p = 0.15 | ❌ Kanıt yetersiz |
🔍 Önemli: İstatistiksel Anlamlılık vs Pratik Önem
Çok büyük gruplarda (n=10,000) minicik bir fark bile p < 0.05 çıkabilir!
Bu yüzden p-değeri
tek başına yetmez. Mutlaka Etki Büyüklüğü (Effect Size) raporlanmalıdır.
(Gelecek hafta detaylı işleyeceğiz: Cohen's d).
📏 Standart Hata (SE)
🎯 STANDART HATA Nedir? - En Basit Açıklama
Düşün: Türkiye'deki TÜM futbolcuların boyunu öğrenmek istiyorsun. 50.000 futbolcu var, hepsini ölçemezsin!
Çözüm: 100 futbolcu seç, boylarını ölç, ortalama al. Diyelim 178 cm çıktı.
Soru: Bu 178 cm gerçek ortalamaya ne kadar yakın?
Standart Hata = "Tahminimiz ne kadar şaşabilir?" sorusunun cevabı!
SE = 2 cm demek: "Gerçek ortalama muhtemelen 176-180 cm arasında"
Standart Hata Formülü:
σ = Standart Sapma | n = Örneklem Büyüklüğü
🍳 STANDART HATA HESAPLAMA TARİFİ
σ'yı bul
Standart sapma neydi?
n'yi bul
Kaç kişi ölçüldü?
√n hesapla
n'nin karekökü
σ ÷ √n
Böl ve SE'yi bul!
🍎 Günlük Hayat Örneği: Market Fiyatları
Senaryo: Türkiye'deki TÜM marketlerde elma fiyatını öğrenmek istiyorsun.
Deney 1: 10 markete baktın → Ortalama: 25 TL/kg, SE = 3 TL
→ Gerçek fiyat 22-28 TL arasında olabilir (belirsizlik YÜKSEK)
Deney 2: 100 markete baktın → Ortalama: 24 TL/kg, SE = 0.9 TL
→ Gerçek fiyat 23-25 TL arasında (belirsizlik DÜŞÜK)
Daha çok market = Daha güvenilir tahmin!
📉 Küçük SE
Tahminimiz güvenilir! Ortalama değişmez.
📈 Büyük SE
Tahminimiz belirsiz. Farklı örneklem = farklı sonuç!
🏋️ SPOR ÖRNEĞİ: Bench Press Ortalaması
Soru: Üniversite sporcularının ortalama bench press'i nedir?
| Örneklem | Ortalama | σ | SE | Güvenilirlik |
|---|---|---|---|---|
| n = 10 | 80 kg | 15 kg | 4.7 kg | ❌ Düşük (75-85 arası) |
| n = 50 | 78 kg | 15 kg | 2.1 kg | ⚠️ Orta (76-80 arası) |
| n = 200 | 77 kg | 15 kg | 1.1 kg | ✅ Yüksek (76-78 arası) |
Sonuç: n arttıkça SE düşer, tahmin güvenilirliği artar!
💡 Önemli İlişki
n arttıkça SE azalır! Daha büyük örneklem = Daha güvenilir tahmin.
n=25 → SE = σ/5 | n=100 → SE = σ/10 | n=400 → SE = σ/20
📊 Örneklem Büyüklüğü ve SE İlişkisi
⚠️ Tip I ve Tip II Hata
🎯 İki Tür Hata Nedir? - Mahkeme Analojisi
⚖️ Tip I Hata = SUÇSUZ BİRİNİ MAHKUM ETMEK
Gerçek: Kişi MASUM (H₀ doğru)
Karar: "SUÇLU!" dedik
Sonuç: Yanlış cezalandırma!
Sporda: "Program işe yaramıyor ama yaradı dedik"
⚖️ Tip II Hata = SUÇLUYU SERBEST BIRAKMAK
Gerçek: Kişi SUÇLU (H₀ yanlış)
Karar: "Kanıt yok, serbest" dedik
Sonuç: Suçlu kaçtı!
Sporda: "Program işe yarıyor ama fark bulamadık"
❌ Tip I Hata (Yanlış Pozitif)
Gerçekte fark YOK ama "var" dedik!
H₀ doğru ama reddettik
Olasılık = α (genellikle 0.05)
❌ Tip II Hata (Yanlış Negatif)
Gerçekte fark VAR ama "yok" dedik!
H₀ yanlış ama reddedemedik
Olasılık = β
🍳 HATA TÜRLERİNİ ANLAMA TARİFİ
Gerçeği düşün
Fark var mı yok mu?
Kararını düşün
Ne karar verdin?
Karşılaştır
Gerçek = Karar mı?
Hata türü?
I mi II mi?
🏥 Günlük Hayat Örneği: Hamilelik Testi
Tip I Hata (Yanlış Pozitif)
Gerçek: Hamile DEĞİL
Test: "Hamileyim!" diyor
Sonuç: Yanlış sevinç!
→ Gereksiz panik/hazırlık
Tip II Hata (Yanlış Negatif)
Gerçek: Hamile
Test: "Hamile değilsin" diyor
Sonuç: Yanlış rahatlama!
→ Gerekli bakımı kaçırma
📊 Hata Matrisi
| GERÇEK DURUM | |||
| H₀ Doğru | H₀ Yanlış | ||
| KARAR | Reddet | Tip I Hata ❌ | Doğru ✅ |
| Reddetme | Doğru ✅ | Tip II Hata ❌ | |
🎯 SPOR ÖRNEĞİ: Okçuluk Antrenmanı
Senaryo: Yeni bir nişan alma tekniği test ediyoruz.
| Hata Türü | Gerçek | Karar | Sonuç |
|---|---|---|---|
| Tip I | Teknik ETKİSİZ | "Teknik işe yarıyor!" dedik | ❌ İşe yaramayan tekniği öğrettik! |
| Tip II | Teknik ETKİLİ | "Fark bulamadık" dedik | ❌ İyi tekniği kaçırdık! |
💪 Testin Gücü (Statistical Power)
Güç (1-β): Gerçekte var olan bir etkiyi bulabilme olasılığıdır. Genellikle %80 (0.80) istenir.
- Eğer Güç düşükse, etkiniz olsa bile p > 0.05 bulursunuz (Emekler boşa gider!).
- Çalışmaya başlamadan önce G*Power analizi yaparak "Kaç deneğe ihtiyacım var?" (Sample Size Planning) diye hesaplanmalıdır.
⚠️ Hangisi Daha Kötü?
Duruma göre değişir!
Tip I daha kötü: Dopingli sporcuyu "temiz" ilan etmek → Haksız rekabet!
Tip II daha kötü: Etkili bir sakatlık önleme programını "işe yaramıyor" deyip bırakmak → Sporcular sakatlanır!
Sonuç: α (Tip I) genellikle 0.05'te tutulur. Tip II'yi azaltmak için ÖRNEKLEM BÜYÜKLÜĞÜ artırılır!
⚽ Spor Senaryolari - Gercek Ornekler
⭐ ALTIN KURAL - P-Degeri Yorumlama:
p < 0.05 → "ANLAMLI FARK VAR!" (H₀ reddedilir) ✅
p >= 0.05 → "Fark yok veya kanit yetersiz" (H₀ reddedilemez) ❌
🏋️ ORNEK 1: Yeni Kuvvet Programi (ETKILI!)
Soru: Yeni kuvvet programi squat performansini artirir mi?
H₀: "Program etkisiz, squat degismez"
H₁: "Program squat'i artirir"
Veriler: 15 sporcu, 8 hafta antrenman
Once: Ortalama squat = 100 kg
Sonra: Ortalama squat = 115 kg
p = 0.003
p = 0.003 < 0.05 → H₀ REDDEDILDI! ✅
→ Program GERCEKTEN ise yaramis! Bu 15 kg'lik artis sans degil, gercek bir etki!
💊 ORNEK 2: Vitamin Takviyesi (ETKISIZ!)
Soru: Vitamin D takviyesi futbolcularin dayanikliligini artirir mi?
H₀: "Vitamin etkisiz"
H₁: "Vitamin dayanikliligi artirir"
Veriler: 20 futbolcu, 12 hafta vitamin kullanimi
Once: Yo-Yo testi = 1850 m
Sonra: Yo-Yo testi = 1890 m
p = 0.42
p = 0.42 > 0.05 → H₀ REDDEDILEMEDI! ❌
→ Vitamin ETKILI DEGIL! 40 metrelik fark sans eseri olabilir, gercek bir etki kanitlanamadi.
🏃 ORNEK 3: Dinamik Isitma vs Statik Germe
Soru: Dinamik isitma, statik germeden daha iyi sprint performansi saglar mi?
H₀: "Iki yontem arasinda fark yok"
H₁: "Dinamik isitma daha etkili"
Veriler: 24 sporcu, 2 grup (12+12)
Dinamik isitma grubu: 30m sprint = 4.12 sn
Statik germe grubu: 30m sprint = 4.35 sn
p = 0.018
p = 0.018 < 0.05 → H₀ REDDEDILDI! ✅
→ Dinamik isitma GERCEKTEN daha iyi! 0.23 sn'lik fark istatistiksel olarak anlamli.
😴 ORNEK 4: Uyku Suresi ve Reaksiyon Zamani (SINIRDA DURUM)
Soru: 8 saat uyku, 6 saate gore reaksiyon zamanini iyilestirir mi?
H₀: "Uyku suresi reaksiyon zamanini etkilemez"
H₁: "8 saat uyku reaksiyonu hizlandirir"
Veriler: 18 basketbolcu
6 saat uyku: Reaksiyon = 285 ms
8 saat uyku: Reaksiyon = 268 ms
p = 0.048
p = 0.048 < 0.05 → H₀ REDDEDILDI (KPIL KACTI!) ✅
→ Sonuc anlamli CIKMIS ama 0.05'e cok yakin! Dikkatli yorumlanmali. Daha buyuk orneklemle tekrar test edilmeli.
⚠️ Hatirla: "Anlamli fark" ≠ "Onemli fark"! p < 0.05 olsa bile fark cok kucuk olabilir. (Etki buyuklugune bak!)
🚫 Akademik Uyari: P-Hacking (Veri Avciligi)
Arastirmacinin p < 0.05 bulana kadar veriyi manipule etmesi (orn: degisken cikarma, analizi degistirme)
bilimsel sahtekarlik'tir.
"Veriyi yeterince iskence ederseniz, her seyi itiraf eder." - Ronald Coase
✅ Hafta 13 Özet ve Quiz
🎯 BU HAFTANIN ÖZET TARİFİ
1. HİPOTEZ TESTİ:
"Bu fark gerçek mi, şans mı?"
H₀: Fark yok (varsayım)
H₁: Fark var (kanıtlamak istediğimiz)
2. P-DEĞERİ:
"Şans olasılığı"
p < 0.05 → Anlamlı fark! (H₀ RED)
p ≥ 0.05 → Kanıt yetersiz
3. STANDART HATA:
"Tahmin belirsizliği"
SE = σ / √n
n arttıkça SE azalır!
4. HATALAR:
Tip I: Suçsuzu mahkum (α)
Tip II: Suçluyu serbest (β)
🎯 Hipotez
H₀ vs H₁
📊 P-Değeri
p < 0.05=anlamlı
📏 SE
σ/√n
🧠 Quiz - Kendini Test Et!
Soru 1: p = 0.03 ne anlama gelir?
Soru 2: Tip I hata nedir?
Soru 3: p = 0.12 buldum. Sonuç nedir?
Soru 4: SE'yi azaltmak için ne yapmalıyız?
Soru 5: "Suçsuzu mahkum etmek" hangi hata?
📝 Ezberle! Sınav İpuçları
p < 0.05
= ANLAMLI!
Tip I = α
= Yanlış Alarm
Tip II = β
= Kaçırma
🎯 Gelecek Hafta: t-Testi ve Etki Büyüklüğü
İki grubu karşılaştırma, Cohen's d ve güven aralıkları!