📊 TEMEL İSTATİSTİK DERSLERİ

Hafta 14: t-Testi, Etki Büyüklüğü ve Güven Aralıkları

Bu hafta: İki grubu karşılaştırma, farkın ne kadar büyük olduğu ve tahminin güvenilirliği.

📊 t-Testi

İki grup karşılaştırma

📏 Cohen's d

Etki büyüklüğü

📐 %95 CI

Güven aralığı

Doç. Dr. İzzet İNCE | Spor Bilimleri Fakültesi

Akademik Yıl: 2025 - 2026

📊 t-Testi Nedir?

Tanım: İki grubun ortalamalarının istatistiksel olarak farklı olup olmadığını test eden yöntem. En yaygın kullanılan istatistiksel test!

🤔 Ne Zaman Kullanılır?

• İki grup ortalamasını karşılaştırmak istediğinde

• Öncesi-sonrası ölçümlerini karşılaştırmak istediğinde

• Deney vs kontrol grubu karşılaştırmasında

📊 t-Testi Mantığı

Grup 1 μ₁ Grup 2 μ₂ FARK?

t-Testi Temel Sorusu:

"Bu fark ŞANS ESERİ olabilir mi?"

🧠 Derinlemesine Analiz: t-Testi Varsayımları

Her testi kafamıza göre yapamayız! Şu şartların sağlanması gerekir:

  • Normallik: Veriler Normal Dağılmalıdır (Shapiro-Wilk Testi ile kontrol).
  • Varyansların Homojenliği: Grupların yayılımı benzer olmalıdır (Levene Testi).
  • Bağımsızlık: Ölçümler birbirinden bağımsız olmalıdır.
Eğer Normallik bozulursa → Mann-Whitney U (Parametrik olmayan test) kullanılır.

🔄 t-Testi Türleri

Üç Farklı Durum: Karşılaştırmanın türüne göre farklı t-testi kullanılır.

1️⃣ Bağımsız Örneklem

İki farklı grup

Örn: Erkekler vs Kadınlar, Deney vs Kontrol

2️⃣ Eşleştirilmiş (Paired)

Aynı kişiler, farklı zaman

Örn: Önce-Sonra, Pre-Post Test

3️⃣ Tek Örneklem

Bir grup vs bilinen değer

Örn: Takım ortalaması vs norm değeri

⚽ Hangi t-Testi?

Soru: "20 futbolcunun antrenman öncesi ve sonrası performansını karşılaştır"

→ Eşleştirilmiş (Paired) t-Test (aynı kişiler, 2 ölçüm)

🏀 Hangi t-Testi?

Soru: "15 basketbolcu vs 15 voleybolcunun boy ortalamasını karşılaştır"

→ Bağımsız Örneklem t-Test (farklı kişiler)

🛡️ İleri Teknik: Welch's t-Testi

Klasik Student's t-testi varyansların eşit olduğunu varsayar. Ancak gerçek hayatta (sporda) varyanslar genellikle eşit değildir.
Bu durumlarda Welch t-testi kullanılır. Hatta modern istatistikçiler "Daima Welch kullanın!" der.

🔢 t-Değeri ve Serbestlik Derecesi (df)

t-Değeri: "Fark gerçek mi yoksa şans mı?" sorusunun cevabı. t ne kadar büyükse, fark o kadar güvenilir!

📐 t-Değeri Formülü:

t = (X̄₁ - X̄₂) / SE

📖 Sembollerin Anlamları (Çok Basit!):

X̄₁ 1. grubun ortalaması → Örn: Futbolcuların ortalama sprint süresi
X̄₂ 2. grubun ortalaması → Örn: Basketbolcuların ortalama sprint süresi
X̄₁ - X̄₂ İki grup arasındaki FARK → Basitçe: Birinci ortalama eksi ikinci ortalama
SE Standart Hata → Verilerdeki "dalgalanma/karışıklık" miktarı (bilgisayar hesaplar)
df Serbestlik Derecesi → Toplam kişi sayısı - 2 (Bağımsız test için)

⚽ ÖRNEK 1: Futbolcu vs Basketbolcu Sprint

Veri: 10 futbolcu (ort: 4.2 sn) vs 10 basketbolcu (ort: 4.5 sn)

Fark = 4.2 - 4.5 = -0.3 sn

SE = 0.12 (bilgisayar hesapladı)

t = -0.3 / 0.12 = -2.5

df = 10 + 10 - 2 = 18

→ t = -2.5, yeterince büyük! Futbolcular gerçekten daha hızlı!

🏋️ ÖRNEK 2: Halter Antrenmanı

8 haltercinin bench press:

Önce: 80 kg | Sonra: 85 kg

Fark = 85 - 80 = 5 kg

SE = 1.8

t = 5 / 1.8 = 2.78

df = 8 - 1 = 7

→ Antrenman işe yaramış!

🏃 ÖRNEK 3: Koşu Grubu

12 koşucunun 1500m:

Önce: 6:30 | Sonra: 6:15

Fark = 15 saniye iyileşme

SE = 4.2

t = 15 / 4.2 = 3.57

df = 12 - 1 = 11

→ Ciddi gelişme var!

💡 KURAL: t ne kadar büyükse o kadar iyi!

• |t| > 2 ise genellikle "anlamlı fark var" deriz

• |t| < 2 ise fark "şans eseri olabilir"

📏 Etki Büyüklüğü (Cohen's d)

P-Değeri Yetmez! "Fark var" demek yetmez, "Fark NE KADAR BÜYÜK?" sorusunu da sormalıyız!
Etki büyüklüğü = Antrenmanın/müdahalenin gerçekten işe yarayıp yaramadığını gösteren sayı.

📐 Cohen's d Formülü:

d = (X̄₁ - X̄₂) / SD

📖 Sembollerin Anlamları (Çok Basit!):

X̄₁ 1. grubun/ölçümün ortalaması → Örn: Antrenman sonrası ortalama
X̄₂ 2. grubun/ölçümün ortalaması → Örn: Antrenman öncesi ortalama
X̄₁ - X̄₂ İki ortalama arasındaki FARK
SD Standart Sapma → Verilerin ortalamadan ne kadar "dağıldığı" (bilgisayar hesaplar)
d Etki Büyüklüğü → Fark kaç "standart sapma" büyüklüğünde? (0.2=küçük, 0.5=orta, 0.8=büyük)

🏋️ ÖRNEK 1: Kuvvet Antrenmanı Etkisi

Squat 1RM: Önce: 100 kg | Sonra: 115 kg | SD: 20 kg

Fark = 115 - 100 = 15 kg

SD = 20 kg

d = 15 / 20 = 0.75

→ d = 0.75 → ORTA-BÜYÜK ETKİ! Antrenman gerçekten işe yaramış!

⚽ ÖRNEK 2: Sprint Gelişimi

30m sprint:

Önce: 4.8 sn | Sonra: 4.5 sn | SD: 0.4 sn

Fark = 4.8 - 4.5 = 0.3 sn

d = 0.3 / 0.4 = 0.75

→ Orta-büyük etki!

🏀 ÖRNEK 3: Serbest Atış

Başarı oranı:

Önce: %60 | Sonra: %68 | SD: 10

Fark = 68 - 60 = 8 puan

d = 8 / 10 = 0.80

→ BÜYÜK ETKİ!

💡 NEDEN ÖNEMLİ?

1000 kişiyle yaptığın çalışmada 0.1 saniyelik fark bile "anlamlı" çıkabilir (p < 0.05)

Ama d = 0.1 / 0.5 = 0.2 → Bu ÇOK KÜÇÜK bir etki! Pratikte önemsiz!

Her zaman hem p-değeri HEM DE etki büyüklüğü raporla!

📋 Cohen's d Nasıl Yorumlanır?

Basit Kural: d değerine bak ve aşağıdaki tablodan yorumla. Sporda genellikle d > 0.5 istiyoruz!

📊 Etki Büyüklüğü Tablosu (EZBERLEYİN!)

d Değeri Yorum Spor Örneği
d < 0.2 ÖNEMSİZ Sprint 0.02 sn hızlandı → Kimse farketmez
0.2 - 0.5 KÜÇÜK Bench 5 kg arttı → Fark var ama az
0.5 - 0.8 ORTA Dikey sıçrama 5 cm arttı → Herkes görür!
d > 0.8 BÜYÜK Squat 20 kg arttı → Muhteşem gelişme!

🏃 GERÇEK ÖRNEK 1: Pliometrik Antrenman

Çalışma: 8 haftalık pliometrik antrenman

Dikey sıçrama: Önce 42 cm → Sonra 48 cm

Sonuç: d = 1.05BÜYÜK ETKİ! Antrenman çok başarılı!

⚽ ÖRNEK 2: Esneklik Çalışması

4 hafta germe egzersizi

Otur-uzan: 25 cm → 28 cm

d = 0.35Küçük etki

Gelişme var ama minimal

🏋️ ÖRNEK 3: Kreatin Takviyesi

4 hafta kreatin kullanımı

Bench: 80 kg → 88 kg

d = 0.72Orta-büyük etki

Takviye işe yaramış!

💡 PRATİK İPUCU: Antrenör olarak ne istersin?

• d < 0.5 → "Hmm, bu antrenman pek işe yaramadı, değiştirelim"

• d > 0.5 → "Güzel! Bu antrenman etkili, devam edelim"

• d > 0.8 → "Harika! Bu antrenman çok başarılı!"

📐 Güven Aralığı (%95 CI)

Basitçe: "Gerçek fark bu aralığın içinde bir yerde!" demek.
%95 güvenle söylüyoruz: Gerçek değer bu iki sayı arasında.

📖 Sembollerin Anlamları (Çok Basit!):

%95 CI %95 Güven Aralığı → 100 kez ölçsek, 95'inde gerçek değer bu aralıkta olur
[Alt, Üst] Aralık gösterimi → Örn: [2.5, 5.8] = "Fark 2.5 ile 5.8 arasında"
0 içermez ✅ Anlamlı fark VAR! → Örn: [1.2, 3.5] → Her iki sayı da pozitif, sıfır yok
0 içerir ❌ Anlamlı fark YOK! → Örn: [-0.5, 2.1] → Sıfır aralıkta, fark tesadüf olabilir

🏋️ ÖRNEK 1: Squat Gelişimi (Anlamlı Fark VAR!)

Sonuç: Ortalama artış = 12 kg

%95 CI: [8 kg, 16 kg]

→ Sıfır aralıkta YOK! Antrenman kesinlikle işe yaramış!

Yani: En kötü 8 kg, en iyi 16 kg artış bekliyoruz

⚽ ÖRNEK 2: Sprint (Anlamlı Fark YOK!)

Fark: 0.1 sn iyileşme

%95 CI: [-0.05, 0.25]

→ Sıfır aralıkta!

Belki hızlandı, belki yavaşladı... Emin değiliz!

🏀 ÖRNEK 3: Serbest Atış (Anlamlı!)

Fark: %8 artış

%95 CI: [4%, 12%]

→ Sıfır yok!

En az %4, en çok %12 artış kesin!

💡 ALTIN KURAL: Sıfıra Bak!

• CI içinde 0 yoksa → "Evet, gerçek bir fark var!" ✅

• CI içinde 0 varsa → "Hmm, fark tesadüf olabilir..." ❌

Dar aralık = Daha güvenilir tahmin (daha fazla kişi ölçtüğünde daralır)

⚠️ VARSAYIMLAR - ÖNEMLİ!

🚨 DUR! Test yapmadan önce şu kuralları kontrol et!
t-Testi "her veriye" uygulanamaz. Bazı şartlar sağlanmalıdır!

📋 t-Testinin 3 Temel Varsayımı

Bu şartlar sağlanmazsa, test sonuçları YANLIŞ olabilir!

1️⃣ NORMALLİK

Veriler çan eğrisi şeklinde dağılmalı

Kontrol: Shapiro-Wilk Testi

p > 0.05 → Normal ✅

2️⃣ VARYANS HOMOJENLİĞİ

Grupların yayılımı benzer olmalı

Kontrol: Levene Testi

p > 0.05 → Homojen ✅

3️⃣ BAĞIMSIZLIK

Ölçümler birbirini etkilememeli

Kontrol: Çalışma tasarımı

Tasarım doğruysa → OK ✅

🔄 Varsayım Kontrol Akışı

VERİ TOPLA NORMALLİK Shapiro-Wilk p > 0.05? VARYANS Levene p > 0.05? ✅ Her şey OK? → t-Testi YAP ❌ Değilse? → Alternatif test Her adımda p > 0.05 olmalı (varsayım sağlanıyor demek)

⚽ Spor Bilimlerinde Neden Önemli?

Antrenman çalışmalarında 10-20 kişilik küçük gruplarla çalışırız. Küçük örneklemlerde varsayım ihlalleri sonuçları ÇÖPE atar!

📊 Varsayım 1: Normallik Kontrolü

En kritik varsayım! Veriler "normal dağılım" göstermeli. Peki bu ne demek ve nasıl kontrol edilir?

🔔 Normal Dağılım = Çan Eğrisi

Verilerin çoğu ortada toplanır, uç değerler az olur. Simetrik bir dağılım!

📊 Normal vs Normal Olmayan Dağılım

✅ NORMAL Ortalama ❌ ÇARPIK (Sağa) Kuyruk sağa uzuyor

🧪 Shapiro-Wilk Testi

En güvenilir test!

n < 50 için ideal

p > 0.05 → Normal ✅

p ≤ 0.05 → Normal DEĞİL ❌

👀 Görsel Kontrol

Histogram + Q-Q Plot

Gözle de bakılmalı!

Histogram: Çan şekli?

Q-Q Plot: Düz çizgi?

🏋️ ÖRNEK 1: Bench Press (NORMAL!)

Veri: 15 haltercinin bench press: 80, 85, 90, 92, 95, 98, 100, 102, 105, 108, 110, 115, 118, 120, 125 kg

Shapiro-Wilk: W = 0.971, p = 0.782

→ p = 0.782 > 0.05 → VERİLER NORMAL! ✅ t-testi yapılabilir!

⚽ ÖRNEK 2: Gelir (NORMAL DEĞİL!)

10 futbolcunun maaşı (bin TL):

15, 18, 20, 22, 25, 28, 150, 200, 500, 1000

Shapiro-Wilk: p = 0.001

→ p < 0.05 → NORMAL DEĞİL! ❌

Birkaç yıldız çok kazanıyor, dağılım çarpık!

🏃 ÖRNEK 3: Sprint (NORMAL!)

12 koşucunun 100m süresi (sn):

11.2, 11.5, 11.8, 12.0, 12.2, 12.4, 12.5, 12.7, 12.9, 13.1, 13.3, 13.5

Shapiro-Wilk: p = 0.456

→ p > 0.05 → NORMAL! ✅

Düzgün dağılım, t-testi OK!

💡 KOLAY KURAL:

Shapiro-Wilk p değerine bak:

p > 0.05 → "Veriler normal, t-testi yapabilirim!" ✅

p < 0.05 → "Veriler normal değil, Mann-Whitney kullanmalıyım!" ❌

📏 Varsayım 2: Varyans Homojenliği

İki grubun "yayılımı" benzer olmalı! Bir grup çok dağınık, diğeri çok toplu olamaz.

📊 Varyans Homojenliği = Eşit Dağılım

Her iki grup da benzer standart sapmaya sahip olmalı. Biri SD=5, diğeri SD=50 olamaz!

📊 Homojen vs Heterojen Varyans

✅ HOMOJEN (Benzer) Grup 1 Grup 2 SD₁ ≈ SD₂ ❌ HETEROJEN (Farklı) Grup 1 (geniş) Grup 2 (dar) SD₁ >> SD₂

🧪 Levene Testi

En yaygın test!

Varyansları karşılaştırır

p > 0.05 → Homojen ✅

p ≤ 0.05 → Homojen DEĞİL ❌

📐 Pratik Kural

SD Oranı

Büyük SD / Küçük SD

Oran < 2 → Kabul ✅

Oran ≥ 2 → Sorun ⚠️

⚽ SPOR ÖRNEĞİ: Sprint Süreleri

Karşılaştırma: Futbolcular vs Basketbolcular - 30m sprint süresi

Grup n Ortalama SD
Futbolcular 15 4.25 sn 0.22
Basketbolcular 15 4.45 sn 0.28

Levene Testi: F = 0.89, p = 0.354

SD Oranı: 0.28 / 0.22 = 1.27 (< 2 ✅)

→ Varyanslar HOMOJENDİR, t-testi yapılabilir! ✅

🔄 Varsayım Sağlanmazsa Ne Yapılır?

Panik yok! Varsayımlar sağlanmazsa alternatif yöntemler vardır.

🔀 Karar Ağacı: Hangi Test?

2 GRUP KARŞILAŞTIR Normallik sağlanıyor mu? HAYIR ❌ EVET ✅ NON-PARAMETRİK Bağımsız: Mann-Whitney U Eşleştirilmiş: Wilcoxon Varyanslar homojen mi? HAYIR EVET WELCH t-TESTİ (varyans düzeltmeli) STUDENT t-TESTİ (klasik t-testi) Modern yaklaşım: "Her zaman Welch kullan" der!

❌ Normallik Bozuldu

Alternatif:

Bağımsız → Mann-Whitney U

Eşleştirilmiş → Wilcoxon

Medyanları karşılaştırır

⚠️ Varyans Bozuldu

Alternatif:

Welch's t-Test

Eşit olmayan varyansları tolere eder

df formülü farklı

✅ Her şey OK

Klasik:

Student's t-Test

Standart t-testi

En güçlü test

🏊 SPOR ÖRNEĞİ: Yüzme Süreleri

Durum: 10 elit yüzücü vs 10 amatör yüzücü - 100m serbest stil süresi

Shapiro-Wilk p = 0.023 (Normallik BOZUK! ❌)

→ t-Testi YAPILAMAZ! → Mann-Whitney U testi kullanılır.

📝 5 ADIMDA t-Testi (Çok Kolay!)

Sırayla yap, hata yapma! Her adımı takip et, sonucu raporla.

🔢 5 ADIM (EZBERLEYİN!):

1️⃣ VERİ TOPLA → Önce-sonra ölç veya iki grubu ölç
2️⃣ NORMALLİK BAK → Shapiro-Wilk yap, p > 0.05 mi?
3️⃣ t-TESTİ YAP → Bilgisayar hesaplar, p < 0.05 mi?
4️⃣ ETKİ HESAPLA → Cohen's d bul, 0.2/0.5/0.8 yorumla
5️⃣ RAPORLA → t(df) = X, p = X, d = X, CI [X, X]

🏀 ÖRNEK 1: Serbest Atış Antrenmanı

Veri: 10 basketbolcu, önce %65, sonra %72

1️⃣ Veri OK ✅ | 2️⃣ Shapiro p=0.45 > 0.05 ✅ | 3️⃣ t(9)=3.2, p=0.01 ✅

4️⃣ d = 0.85 (büyük!) ✅ | 5️⃣ CI [3%, 11%] sıfır yok ✅

→ Antrenman işe yaramış!

🏋️ ÖRNEK 2: Squat Programı

12 halterci, 8 hafta antrenman

Önce: 100 kg → Sonra: 115 kg

t(11)=4.5, p<0.001, d=1.2

→ Büyük etki!

⚽ ÖRNEK 3: Vitamin (Etkisiz!)

15 futbolcu, 4 hafta vitamin

Sprint: 4.5 sn → 4.48 sn

t(14)=0.8, p=0.42, d=0.15

→ Fark yok, vitamin işe yaramadı!

📋 RAPORLAMA ŞABLONU (Kopyala-Yapıştır!):

"t-testi sonucuna göre, [antrenman/müdahale] [değişkeni] anlamlı düzeyde [artırmış/azaltmıştır], t(df) = X.XX, p = .XXX, d = X.XX, 95% CI [X.X, X.X]."

⚽ Gerçek Spor Senaryoları

3 Farklı Sonuç: Başarılı, Kısmen Başarılı ve Başarısız antrenman örnekleri!

🏋️ SENARYO 1: Başarılı Kuvvet Antrenmanı ✅

Çalışma: 12 halterci, 8 hafta squat programı

Önce: 100 kg (SD=15) → Sonra: 118 kg (SD=16)

Sonuç: t(11)=5.2, p<0.001, d=1.16

95% CI: [12 kg, 22 kg]

✅ p < 0.05 → Anlamlı

✅ d > 0.8 → Büyük etki

✅ CI sıfır içermiyor

→ PROGRAM BAŞARILI!

🏃 SENARYO 2: Kısmen Başarılı Sprint Çalışması ⚠️

Çalışma: 15 futbolcu, 6 hafta hız antrenmanı

Önce: 4.8 sn (SD=0.3) → Sonra: 4.65 sn (SD=0.28)

Sonuç: t(14)=2.3, p=0.037, d=0.51

95% CI: [0.01 sn, 0.29 sn]

✅ p < 0.05 → Anlamlı

⚠️ d = 0.51 → Orta etki

✅ CI sıfır içermiyor (zar zor!)

→ Gelişme var ama orta düzeyde

🥤 SENARYO 3: Başarısız Takviye Denemesi ❌

Çalışma: 10 koşucu, 4 hafta enerji içeceği

Önce: 12:30 (SD=45sn) → Sonra: 12:22 (SD=50sn)

Sonuç: t(9)=0.95, p=0.37, d=0.17

95% CI: [-12 sn, 28 sn]

❌ p > 0.05 → Anlamlı DEĞİL

❌ d < 0.2 → Önemsiz etki

❌ CI sıfır içeriyor

→ TAKVİYE ETKİSİZ!

💡 SONUÇ YORUMLAMA:

Her üç kriteri de kontrol et: p < 0.05 + d > 0.5 + CI sıfır içermesin

🎯 Sınıf İçi Aktivite

Uygulama zamanı! Öğrendiklerinizi gerçek bir spor verisiyle deneyin.

🏀 Senaryo: Basketbol Serbest Atış Antrenmanı

Araştırma Sorusu: Görselleştirme tekniği serbest atış yüzdesini artırır mı?

12 basketbolcu, 4 haftalık görselleştirme antrenmanı öncesi ve sonrası serbest atış %'leri

📊 VERİ SETİ

Sporcu 1 2 3 4 5 6 7 8 9 10 11 12
Önce (%) 68 72 65 70 74 66 71 69 73 67 75 70
Sonra (%) 73 78 70 76 79 71 77 74 78 72 80 75

📋 GÖREV 1

Hangi t-testi türü?

📋 GÖREV 2

Önce normallik kontrolü ne yapılır?

📋 GÖREV 3

Ortalamaları hesaplayın!

Önce: ? | Sonra: ?

📊 Bu veri için sonuçlar:

Shapiro-Wilk (farklar): W = 0.958, p = 0.756 → Normal ✅

t-test: t(11) = 8.42, p < 0.001 → Anlamlı ✅

Cohen's d: d = 1.53 → Çok büyük etki! ✅

→ Görselleştirme antrenmanı serbest atış başarısını anlamlı düzeyde artırmıştır!

✅ Hafta 14 Özet ve Quiz

t-Testi, Varsayımlar, Etki Büyüklüğü ve Güven Aralığı - Tam paket!

📊 t-Testi

2 grup karşılaştır

⚠️ Varsayımlar

Normallik + Varyans

📏 Cohen's d

0.2 / 0.5 / 0.8

📐 %95 CI

0 içerip içermemesi

🧠 HIZLI QUİZ

S1: Shapiro-Wilk p = 0.03 ise?

S2: Levene p = 0.42 ise?

S3: d = 0.45 nasıl yorumlanır?

S4: CI [-0.5, 2.3] anlamlı mı?

📋 Hafta 14 Kontrol Listesi

✅ t-Testi türlerini ayırt edebilirim

✅ Normallik kontrolü yapabilirim

✅ Varyans homojenliğini kontrol edebilirim

✅ Cohen's d hesaplıyıp yorumlayabilirim

✅ %95 CI yorumlayabilirim

✅ Varsayım ihlalinde alternatif seçebilirim

🎯 Gelecek Hafta: ANOVA

3+ grubu karşılaştırma! t-Testinin büyük kardeşi.

1 / 15