1.1.3.1. Egymintás t-próba kétoldali ellenhipotézissel

Az egymintás t-próba kétoldali ellenhipotézise a \(H_1:\mu \neq \mu_0\) hipotézis. A példában adatbázis használata mellett mutatjuk be a próba végrehajtását.

8.8. példa. Átlagos napi energiabevitel
A táblázat 11 egészséges, 22 és 30 év közötti hölgy átlagos energiabevitelét tartalmazza kJ-ban, amelyek mindegyike 10 napos megfigyelés átlaga. Vizsgáljuk meg, hogy a hasonló életkorú hölgyek szokásos energiabevitele eltér-e az ajánlott 7725 kJ-tól!

8.2. táblázat. Átlagos napi energiabevitel (kJ), 11 hölgy 10 napos megfigyelése alapján
Személyek Átlagos napi energiabevitel (kJ)
1 5260
2 5470
3 5640
4 6180
5 6390
6 6515
7 6805
8 7515
9 7515
10 8230
11 8770

Hozzuk létre a napi átlagos kalória beviteleket tartalmazó numerikus vektort, majd végezzük el az egymintás t-próbát. A t-próba végrehajtásának feltétele a populációbeli energiabevitel változó normális eloszlása, amit ebben az esetben feltételezünk. (A minta alapján pl. a shapiro.test() függvénnyel természetesen ezt meg is vizsgálhatjuk.)

napi.kJ <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770)
t.test(napi.kJ, mu = 7725)

    One Sample t-test

data:  napi.kJ
t = -2.821, df = 10, p-value = 0.01814
alternative hypothesis: true mean is not equal to 7725
95 percent confidence interval:
 5986 7521
sample estimates:
mean of x 
     6754 

8.13. output. Egymintás t-próba eredménye

Vegyük sorról-sorra a t-próba eredményét a 8.13. output alapján.

Az első sor a próba nevét tartalmazza. Látjuk, a t.test() legegyszerűbb hívása egymintás t-próbát eredményez. (A t.test() függvény felelős a kétmintás és páros t-próba végrehajtásáért is.)

A következő sor a próbában résztvevő adatobjektum nevét tartalmazza. Ennek a sornak akkor van jelentősége, ha a parancs és az output elválik egymástól (pl. source() függvény használata esetén). A "data: napi.kJ" sor alapján akkor is el fogjuk tudni dönteni, hogy melyik mintán alapult a t-próba.

A következő sorban szerepel a t próbastatisztika értéke ("t=-2.8208"), a szabadsági fokok száma ("df=10") és a pontos p-érték ("p-value=0.01814"). A próbastatisztika értékének előjeléből azonnal következtethetünk, hogy a mintaátalag a hipotetikus elméleti érték alatt van-e (ekkor negatív az előjel), vagy fölötte van (ekkor pozitív az előjel). A szabadsági fokok számából a mintanagyságot számolhatjuk ki: \(df=n-1\). A döntést a nullhipotézisről a kritikus t értékek táblázatból való kikeresése nélkül, azonnal a p-érték alapján meg tudjuk hozni. Mivel \(p\le 0.05\), a próba szignifikáns, azaz 5%-os szignifikanciaszinten adataink szignifikánsan eltérnek a nullhipotézisben szereplő 7725 kJ átlagos energiabeviteltől.

A következő sor két információt tartalmaz ("alternative hypothesis: true mean is not equal to 7725"). Egyrészt megadja a nullhipotézisben szereplő értéket (7725 kJ), így már tudhatjuk, hogy az elméleti várható értéknek ezzel a számmal való egyezését állítja a nullhipotézis. Másrészt, tudatja velünk, hogy az ellenhiptézisünk kétoldali ellenhipotézis (az elméleti átlag nem egyenlő 7725 kJ-lal).

A következő két sorban a várható értékre szerkesztett konfidencia-intervallum megbízhatósági szintjét és az intervallum határait olvashatjuk le. A "95 percent confidence interval:" sor szerint a megbízhatósági szint 95%-os, az "5986.348 7520.925" sor pedig a határokat közli. A megjelenített konfidencia-intervallum azokat a hipotetikus átlagokat tartalmazza, amelyektől az adatok nem térnek el szignifikánsan. A t-próba megfordításaként is felfogható a konfidencia-intervallum vizsgálata, mert azokat az értékeket olvashatjuk ki belőle, amelyeket \(\mu_0\)-nak választva a nullhipotézisbe, a nullhipotézis igaz marad.

Az output utolsó három sorában pontbecslést látunk az elméleti várható értékre, amely esetünkben a mintaátlag, melynek értéke 6753.636 kJ.

A fenti outputból a megadhatjuk a választ: 5%-os szignifikanciaszinten az adatok szignifikánsan eltérnek a 7725 kJ-tól (p-érték=0.01814).