1.1.5.1. Kétmintás t-próba kétoldali ellenhipotézissel

A kétmintás t-próba és a Welch-féle d-próba kétoldali ellenhipotézise a \(H_1:\mu_1 \neq \mu_2\) hipotézis. A 8.14. példában a próbák végrehajtását adatbázis használatával és összesített adatok alapján is bemutatjuk.

8.14. példa. Tandíj magán és állami iskolákban
Vizsgáljuk meg, hogy New England magán és állami főiskoláiban a tandíj összege eltér-e egymástól. Az adatok a 8.6. táblázatban láthatók.
Forrás: (Bluman, 2012, p. 489, Exercises 9–2 18.)

8.6. táblázat. Tandíjak magán és állami főiskolákon
Magán 13600 13495 16590 17300 23400 12500
Állami 7050 9000 6450 9758 7050 7871 16100

Először létrehozzuk a két független minta adatvektorát a magan és allami adatobjektumokban. A kétmintás t-próba végrehajtásához ezeket az adatobjektumokat és a var.equal=T argumentumot kell megadnunk a t.test() függvényben.

# Kétmintás t-próba végrehajtása
magan <- c(13600, 13495, 16590, 17300, 23400, 12500)
allami <- c(7050, 9000, 6450, 9758, 7050, 7871, 16100)
t.test(x = magan, y = allami, var.equal = T)

    Two Sample t-test

data:  magan and allami
t = 3.491, df = 11, p-value = 0.005049
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  2627 11589
sample estimates:
mean of x mean of y 
    16148      9040 

A t.test() függvény helyett a tsum.test() függvényt is használhatjuk a próba végrehajtására. Az ehhez szükséges összesítő adatokat most a psych csomag describe() függvényével nyerjük ki (8.15. output).

magan <- c(13600, 13495, 16590, 17300, 23400, 12500)
allami <- c(7050, 9000, 6450, 9758, 7050, 7871, 16100)

library(psych)
lapply(list(magan = magan, allami = allami), psych::describe, skew = F)
$magan
  vars n  mean   sd median trimmed  mad   min   max range   se
1    1 6 16148 4024  15095   16148 2821 12500 23400 10900 1643

$allami
  vars n mean   sd median trimmed  mad  min   max range   se
1    1 7 9040 3326   7871    9040 1674 6450 16100  9650 1257

8.15. output. Összesítő adatok kinyerése a tsum.test() függvény számára

A 8.15. outputból bemásoljuk a tsum.test() függvénybe a két független minta átlagát, szórását és mintaelemszámát. A kétmintás t-próba végrehajtásához itt is szükség van a var.equal=T argumentumra.

library(BSDA)
tsum.test(mean.x = 16147.5, s.x = 4023.74, n.x = 6, mean.y = 9039.86, s.y = 3325.55, 
    n.y = 7, var.equal = T)

    Standard Two-Sample t-Test

data:  Summarized x and y
t = 3.491, df = 11, p-value = 0.005049
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  2627 11589
sample estimates:
mean of x mean of y 
    16148      9040 

A kétmintás t-próba eredményét és output alapján értelmezzük. Az output első sora a kétmintás t-próba végrehajtásának tényét közli ("Two Sample t-test" és "Standard Two-Sample t-Test"). A t.test() függvény esetében a következő sor a próba bemenő adatobjektumait tartalmazza ("data: magan and allami"). A tsum.test() esetében arra találunk utalást, hogy a próba összesített adatokon alapul ("data: Summarized x and y"). A két output további sorai lényegében megegyeznek. Leolvashatjuk a próbastatisztika értékét ("t = 3.4911"), a szabadsági fokok számát ("df = 11") és a p.értéket (p-value = 0.005049). A következő sorban az ellenhipotézis formáját látjuk ("alternative hypothesis: true difference in means is not equal to 0"). A statisztikai próbák outputjában gyakran megjelenik intervallumbecslés is. Most a két várható érték különbségére vonatkozó konfidencia-intervallum megbízhatósági szintjét ("95 percent confidence interval:") és az intervallum határait olvashatjuk le ("2626.578 11588.708"). Az output végén a két független mintán alapuló átlag értékét olvashatjuk le ("16147.500 9039.857").

Amennyiben a populációbeli szórások egyenlősége nem tételezhető fel, akkor a kétmintás t-próba helyett Welch-féle d-próbát végezhetünk. A próba végrehajtása egyetlen pontban különbözik a fent leírt kétmintás t-próbától, a függvényekben a var.equal=FALSE argumentumot kell szerepeltetni.

Adatbázis birtokában a Welch-féle d-próba végrehajtása a t.test() függvénnyel:

# Welch-féle d-próba végrehajtása
magan <- c(13600, 13495, 16590, 17300, 23400, 12500)
allami <- c(7050, 9000, 6450, 9758, 7050, 7871, 16100)
t.test(x = magan, y = allami, var.equal = F)

    Welch Two Sample t-test

data:  magan and allami
t = 3.436, df = 9.776, p-value = 0.006584
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  2485 11731
sample estimates:
mean of x mean of y 
    16148      9040 

Összesített adatok esetén a tsum.test() függvénnyel hajtjuk végre a Welch-féle d-próbát:

library(BSDA)
tsum.test(mean.x = 16147.5, s.x = 4023.74, n.x = 6, mean.y = 9039.86, s.y = 3325.55, 
    n.y = 7, var.equal = F)

    Welch Modified Two-Sample t-Test

data:  Summarized x and y
t = 3.436, df = 9.776, p-value = 0.006583
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  2485 11731
sample estimates:
mean of x mean of y 
    16148      9040 

A fenti outputok alapján azt mondhatjuk, hogy a New England magán és állami főiskoláiban a tandíj összege szignifikánsan eltér egymástól.