1. Hipotézisvizsgálat
Ebben a fejezetben a statisztika azon klasszikus próbáit foglaltuk össze, amelyek jellemzően egy- vagy kétmintás hipotézisvizsgálatokat jelentenek. Az öt alfejezet a nullhipotézisben szereplő állításoknak és paramétereknek megfelelően a statisztikai próbák különböző csoportjait fedi le:
- várható értékre vonatkozó próbák ()
- mediánra vonatkozó nemparaméteres próbák ()
- valószínűségre vonatkozó próbák ()
- varianciára vonatkozó próbák ()
- az eloszlás egészére vonatkozó próbák ().
A fejezetben bemutatott hipotézisvizsgáló függvények közös tulajdonságait három megjegyzésben foglaltuk össze.
1. megjegyzés: konfidencia-intervallum kiszámítása a hipotézisvizsgálat során
A hipotézisvizsgáló függvények outputjában sok esetben konfidencia-intervallum is megjelenik. Ezekben a függvényekben a conf.level=
argumentum segítségével szabályozhatjuk a megbízhatósági szintet. Alapértelmezés szerint a függvények conf.level=0.95
argumentummal hívódnak, azaz a 95%-os konfidencia-intervallum határai jelennek meg az outputokban. Az argumentum értékét megváltoztathatjuk, így tetszőleges megbízhatósági szintű intervallumbecslésre van módunk. Mindezt a t.test()
segítségével mutatjuk be. Ha nem adjuk meg híváskor a conf.level=
argumentumot, akkor 95%-os lesz az intervallumbecslés megbízhatósága (8.1. output).
# a konfidencia-intervallum alapértelmezett (95%-os) megbízhatósággal
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
t.test(x, mu = 8)
One Sample t-test
data: x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
95 percent confidence interval:
6.332 10.168
sample estimates:
mean of x
8.25
8.1. output. Hipotézisvizsgálat 95%-os konfidencia-intervallum megjelenítésével
Ha 99%-os megbízhatóságú konfidencia-intervallumot szeretnénk meghatározni, akkor a conf.level=0.99
argumentumot kell használni. Figyeljük meg, hogy a conf.level=
argumentum kizárólag az intervallum határait befolyásolja, más mutatók nem változnak az outputban (8.2. output).
# a konfidencia-intervallum 99%-os megbízhatósággal
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
t.test(x, mu = 8, conf.level = 0.99)
One Sample t-test
data: x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
99 percent confidence interval:
5.543 10.957
sample estimates:
mean of x
8.25
8.2. output. Hipotézisvizsgálat 99%-os konfidencia-intervallum megjelenítésével
2. megjegyzés: kétoldali és egyoldali próbák
A hipotézisvizsgáló függvények hívása során az alternative=
argumentummal határozzuk meg, hogy kétoldali vagy egyoldali (bal- vagy jobb-oldali) próbát szeretnénk végrehajtani. Az alapértelmezés a kétoldali próba, amely az alternative="two.sided"
hívásnak felel meg. Az alternative=
argumentum lehetséges értéke még a "less"
és a "greater"
.
Összefoglaltuk az alternative=
argumentum lehetséges értékei és a próbák null- és ellenhipotézisei közötti összefüggést egy- és kétmintás esetben:
Egymintás próbák
alternative="two.sided"
(kétoldali próba)
\(H_0:\mu=\mu_0\)
\(H_1:\mu\neq\mu_0\)alternative="less"
(bal-oldali próba)
\(H_0:\mu=\mu_0\)
\(H_1:\mu < \mu_0\)alternative="greater"
(jobb-oldali próba)
\(H_0:\mu=\mu_0\)
\(H_1:\mu > \mu_0\)
Kétmintás próbák
alternative="two.sided"
(kétoldali próba)
\(H_0:\mu_1=\mu_2\) (vagy \(H_0:\mu_1-\mu_2=0\))
\(H_1:\mu_1\neq\mu_2\) (vagy \(H_1:\mu_1-\mu_2 \neq 0\))alternative="less"
(bal-oldali próba)
\(H_0:\mu_1=\mu_2\) (vagy \(H_0:\mu_1-\mu_2=0\))
\(H_1:\mu_1 < \mu_2\) (vagy \(H_1:\mu_1-\mu_2 < 0\))alternative="greater"
(jobb-oldali próba)
\(H_0:\mu_1=\mu_2\) (vagy \(H_0:\mu_1-\mu_2=0\))
\(H_1:\mu_1 > \mu_2\) (vagy \(H_1:\mu_1-\mu_2 > 0\))
3. megjegyzés: a hipotézisvizsgáló függvények visszatérési értéke
Mielőtt a próbák végrehajtását részletezni kezdjük érdemes még megjegyezni, hogy a hipotézisvizsgáló függvények kétféle módon is használhatók:
- Az első használati mód szerint a függvényt a megfelelő paraméterekkel meghívjuk és a konzolban megjelenő eredményt értelmezzük. Erre látunk példát a 8.3. outputban.
- A másik eset azon alapul, hogy a fenti egyszerűbb használaton túlhaladva, közvetlenül is hozzá szeretnénk férni a hipotézisvizsgálat eredményében leolvasható mutatókhoz, vagy azokhoz az adatokhoz, amelyek meg sem jelennek a próba outputjában. A 8.5. és 8.6. output egy-egy ilyen esetet mutat be.
A fentiek szemléltetésére az egymintás t-próbát megvalósító t.test()
függvényt hívjuk segítségül, de természetesen bármely másik hipotézisvizsgáló függvényt is választhattuk volna.
Tekintsük az első, egyszerűbb esetet, amikor a próba végrehajtásra mindössze a próba eredményének a képernyőre írását jelenti.
# 1. használati mód: a próba eredménye a képernyőre kerül
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
t.test(x, mu = 8)
One Sample t-test
data: x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
95 percent confidence interval:
6.332 10.168
sample estimates:
mean of x
8.25
8.3. output. A próba végrehajtása után az eredmény megjelenik a képernyőn
A hipotézisvizsgálat eredménye ugyan a fenti 8.3. outputból leolvasható, de sokszor van szükségünk a képernyőn megjelenő adatok közvetlen elérésére, vagy azokra az adatokra, amelyeket a hipotézisvizsgáló függvények kiszámolnak, de alapértelmezetten nem jelenítenek meg. A t.test()
függvény visszatérési értékét ezért most elmentjük egy h.data
adatobjektumban, amelyet később fel fogunk használni. Az első esetnek megfelelő szokásos megjelenítést a h.data
adatobjektum nevének parancssorba írásával érhetjük el:
# 2. használati mód: t-próba végrehajtása és a visszatérési érték elmentése
# egy adatobjektumban
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
h.data <- t.test(x, mu = 8)
h.data # a próba eredményének megjelenítése
One Sample t-test
data: x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
95 percent confidence interval:
6.332 10.168
sample estimates:
mean of x
8.25
8.4. output. A próba eredményét tartalmazó adatobjektum megjelenítése a képernyőn
Egyelőre a 8.4. outputban visszakaptuk a próba eredményét a képernyőn a második használati mód mellett is. A fenti parancsoknak azonban az az előnye, hogy rendelkezésre áll a h.data
objektum, amely a hipotézisvizsgálat során kiszámolt adatelemeket tárolja. Az adatelemeket felhasználhatjuk a későbbi parancsainkban, például újabb, eddig nem tárolt mérőszámok meghatározásához, vagy ábrák létrehozásához. A példánknál maradva a t.test()
függvény a hívása során kiszámolja a konfidencia-intervallum határait, amelyet a h.data
adatobjektum $conf.int
eleme tartalmaz. Ezt többféle módon is felhasználhatjuk. Egyszerűen a képernyőre írathatjuk az intervallum határait (8.5. output), de az intervallum hosszát is meghatározhatjuk a diff()
függvény segítségével (8.6. output).
# a 95%-os megbízhatóságú konfidencia-intervallum
h.data$conf.int
[1] 6.332 10.168
attr(,"conf.level")
[1] 0.95
8.5. output. A hipotézisvizsgálat során kiszámolt adatok elérése (1)
# a 95%-os megbízhatóságú konfidencia-intervallum hossza
diff(h.data$conf.int)
[1] 3.836
8.6. output. A hipotézisvizsgálat során kiszámolt adatok elérése (2)
A statisztikai próba típusa meghatározza, hogy a h.data
adatobjektumon belül, milyen adatelemek érhetők el. Ezek eltérhetnek egymástól, hiszen más számítás tartozik például egy t-próbához és más egy khi-négyzet próbához. Ha kíváncsiak vagyunk az elérhető adatelemekre, akkor a names()
függvénnyel az adatelemek nevét, az unclass()
függvénnyel a neveken túl az adatelemek értékét is megjeleníthetjük (8.7.) és (8.8. output).
names(h.data) # a h.data lista elemeinek neve
[1] "statistic" "parameter" "p.value" "conf.int" "estimate"
[6] "null.value" "alternative" "method" "data.name"
8.7. output. A t-próba végrehajtása során eltárolt adatelemek neve
unclass(h.data) # a h.data lista elemeinek neve és értéke
$statistic
t
0.2869
$parameter
df
11
$p.value
[1] 0.7795
$conf.int
[1] 6.332 10.168
attr(,"conf.level")
[1] 0.95
$estimate
mean of x
8.25
$null.value
mean
8
$alternative
[1] "two.sided"
$method
[1] "One Sample t-test"
$data.name
[1] "x"
8.8. output. A t-próba végrehajtása során eltárolt adatelemek neve és értéke
A fenti outputokból leolvasható, hogy összesen 9 db adatelem áll rendelkezésre a h.data
adatobjektumban. Ezek egy része szöveges, és a t-próba megfogalmazásáért felelős ($method
, $alternative
, $data.name
), míg más adatelemek a kiszámolt mutatókat tartalmazzák, például a próbastatisztika értékét ($statistic
) vagy a p értéket ($p.value
).
A kétféle használati mód közül az alapján választhatunk, hogy az adott szituációban mire van szükségünk. Ha a próba képernyőn megjelenő eredménye elegendő a feladat megoldásához, akkor az első esetet választjuk. Ha azonban további műveleteket szeretnénk végrehajtani az eredmény egyes elemeivel, akkor tanácsos a második módszer mellett dönteni.