1. Hipotézisvizsgálat

Ebben a fejezetben a statisztika azon klasszikus próbáit foglaltuk össze, amelyek jellemzően egy- vagy kétmintás hipotézisvizsgálatokat jelentenek. Az öt alfejezet a nullhipotézisben szereplő állításoknak és paramétereknek megfelelően a statisztikai próbák különböző csoportjait fedi le:

  • várható értékre vonatkozó próbák ()
  • mediánra vonatkozó nemparaméteres próbák ()
  • valószínűségre vonatkozó próbák ()
  • varianciára vonatkozó próbák ()
  • az eloszlás egészére vonatkozó próbák ().

A fejezetben bemutatott hipotézisvizsgáló függvények közös tulajdonságait három megjegyzésben foglaltuk össze.

1. megjegyzés: konfidencia-intervallum kiszámítása a hipotézisvizsgálat során

A hipotézisvizsgáló függvények outputjában sok esetben konfidencia-intervallum is megjelenik. Ezekben a függvényekben a conf.level= argumentum segítségével szabályozhatjuk a megbízhatósági szintet. Alapértelmezés szerint a függvények conf.level=0.95 argumentummal hívódnak, azaz a 95%-os konfidencia-intervallum határai jelennek meg az outputokban. Az argumentum értékét megváltoztathatjuk, így tetszőleges megbízhatósági szintű intervallumbecslésre van módunk. Mindezt a t.test() segítségével mutatjuk be. Ha nem adjuk meg híváskor a conf.level= argumentumot, akkor 95%-os lesz az intervallumbecslés megbízhatósága (8.1. output).

# a konfidencia-intervallum alapértelmezett (95%-os) megbízhatósággal
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
t.test(x, mu = 8)

    One Sample t-test

data:  x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
95 percent confidence interval:
  6.332 10.168
sample estimates:
mean of x 
     8.25 

8.1. output. Hipotézisvizsgálat 95%-os konfidencia-intervallum megjelenítésével

Ha 99%-os megbízhatóságú konfidencia-intervallumot szeretnénk meghatározni, akkor a conf.level=0.99 argumentumot kell használni. Figyeljük meg, hogy a conf.level= argumentum kizárólag az intervallum határait befolyásolja, más mutatók nem változnak az outputban (8.2. output).

# a konfidencia-intervallum 99%-os megbízhatósággal
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
t.test(x, mu = 8, conf.level = 0.99)

    One Sample t-test

data:  x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
99 percent confidence interval:
  5.543 10.957
sample estimates:
mean of x 
     8.25 

8.2. output. Hipotézisvizsgálat 99%-os konfidencia-intervallum megjelenítésével

2. megjegyzés: kétoldali és egyoldali próbák

A hipotézisvizsgáló függvények hívása során az alternative= argumentummal határozzuk meg, hogy kétoldali vagy egyoldali (bal- vagy jobb-oldali) próbát szeretnénk végrehajtani. Az alapértelmezés a kétoldali próba, amely az alternative="two.sided" hívásnak felel meg. Az alternative= argumentum lehetséges értéke még a "less" és a "greater".

Összefoglaltuk az alternative= argumentum lehetséges értékei és a próbák null- és ellenhipotézisei közötti összefüggést egy- és kétmintás esetben:

  • Egymintás próbák

    • alternative="two.sided" (kétoldali próba)
      \(H_0:\mu=\mu_0\)
      \(H_1:\mu\neq\mu_0\)
    • alternative="less" (bal-oldali próba)
      \(H_0:\mu=\mu_0\)
      \(H_1:\mu < \mu_0\)
    • alternative="greater" (jobb-oldali próba)
      \(H_0:\mu=\mu_0\)
      \(H_1:\mu > \mu_0\)
  • Kétmintás próbák

    • alternative="two.sided" (kétoldali próba)
      \(H_0:\mu_1=\mu_2\) (vagy \(H_0:\mu_1-\mu_2=0\))
      \(H_1:\mu_1\neq\mu_2\) (vagy \(H_1:\mu_1-\mu_2 \neq 0\))
    • alternative="less" (bal-oldali próba)
      \(H_0:\mu_1=\mu_2\) (vagy \(H_0:\mu_1-\mu_2=0\))
      \(H_1:\mu_1 < \mu_2\) (vagy \(H_1:\mu_1-\mu_2 < 0\))
    • alternative="greater" (jobb-oldali próba)
      \(H_0:\mu_1=\mu_2\) (vagy \(H_0:\mu_1-\mu_2=0\))
      \(H_1:\mu_1 > \mu_2\) (vagy \(H_1:\mu_1-\mu_2 > 0\))

3. megjegyzés: a hipotézisvizsgáló függvények visszatérési értéke

Mielőtt a próbák végrehajtását részletezni kezdjük érdemes még megjegyezni, hogy a hipotézisvizsgáló függvények kétféle módon is használhatók:

  • Az első használati mód szerint a függvényt a megfelelő paraméterekkel meghívjuk és a konzolban megjelenő eredményt értelmezzük. Erre látunk példát a 8.3. outputban.
  • A másik eset azon alapul, hogy a fenti egyszerűbb használaton túlhaladva, közvetlenül is hozzá szeretnénk férni a hipotézisvizsgálat eredményében leolvasható mutatókhoz, vagy azokhoz az adatokhoz, amelyek meg sem jelennek a próba outputjában. A 8.5. és 8.6. output egy-egy ilyen esetet mutat be.

A fentiek szemléltetésére az egymintás t-próbát megvalósító t.test() függvényt hívjuk segítségül, de természetesen bármely másik hipotézisvizsgáló függvényt is választhattuk volna.

Tekintsük az első, egyszerűbb esetet, amikor a próba végrehajtásra mindössze a próba eredményének a képernyőre írását jelenti.

# 1. használati mód: a próba eredménye a képernyőre kerül
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
t.test(x, mu = 8)

    One Sample t-test

data:  x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
95 percent confidence interval:
  6.332 10.168
sample estimates:
mean of x 
     8.25 

8.3. output. A próba végrehajtása után az eredmény megjelenik a képernyőn

A hipotézisvizsgálat eredménye ugyan a fenti 8.3. outputból leolvasható, de sokszor van szükségünk a képernyőn megjelenő adatok közvetlen elérésére, vagy azokra az adatokra, amelyeket a hipotézisvizsgáló függvények kiszámolnak, de alapértelmezetten nem jelenítenek meg. A t.test() függvény visszatérési értékét ezért most elmentjük egy h.data adatobjektumban, amelyet később fel fogunk használni. Az első esetnek megfelelő szokásos megjelenítést a h.data adatobjektum nevének parancssorba írásával érhetjük el:

# 2. használati mód: t-próba végrehajtása és a visszatérési érték elmentése
# egy adatobjektumban
x <- c(9, 10, 6, 4, 8, 11, 10, 5, 5, 6, 13, 12)
h.data <- t.test(x, mu = 8)
h.data  # a próba eredményének megjelenítése

    One Sample t-test

data:  x
t = 0.2869, df = 11, p-value = 0.7795
alternative hypothesis: true mean is not equal to 8
95 percent confidence interval:
  6.332 10.168
sample estimates:
mean of x 
     8.25 

8.4. output. A próba eredményét tartalmazó adatobjektum megjelenítése a képernyőn

Egyelőre a 8.4. outputban visszakaptuk a próba eredményét a képernyőn a második használati mód mellett is. A fenti parancsoknak azonban az az előnye, hogy rendelkezésre áll a h.data objektum, amely a hipotézisvizsgálat során kiszámolt adatelemeket tárolja. Az adatelemeket felhasználhatjuk a későbbi parancsainkban, például újabb, eddig nem tárolt mérőszámok meghatározásához, vagy ábrák létrehozásához. A példánknál maradva a t.test() függvény a hívása során kiszámolja a konfidencia-intervallum határait, amelyet a h.data adatobjektum $conf.int eleme tartalmaz. Ezt többféle módon is felhasználhatjuk. Egyszerűen a képernyőre írathatjuk az intervallum határait (8.5. output), de az intervallum hosszát is meghatározhatjuk a diff() függvény segítségével (8.6. output).

# a 95%-os megbízhatóságú konfidencia-intervallum
h.data$conf.int
[1]  6.332 10.168
attr(,"conf.level")
[1] 0.95

8.5. output. A hipotézisvizsgálat során kiszámolt adatok elérése (1)

# a 95%-os megbízhatóságú konfidencia-intervallum hossza
diff(h.data$conf.int)
[1] 3.836

8.6. output. A hipotézisvizsgálat során kiszámolt adatok elérése (2)

A statisztikai próba típusa meghatározza, hogy a h.data adatobjektumon belül, milyen adatelemek érhetők el. Ezek eltérhetnek egymástól, hiszen más számítás tartozik például egy t-próbához és más egy khi-négyzet próbához. Ha kíváncsiak vagyunk az elérhető adatelemekre, akkor a names() függvénnyel az adatelemek nevét, az unclass() függvénnyel a neveken túl az adatelemek értékét is megjeleníthetjük (8.7.) és (8.8. output).

names(h.data)  # a h.data lista elemeinek neve
[1] "statistic"   "parameter"   "p.value"     "conf.int"    "estimate"   
[6] "null.value"  "alternative" "method"      "data.name"  

8.7. output. A t-próba végrehajtása során eltárolt adatelemek neve

unclass(h.data)  # a h.data lista elemeinek neve és értéke
$statistic
     t 
0.2869 

$parameter
df 
11 

$p.value
[1] 0.7795

$conf.int
[1]  6.332 10.168
attr(,"conf.level")
[1] 0.95

$estimate
mean of x 
     8.25 

$null.value
mean 
   8 

$alternative
[1] "two.sided"

$method
[1] "One Sample t-test"

$data.name
[1] "x"

8.8. output. A t-próba végrehajtása során eltárolt adatelemek neve és értéke

A fenti outputokból leolvasható, hogy összesen 9 db adatelem áll rendelkezésre a h.data adatobjektumban. Ezek egy része szöveges, és a t-próba megfogalmazásáért felelős ($method, $alternative, $data.name), míg más adatelemek a kiszámolt mutatókat tartalmazzák, például a próbastatisztika értékét ($statistic) vagy a p értéket ($p.value).

A kétféle használati mód közül az alapján választhatunk, hogy az adott szituációban mire van szükségünk. Ha a próba képernyőn megjelenő eredménye elegendő a feladat megoldásához, akkor az első esetet választjuk. Ha azonban további műveleteket szeretnénk végrehajtani az eredmény egyes elemeivel, akkor tanácsos a második módszer mellett dönteni.