2 Bevezetés

Ebben a jegyzetben néhány statisztikai hipotézisvizsgálat végrehajtását mutatjuk be az R programcsomag segítségével. Az ismertetett statisztikai következtetéseket a Neyman–Pearson-féle megközelítésre alapozzuk, a másik két alternatívát, a bayesiánus és a likelihood megközelítést nem érintjük.

Az egyes hipotézisvizsgálatokat bemutató fejezetek azonos felépítést követnek. A fejezetek az ismertetendő hipotézisvizsgálat rövid leírásával kezdődnek, majd az alkalmazási feltételek, a null-és ellenhipotézisek ismertetése következik. Ezt követi a próbastatisztika megadása, majd a próba végrehajtására egy példa részletes bemutatásán keresztül.

A példák bemutatásánál is törekedtünk az azonos felépítésre. A példa ismertetése után megadjuk, hogy a szakmai hipotézisből hogyan kaphatjuk meg a statisztikai null-és ellenhipotézist, vagyis hogyan vezet el az út a konkrét statisztikai próbához. Ezt követi az R-rel való munka, vagyis az adatok beolvasása, a próba végrehajtása és a próba eredményének értékelése. Az értékelés során megadjuk a szokásos szóhasználattal a statisztikai következtetést, mely legtöbb esetben a szakmai hipotézis eldöntésre is elegendő iránymutatást tartalmaz. Ezen túlmenően a legtöbb esetben megadjuk a próba outputjában szereplő számértékek kézi kiszámolási módját, a próbához kapcsolódó konfidenciaintervallum határait és annak kézi kiszámolását, a próba alkalmazási feltételeinek ellenőrzését, a próbához kapcsolódó leíró statisztikai mutatókat és ábrákat, a próbához kapcsolódó hatás mértékét, a statisztikai erővel kapcsolatos számításokat, valamint alternatívákat a próba végrehajtására.

Ahhoz, hogy a következő fejezetek érthetők legyenek a matematikai statisztika jó néhány fogalmának alapos ismerete szükséges. Ezeket más szakkönyvekből, jegyzetekből sajátíthatjuk el. A statisztikai következtetés Neyman–Pearson-féle megközelítésével kapcsolatban néhány gondolatot érdemes szem előtt tartani:

  • a statisztika nem képes kétséget kizáróan (100%-osan) bizonyítani vagy cáfolni hipotéziseket
  • a Neyman–Pearson-féle megközelítésben központi elem a valószínűség objektív, hosszú távú relatív gyakoriságra épülő értelmezése, így azt sem tudhatjuk, hogy egy hipotézis milyen valószínűséggel igaz vagy hamis
  • a hipotézisvizsgálat egy döntési eljárás, amelyben a hosszú távú hibaarányok (\(\alpha\) és \(\beta\)) szinten tartására van lehetőségünk
  • az \(\alpha\) annak a valószínűsége, hogy elutasítjuk a nullhipotézist, miközben a nullhipotézis igaz: \(\alpha=P(H_0\) elvetése\(|H_0)\)
  • az \(\beta\) annak a valószínűsége, hogy elfogadjuk a nullhipotézist, miközben a nullhipotézis hamis: \(\beta=P(H_0\) elfogadása\(|H_0\)hamis\()\)
  • az \(\left(1-\beta\right)\) statisztikai erő annak a valószínűsége, hogy detektálunk egy, a populációban valóban létező hatást: \(\left(1-\beta\right)=P(H_0\) elvetése\(|H_0\)hamis\()\)
  • a próba végrehajtásához szükséges mintaméret meghatározásához erőszámításokat kell végezni, mert a Neyman–Pearson-logika szigorú alkalmazása megköveteli, hogy az elsőfajú és másodfajú hibák kockázatát (\(\alpha\) és \(\beta\)) előre megszabjuk
  • a konfidenciaintervallum azokat a lehetséges populációbeli értékeket tartalmazza, amelyekkel adataink összeegyeztethetők.