1.4 Regresszió-számítás kategorikus független változóval
A bevezető példánkban említettük, hogy a munkahellyel való elégedettségre hatással lehet maga a nem is. A nem kategorikus változó, eltér az eddig tárgyalt folytonos változóktól, ám a regresszió-analízis keretein belül kezelni tudjuk azt az esetet is, amikor a független változó kategorikus, más néven diszkrét változó, ami csak néhány értéket vehet fel, amely értékek mentén a minta csoportokra osztható.
Vegyük azt az esetet, amikor a független változónak csak két értéke lehet. Az adatok tehát két csoportra oszlanak a kategorikus független változó mentén. Célunk, hogy a minta alapján megbecsüljük, hogy az egyes csoportok mekkora értéket vesznek fel a függő változóban.
Független változó hiányában a legjobb becslésünk a minta átlaga lenne. Azonban ahelyett, hogy becslésként az egész, osztatlan minta átlagát használnánk, figyelembe vesszük a független változó által létrehozott csoportosítást, és ha a két csoport átlaga jelentősen eltér, akkor a kategorikus változó hasznos bejósló változóvá válik. Itt tehát a mintában képződött csoportok átlagainak különbségét becsüljük, illetve hogy mennyire jelentős ez a különbség. Kategorikus független változó esetén a regressziós egyenlet, a fentieknek megfelelően, némileg más értelmezést kap. Ez is egyváltozós lineáris regresszió-számítás, az egyenlete megegyezik az egyváltozós lineáris regresszió 1.2. egyenletével.
(1.2. egyenlet)
Itt a további értelmezés szempontjából lényeges kitérőt kell tennünk, mely a kategorikus változó kódolására vonatkozik. Ahhoz, hogy a kategorikus független változót alkalmazni tudjuk a lineáris regresszió-számításban, értékeit úgynevezett „dummy” vagy bináris kódolással át kell kódolnunk. Ez valójában azt jelenti, hogy egy új, dummy változót hozunk létre, melyben csak 1 és 0 értékek szerepelnek. A példa kategorikus változója legyen a „nem”, melynek két értéke lehet: lány és fiú. Ez esetünkben, dummy kódokkal: lány = 1, fiú = 0 Azt, hogy melyik 0 és melyik 1, mi választjuk meg, de később látni fogjuk, hogy vannak kézenfekvő választások. Mivel X dummy változó, jelöljük inkább d-vel. Az egyenletben az
a függő változó átlaga, feltéve, hogy d = i. Esetünkben i értéke 0 vagy 1 lehet:
(1.17. egyenlet)
(1.18. egyenlet)
Az első egyenletből
kiesik a nullával való szorzás miatt, ebből egyenesen következik, hogy
egyenlő a 0-val kódolt csoportjának átlagával, illetve, hogy
egyenlő a két csoport átlagainak különbségével. Az összehasonlítási alapként kezelt csoport tagjai a dummy kódolás során mindig 0 kódot (értéket) kapnak, a másik csoport tagjai 1-et. Ezért az alapcsoport átlagát mindig
képviseli, a hasonlított csoport átlagának az alapcsoport átlagától való eltérését pedig mindig
(több csoport esetén
,
,
és így tovább).
Ez az eljárás megegyezik a páros t-próbával, azzal az eltéréssel, hogy itt az átlagok közti különbséget is rögtön megkapjuk.
|