mvst

1.4 Regresszió-számítás kategorikus független változóval

A bevezető példánkban említettük, hogy a munkahellyel való elégedettségre hatással lehet maga a nem is. A nem kategorikus változó, eltér az eddig tárgyalt folytonos változóktól, ám a regresszió-analízis keretein belül kezelni tudjuk azt az esetet is, amikor a független változó kategorikus, más néven diszkrét változó, ami csak néhány értéket vehet fel, amely értékek mentén a minta csoportokra osztható.

Vegyük azt az esetet, amikor a független változónak csak két értéke lehet. Az adatok tehát két csoportra oszlanak a kategorikus független változó mentén. Célunk, hogy a minta alapján megbecsüljük, hogy az egyes csoportok mekkora értéket vesznek fel a függő változóban.

Független változó hiányában a legjobb becslésünk a minta átlaga lenne. Azonban ahelyett, hogy becslésként az egész, osztatlan minta átlagát használnánk, figyelembe vesszük a független változó által létrehozott csoportosítást, és ha a két csoport átlaga jelentősen eltér, akkor a kategorikus változó hasznos bejósló változóvá válik. Itt tehát a mintában képződött csoportok átlagainak különbségét becsüljük, illetve hogy mennyire jelentős ez a különbség. Kategorikus független változó esetén a regressziós egyenlet, a fentieknek megfelelően, némileg más értelmezést kap. Ez is egyváltozós lineáris regresszió-számítás, az egyenlete megegyezik az egyváltozós lineáris regresszió 1.2. egyenletével.

Y átlag|x=i  = b 0  + b 1 * X i  + e       (1.2. egyenlet)

Itt a további értelmezés szempontjából lényeges kitérőt kell tennünk, mely a kategorikus változó kódolására vonatkozik. Ahhoz, hogy a kategorikus független változót alkalmazni tudjuk a lineáris regresszió-számításban, értékeit úgynevezett „dummy” vagy bináris kódolással át kell kódolnunk. Ez valójában azt jelenti, hogy egy új, dummy változót hozunk létre, melyben csak 1 és 0 értékek szerepelnek. A példa kategorikus változója legyen a „nem”, melynek két értéke lehet: lány és fiú. Ez esetünkben, dummy kódokkal: lány = 1, fiú = 0 Azt, hogy melyik 0 és melyik 1, mi választjuk meg, de később látni fogjuk, hogy vannak kézenfekvő választások. Mivel X dummy változó, jelöljük inkább d-vel. Az egyenletben az Y átlag|d=i a függő változó átlaga, feltéve, hogy d = i. Esetünkben i értéke 0 vagy 1 lehet:

Y átlag|d=0  = b 0  + b 1 * 0       (1.17. egyenlet)

Y átlag|d=1  = b 0  + b 1 * 1       (1.18. egyenlet)

Az első egyenletből b 1 kiesik a nullával való szorzás miatt, ebből egyenesen következik, hogy b 0 egyenlő a 0-val kódolt csoportjának átlagával, illetve, hogy b 1 egyenlő a két csoport átlagainak különbségével. Az összehasonlítási alapként kezelt csoport tagjai a dummy kódolás során mindig 0 kódot (értéket) kapnak, a másik csoport tagjai 1-et. Ezért az alapcsoport átlagát mindig b 0 képviseli, a hasonlított csoport átlagának az alapcsoport átlagától való eltérését pedig mindig b 1 (több csoport esetén b 2 , b 3 , b 4   és így tovább).  

Ez az eljárás megegyezik a páros t-próbával, azzal az eltéréssel, hogy itt az átlagok közti különbséget is rögtön megkapjuk.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.