mvst

1.3.7 Modellek összehasonlításának vizsgálata

Előfordulhat, hogy egy jelenség vizsgálatakor több lineáris regressziós modellt is meg tudunk fogalmazni, nem csak egyetlen modell létezik. Ez a probléma leggyakrabban úgy jelenik meg, hogy rengeteg független változónk van, és nem tudjuk eldönteni, hogy elég egy kisebb modell, néhány változóval, vagy vegyük inkább a nagyobb modellt több változóval. Ha például a munkahellyel való elégedettséget vizsgáljuk, akkor előfordulhat, hogy van egy kisebb modellünk, amelyben független változóként a fizetés és a nem szerepel, és egy nagyobb modellünk, ahol független változóként még bevonjuk az életkort és a munkahelyen eddig eltöltött időt is. Ekkor problémát okozhat annak eldöntése, hogy melyikkel becsüljük inkább az elégedettséget: elég a kisebb modell, vagy jobb lesz a becslés, ha több változót is bevonunk?

Jelöljük t-vel a nagyobb, „teljes” modellt, k-val a kisebb, redukált modellt. Ha a kisebb, k-modellt támogatják az adatok, akkor inkább ez lenne praktikusabb, hiszen egy kevesebb változóval dolgozó modell mindig áttekinthetőbb.

Ha   R k 2 R t 2 kis értéket vesz fel, akkor a kisebb, k-modell adekvát a teljes modellhez viszonyítva. Ebből az következik, hogy az

R k 2 R t 2 R t 2       (1.16. egyenlet)

képlet potenciálisan jó tesztstatisztika a probléma vizsgálatára.

Ugyanezt a tesztstatisztikát megkaphatjuk a valószínűségi-arány megközelítésből is. Ennek pontos levezetése az 1.7.4 mellékletben található.

Korábban vizsgáltuk a munkahelyi elégedettséget az 1.1/B táblázat, majd egy kicsit kibővítve az adatbázist a 1.2. táblázat adatai alapján is. Először csak a fizetéssel hoztuk kapcsolatba az elégedettséget, majd megnéztük, hogy az életkor hogyan hat az elégedettségre. Joggal merül fel a kérdés, hogy vajon érdemes bevonni az életkor változót a regressziós modellbe, vagy a fizetés önmagában is elég jól tudja magyarázni az elégedettséget. Nézzük meg ezt az R segítségével (1.31. R-forráskód).

fizetes=c(44,66,89,155,130)
eletkor=c(25,65,21,35,40)
elegedettseg=c(37,36,61,92,76)
g<-lm(elegedettseg~fizetes)
h<-lm(elegedettseg~fizetes+eletkor)
print(anova(g,h),digits=3)
1.31. R-forráskód

Analysis of Variance Table

Model 1: elegedettseg ~ fizetes
Model 2: elegedettseg ~ fizetes + eletkor
  Res.Df   RSS Df Sum of Sq   F Pr(>F)   
1      3 112.9                           
2      2   1.3  1     111.6 172 0.0058 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1.31. R-eredmény. Variancia-analízis eredménye.

Az 1.31. R-eredményen láthatjuk, hogy a 2. modellben szereplő életkor változó jelentősen hozzá tudott járulni a modellünk javításához, vagyis helytálló volt az egyváltozós modellt kétváltozósra bővíteni, és az életkor változót  is bevonni a fizetés változó mellé a modellbe.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.