1.3.7 Modellek összehasonlításának vizsgálata
Előfordulhat, hogy egy jelenség vizsgálatakor több lineáris regressziós modellt is meg tudunk fogalmazni, nem csak egyetlen modell létezik. Ez a probléma leggyakrabban úgy jelenik meg, hogy rengeteg független változónk van, és nem tudjuk eldönteni, hogy elég egy kisebb modell, néhány változóval, vagy vegyük inkább a nagyobb modellt több változóval. Ha például a munkahellyel való elégedettséget vizsgáljuk, akkor előfordulhat, hogy van egy kisebb modellünk, amelyben független változóként a fizetés és a nem szerepel, és egy nagyobb modellünk, ahol független változóként még bevonjuk az életkort és a munkahelyen eddig eltöltött időt is. Ekkor problémát okozhat annak eldöntése, hogy melyikkel becsüljük inkább az elégedettséget: elég a kisebb modell, vagy jobb lesz a becslés, ha több változót is bevonunk?
Jelöljük t-vel a nagyobb, „teljes” modellt, k-val a kisebb, redukált modellt. Ha a kisebb, k-modellt támogatják az adatok, akkor inkább ez lenne praktikusabb, hiszen egy kevesebb változóval dolgozó modell mindig áttekinthetőbb.
Ha
kis értéket vesz fel, akkor a kisebb, k-modell adekvát a teljes modellhez viszonyítva. Ebből az következik, hogy az
(1.16. egyenlet)
képlet potenciálisan jó tesztstatisztika a probléma vizsgálatára.
Ugyanezt a tesztstatisztikát megkaphatjuk a valószínűségi-arány megközelítésből is. Ennek pontos levezetése az 1.7.4 mellékletben található.
Korábban vizsgáltuk a munkahelyi elégedettséget az 1.1/B táblázat, majd egy kicsit kibővítve az adatbázist a 1.2. táblázat adatai alapján is. Először csak a fizetéssel hoztuk kapcsolatba az elégedettséget, majd megnéztük, hogy az életkor hogyan hat az elégedettségre. Joggal merül fel a kérdés, hogy vajon érdemes bevonni az életkor változót a regressziós modellbe, vagy a fizetés önmagában is elég jól tudja magyarázni az elégedettséget. Nézzük meg ezt az R segítségével (1.31. R-forráskód).
fizetes=c(44,66,89,155,130)
eletkor=c(25,65,21,35,40)
elegedettseg=c(37,36,61,92,76)
g<-lm(elegedettseg~fizetes)
h<-lm(elegedettseg~fizetes+eletkor)
print(anova(g,h),digits=3)
|
|
1.31. R-forráskód
|
Analysis of Variance Table
Model 1: elegedettseg ~ fizetes
Model 2: elegedettseg ~ fizetes + eletkor
Res.Df RSS Df Sum of Sq F Pr(>F)
1 3 112.9
2 2 1.3 1 111.6 172 0.0058 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
|
|
1.31. R-eredmény. Variancia-analízis eredménye.
|
Az 1.31. R-eredményen láthatjuk, hogy a 2. modellben szereplő életkor változó jelentősen hozzá tudott járulni a modellünk javításához, vagyis helytálló volt az egyváltozós modellt kétváltozósra bővíteni, és az életkor változót is bevonni a fizetés változó mellé a modellbe.
|