mvst

1.3 Többszörös lineáris regresszió

Kiinduló példánkban a munkahellyel való elégedettséget vizsgáltuk, azt próbáltuk becsülni. Természetesen nem csak a fizetés, hanem más jelenségek is befolyásolják az elégedettséget, ilyen lehet például az életkor. A fizetéshez hasonlóan ez is egy folytonos változó, melyet könnyen tudunk mérni. Az életkoron kívül még számos ilyen változót bevonhatnánk (például a fizetés melletti plusz juttatások összege, vagy akár a személy egészségi állapota), tetszőlegesen bővíthetnénk modellünket.

A lineáris regressziós analízis módszerét tehát kiterjeszthetjük két vagy több független változóra. Ezt nevezzük többszörös lineáris regressziónak.

Az elv kiterjesztése természetesen azt jelenti, hogy a regressziós egyenletet is ki kell terjesztenünk több független változóra (1.9. egyenlet):

Y i = b 0 + b 1 X 1 +...+ b n X n + ε i       (1.9. egyenlet)

ahol

  • b 0 ... b n fix paraméterek,
  • X 1 ... X n független változók ismert értékekel
  • ε pedig az X i változóktól független hiba, amely normál eloszlású, sztenderd szórású és 0 átlagú.

A paraméterek becslése természetesen itt is a legkisebb négyzetek elve alapján történik.

Nézzük meg a többszörös lineáris regressziót először egy kisebb, hipotetikus adatbázison. Vizsgáljuk most is a munkahellyel való elégedettséget. Az egyszerű lineáris regresszió keretében már megállapítottuk, hogy a fizetés nagysága hatással van a munkahellyel való elégedettségre, de természetesen lehetnek még egyéb dolgok is, melyek hatással vannak rá. Ilyen például az életkor is. Ha megnézzük az 1.2. táblázatot, akkor láthatjuk, hogy most 3 változónk van: fizetés, életkor és az elégedettség. Ezek közül most is az elégedettség lesz a függő változó, a fizetés és az életkor pedig a független változók.

 
  fizetés (ezer) életkor elégedettség
  44 25 37
  66 65 36
  89 21 61
  155 35 92
  130 40 76
átlag: 96,8 37,2 60
 
  1.2. táblázat.  

Az elemzés első lépéseként vigyük be adatainkat az R statisztikai programba (1.19. R-forráskód).

fizetes=c(44,66,89,155,130)
eletkor=c(25,65,21,35,40)
elegedettseg=c(37,36,61,92,76)
1.19. R-forráskód

A többszörös lineáris regressziót a következőképpen futtathatjuk le (1.20. R-forráskód):

print(summary(lm(elegedettseg~fizetes+eletkor),digits=1))
1.20. R-forráskód

Az output pedig a következőképpen néz ki:

Call:
lm(formula = elegedettseg ~ fizetes + eletkor)

Residuals:
       1        2        3        4        5 
 0.28596  0.08556 -0.30015  0.71047 -0.78184 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 21.508055   1.292166   16.65  0.00359 ** 
fizetes      0.519198   0.008847   58.69  0.00029 ***
eletkor     -0.305549   0.023279  -13.13  0.00575 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.8047 on 2 degrees of freedom
Multiple R-Squared: 0.9995,     Adjusted R-squared: 0.9989 
F-statistic:  1841 on 2 and 2 DF,  p-value: 0.000543 
1.20. R-eredmény. A többváltozós regresszió outputja.

A Pr(>|t|) oszlop mutatja az egyes változók t-statisztikájához („t value”) tartozó szignifikancia szinteket, vagyis mindkét változó hatása szignifikáns, a becsült együtthatók („estimate”) pedig a következőképpen alakulnak: b 0 =21,05, b fizetes =0,519 és b eletkor =-0,306. Ekkor a regressziós egyenletünk így néz ki:

elégedettség = 21,05 + 0,519*fizetés -0,306* életkor

Az együtthatók alapján a változók közötti kapcsolatokról azt tudjuk elmondani, hogy ugyan az életkor és a fizetés is hatással van az elégedettségre, ám hatásuk iránya ellentétes egymással. Míg a fizetés tekintetében a magasabb fizetés nagyobb mértékű elégedettséggel jár, addig az életkor esetében az évek számának növekedése a munkahellyel való elégedetlenséget vonja maga után.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.