1.3 Többszörös lineáris regresszió
Kiinduló példánkban a munkahellyel való elégedettséget vizsgáltuk, azt próbáltuk becsülni. Természetesen nem csak a fizetés, hanem más jelenségek is befolyásolják az elégedettséget, ilyen lehet például az életkor. A fizetéshez hasonlóan ez is egy folytonos változó, melyet könnyen tudunk mérni. Az életkoron kívül még számos ilyen változót bevonhatnánk (például a fizetés melletti plusz juttatások összege, vagy akár a személy egészségi állapota), tetszőlegesen bővíthetnénk modellünket.
A lineáris regressziós analízis módszerét tehát kiterjeszthetjük két vagy több független változóra. Ezt nevezzük többszörös lineáris regressziónak.
Az elv kiterjesztése természetesen azt jelenti, hogy a regressziós egyenletet is ki kell terjesztenünk több független változóra (1.9. egyenlet):
(1.9. egyenlet)
ahol
-
...
fix paraméterek,
-
...
független változók ismert értékekel
-
pedig az
változóktól független hiba, amely normál eloszlású, sztenderd szórású és 0 átlagú.
A paraméterek becslése természetesen itt is a legkisebb négyzetek elve alapján történik.
Nézzük meg a többszörös lineáris regressziót először egy kisebb, hipotetikus adatbázison. Vizsgáljuk most is a munkahellyel való elégedettséget. Az egyszerű lineáris regresszió keretében már megállapítottuk, hogy a fizetés nagysága hatással van a munkahellyel való elégedettségre, de természetesen lehetnek még egyéb dolgok is, melyek hatással vannak rá. Ilyen például az életkor is. Ha megnézzük az 1.2. táblázatot, akkor láthatjuk, hogy most 3 változónk van: fizetés, életkor és az elégedettség. Ezek közül most is az elégedettség lesz a függő változó, a fizetés és az életkor pedig a független változók.
|
|
|
44 |
25 |
37 |
|
66 |
65 |
36 |
|
89 |
21 |
61 |
|
155 |
35 |
92 |
|
130 |
40 |
76 |
96,8 |
37,2 |
60 |
|
|
|
1.2. táblázat. |
|
Az elemzés első lépéseként vigyük be adatainkat az R statisztikai programba (1.19. R-forráskód).
fizetes=c(44,66,89,155,130)
eletkor=c(25,65,21,35,40)
elegedettseg=c(37,36,61,92,76)
|
|
1.19. R-forráskód
|
A többszörös lineáris regressziót a következőképpen futtathatjuk le (1.20. R-forráskód):
print(summary(lm(elegedettseg~fizetes+eletkor),digits=1))
|
|
1.20. R-forráskód
|
Az output pedig a következőképpen néz ki:
Call:
lm(formula = elegedettseg ~ fizetes + eletkor)
Residuals:
1 2 3 4 5
0.28596 0.08556 -0.30015 0.71047 -0.78184
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 21.508055 1.292166 16.65 0.00359 **
fizetes 0.519198 0.008847 58.69 0.00029 ***
eletkor -0.305549 0.023279 -13.13 0.00575 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.8047 on 2 degrees of freedom
Multiple R-Squared: 0.9995, Adjusted R-squared: 0.9989
F-statistic: 1841 on 2 and 2 DF, p-value: 0.000543
|
|
1.20. R-eredmény. A többváltozós regresszió outputja.
|
A Pr(>|t|) oszlop mutatja az egyes változók t-statisztikájához („t value”) tartozó szignifikancia szinteket, vagyis mindkét változó hatása szignifikáns, a becsült együtthatók („estimate”) pedig a következőképpen alakulnak:
=21,05,
=0,519 és
=-0,306. Ekkor a regressziós egyenletünk így néz ki:
elégedettség = 21,05 + 0,519*fizetés -0,306* életkor
Az együtthatók alapján a változók közötti kapcsolatokról azt tudjuk elmondani, hogy ugyan az életkor és a fizetés is hatással van az elégedettségre, ám hatásuk iránya ellentétes egymással. Míg a fizetés tekintetében a magasabb fizetés nagyobb mértékű elégedettséggel jár, addig az életkor esetében az évek számának növekedése a munkahellyel való elégedetlenséget vonja maga után.
|