1.3.2 A regressziós együtthatók és a parciális korreláció
A lineáris regressziós egyenletben a regressziós együtthatók (-k) az egyes változóknak a függő változóra gyakorolt független hozzájárulását, hatását mutatják. Másképp megfogalmazva,
független változó korrelál Y függő változóval, ha a többi független változó hatását kontrolláljuk, vagyis ha azok hatása nem érvényesül, mert fix értéken tartjuk őket. Ezt a típusú korrelációt parciális korrelációnak is nevezik. Vegyünk egy példát ennek szemléltetésére. Ha a haj hosszúsága és a testmagasság közötti kapcsolatot vizsgálnánk, akkor valószínűleg azt a meglepő eredményt kapnánk, hogy negatívan korrelálnak egymással (azaz alacsony embereknek hosszabb hajuk van). Első ránézésre ez igen különösnek tűnik; ám ha bevonnánk a nem változót is a lineáris egyenletbe, akkor ez a korreláció valószínűleg eltűnne. Ez azért van így, mert a nőknek általában hosszabb hajuk van, mint a férfiaknak; ugyanakkor általában alacsonyabbak is. Ezért a nem változó bevonásakor a testmagasság és a hajhosszúság kapcsolata eltűnik, mivel a hajhosszúság önmagában nem segít a testmagasság becslésében. Máshogy fogalmazva, a nem változó kontrollálása után a testmagasság és a hajhosszúság közötti parciális korreláció nulla.
Nézzük meg ezt konkrét adatokon keresztül. Az 1.3. táblázatban egy kisebb, hipotetikus adatbázis található, amely a személyek testmagasságára, hajhosszára és nemére vonatkozóan tartalmaz adatokat.
|
158 |
28 |
0 |
159 |
25 |
0 |
162 |
20 |
0 |
170 |
1 |
1 |
182 |
1,5 |
1 |
179 |
3 |
1 |
|
|
|
1.2. táblázat. |
|
Mindenekelőtt először vigyük be az adatokat az R statisztikai program segítségével (1.21 R-forráskód).
magassag=c(158,159,162,170,182,179)
hajhossz=c(28,25,20,1,1.5,3)
nem=c(0,0,0,1,1,1)
|
|
1.21. R-forráskód
|
Vizsgáljuk először azt, hogy valóban találunk-e kapcsolatot a testmagasság és a hajhossz között. Ehhez futtassuk le a lineáris regresszió analízist a „magassag” és a „hajhossz” változókra (1.22. R-forráskód). A függő és független változók megválasztása ez esetben teljesen önkényes lehet, mi a testmagasságot választottuk függő változónak.
print(summary(lm(magassag~hajhossz)),digits=3)
|
|
1.22. R-forráskód
|
Az 1.22. R-eredményből leolvashatjuk, hogy valóban fennáll ez a meglepő negatív kapcsolat a testmagasság és a hajhossz között, hiszen a „hajhossz” változó hatása szignifikáns (p<0,05), együtthatójának értéke pedig
= -0,749.
Call:
lm(formula = magassag ~ hajhossz)
Residuals:
1 2 3 4 5 6
0.845 -0.403 -1.150 -7.388 4.986 3.110
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 178.138 2.954 60.30 4.5e-07 ***
hajhossz -0.749 0.170 -4.42 0.012 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.78 on 4 degrees of freedom
Multiple R-Squared: 0.83, Adjusted R-squared: 0.788
F-statistic: 19.5 on 1 and 4 DF, p-value: 0.0115
|
|
1.22. R-eredmény. A lineáris regresszió eredménye a testmagasság és a hajhossz kapcsolatának vizsgálata esetén.
|
Most pedig nézzük, mi történik, ha figyelembe vesszük a vizsgálati személyek nemét is, és bevonjuk a nem változót az elemzésbe (1.23. R-forráskód).
print(summary(lm(magassag~hajhossz+nem)),digits=3)
|
|
1.23. R-forráskód
|
Call:
lm(formula = magassag ~ hajhossz + nem)
Residuals:
1 2 3 4 5 6
-0.596 -0.472 1.069 -7.243 4.903 2.341
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 166.769 21.990 7.58 0.0048 **
hajhossz -0.292 0.895 -0.33 0.7658
nem 10.766 20.593 0.52 0.6373
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.28 on 3 degrees of freedom
Multiple R-Squared: 0.844, Adjusted R-squared: 0.74
F-statistic: 8.13 on 2 and 3 DF, p-value: 0.0615
|
|
1.23. R-eredmény. A lineáris regresszió eredménye a testmagasság, a hajhossz és a nem kapcsolatának vizsgálata esetén.
|
Láthatjuk az 1.23. R-eredményből, hogy egyáltalán nincs kapcsolat a testmagasság és a hajhosszúság között, ha a személyek nemét is figyelembe vesszük, hiszen a független változók együtthatóinak értéke nem szignifikáns (p>0,05).
A fenti példában a másodjára bevont változó, a nem, kategorikus változó, ám ez nem jelenti azt, hogy folytonos változó nem szerepelhet ilyen esetben. Nézzünk erre is egy példát! Az 1.4. táblázat adatai az intelligencia, a testmagasság és az életkor összefüggésire tartalmaznak adatokat. Az adatok most is hipotetikusak.
|
81 |
138 |
9 |
86 |
145 |
12 |
91 |
156 |
14 |
101 |
163 |
18 |
111 |
167 |
22 |
|
|
|
1.4. táblázat. |
|
Első lépésként hívjuk be az adatokat az R-programba (1.24. R-forráskód), majd vizsgáljuk meg az intelligencia és a testmagasság kapcsolatát (1.25. R-forráskód).
d<-read.csv("c:/adat/iq-magassag.csv", header=TRUE)
print(d)
|
|
1.24. R-forráskód
|
IQ MAGASSAG ELETKOR
1 81 138.2 9
2 86 144.5 12
3 91 156.2 14
4 101 162.5 18
5 111 167.0 22
|
|
1.24. R-eredmény.
|
print(summary(lm(IQ~MAGASSAG, data=d)),digits=3)
|
|
1.25. R-forráskód
|
Call:
lm(formula = IQ ~ magassag, data = d)
Residuals:
1 2 3 4 5
1.682 0.707 -5.390 -1.366 4.366
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -51.761 26.841 -1.93 0.149
magassag 0.948 0.174 5.44 0.012 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.22 on 3 degrees of freedom
Multiple R-Squared: 0.908, Adjusted R-squared: 0.877
F-statistic: 29.6 on 1 and 3 DF, p-value: 0.0122
|
|
1.25. R-eredmény.
|
print(summary(lm(IQ~magassag+eletkor, data=d)),digits=3)
|
|
1.26. R-forráskód
|
Call:
lm(formula = IQ ~ magassag + eletkor, data = d)
Residuals:
1 2 3 4 5
0.950 -1.174 -0.145 0.137 0.232
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 71.071 20.002 3.55 0.071 .
magassag -0.104 0.167 -0.62 0.597
eletkor 2.593 0.396 6.55 0.023 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.09 on 2 degrees of freedom
Multiple R-Squared: 0.996, Adjusted R-squared: 0.992
F-statistic: 243 on 2 and 2 DF, p-value: 0.0041
|
|
1.26. R-eredmény.
|
Azt a meglepő dolgot tapasztaljuk, hogy minél magasabb valaki, annál intelligensebb (1.25. R-eredmény,
=0,948). Ám ha bevonjuk az életkor változót (1.26. R-forráskód), akkor azt tapasztalhatjuk, hogy eltűnik az intelligencia és a testmagasság közötti kapcsolat (1.26. R-eredmény, p>0,05).
|