mvst

1.3.2 A regressziós együtthatók és a parciális korreláció

A lineáris regressziós egyenletben a regressziós együtthatók ( b i -k) az egyes változóknak a függő változóra gyakorolt független hozzájárulását, hatását mutatják. Másképp megfogalmazva, X i független változó korrelál Y függő változóval, ha a többi független változó hatását kontrolláljuk, vagyis ha azok hatása nem érvényesül, mert fix értéken tartjuk őket. Ezt a típusú korrelációt parciális korrelációnak is nevezik. Vegyünk egy példát ennek szemléltetésére. Ha a haj hosszúsága és a testmagasság közötti kapcsolatot vizsgálnánk, akkor valószínűleg azt a meglepő eredményt kapnánk, hogy negatívan korrelálnak egymással (azaz alacsony embereknek hosszabb hajuk van). Első ránézésre ez igen különösnek tűnik; ám ha bevonnánk a nem változót is a lineáris egyenletbe, akkor ez a korreláció valószínűleg eltűnne. Ez azért van így, mert a nőknek általában hosszabb hajuk van, mint a férfiaknak; ugyanakkor általában alacsonyabbak is. Ezért a nem változó bevonásakor a testmagasság és a hajhosszúság kapcsolata eltűnik, mivel a hajhosszúság önmagában nem segít a testmagasság becslésében. Máshogy fogalmazva, a nem változó kontrollálása után a testmagasság és a hajhosszúság közötti parciális korreláció nulla.

Nézzük meg ezt konkrét adatokon keresztül. Az 1.3. táblázatban egy kisebb, hipotetikus adatbázis található, amely a személyek testmagasságára, hajhosszára és nemére vonatkozóan tartalmaz adatokat.

 
magasság (cm) hajhossz (cm) nem
(0=nő, 1=férfi)
158 28 0
159 25 0
162 20 0
170 1 1
182 1,5 1
179 3 1
 
  1.2. táblázat.  

Mindenekelőtt először vigyük be az adatokat az R statisztikai program segítségével (1.21 R-forráskód).

magassag=c(158,159,162,170,182,179)
hajhossz=c(28,25,20,1,1.5,3)
nem=c(0,0,0,1,1,1)
1.21. R-forráskód

Vizsgáljuk először azt, hogy valóban találunk-e kapcsolatot a testmagasság és a hajhossz között. Ehhez futtassuk le a lineáris regresszió analízist a „magassag” és a „hajhossz” változókra (1.22. R-forráskód). A függő és független változók megválasztása ez esetben teljesen önkényes lehet, mi a testmagasságot választottuk függő változónak.

print(summary(lm(magassag~hajhossz)),digits=3)
1.22. R-forráskód

Az 1.22. R-eredményből leolvashatjuk, hogy valóban fennáll ez a meglepő negatív kapcsolat a testmagasság és a hajhossz között, hiszen a „hajhossz” változó hatása szignifikáns (p<0,05), együtthatójának értéke pedig b hajhossz = -0,749.

Call:
lm(formula = magassag ~ hajhossz)

Residuals:
     1      2      3      4      5      6 
 0.845 -0.403 -1.150 -7.388  4.986  3.110 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  178.138      2.954   60.30  4.5e-07 ***
hajhossz      -0.749      0.170   -4.42    0.012 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 4.78 on 4 degrees of freedom
Multiple R-Squared: 0.83,       Adjusted R-squared: 0.788 
F-statistic: 19.5 on 1 and 4 DF,  p-value: 0.0115

1.22. R-eredmény. A lineáris regresszió eredménye a testmagasság és a hajhossz kapcsolatának vizsgálata esetén.

Most pedig nézzük, mi történik, ha figyelembe vesszük a vizsgálati személyek nemét is, és bevonjuk a nem változót az elemzésbe (1.23. R-forráskód).

print(summary(lm(magassag~hajhossz+nem)),digits=3)
1.23. R-forráskód

Call:
lm(formula = magassag ~ hajhossz + nem)

Residuals:
     1      2      3      4      5      6 
-0.596 -0.472  1.069 -7.243  4.903  2.341 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  166.769     21.990    7.58   0.0048 **
hajhossz      -0.292      0.895   -0.33   0.7658   
nem           10.766     20.593    0.52   0.6373   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 5.28 on 3 degrees of freedom
Multiple R-Squared: 0.844,      Adjusted R-squared: 0.74 
F-statistic: 8.13 on 2 and 3 DF,  p-value: 0.0615
1.23. R-eredmény. A lineáris regresszió eredménye a testmagasság, a hajhossz és a nem kapcsolatának vizsgálata esetén.

Láthatjuk az 1.23. R-eredményből, hogy egyáltalán nincs kapcsolat a testmagasság és a hajhosszúság között, ha a személyek nemét is figyelembe vesszük, hiszen a független változók együtthatóinak értéke nem szignifikáns (p>0,05).

A fenti példában a másodjára bevont változó, a nem, kategorikus változó, ám ez nem jelenti azt, hogy folytonos változó nem szerepelhet ilyen esetben. Nézzünk erre is egy példát! Az 1.4. táblázat adatai az intelligencia, a testmagasság és az életkor összefüggésire tartalmaznak adatokat. Az adatok most is hipotetikusak.

 
Intelligencia(IQ) Testmagasság (magassag) Életkor (eletkor)
81 138 9
86 145 12
91 156 14
101 163 18
111 167 22
 
  1.4. táblázat.  

Első lépésként hívjuk be az adatokat az R-programba (1.24. R-forráskód), majd vizsgáljuk meg az intelligencia és a testmagasság kapcsolatát (1.25. R-forráskód).

d<-read.csv("c:/adat/iq-magassag.csv", header=TRUE)
print(d)
1.24. R-forráskód

   IQ MAGASSAG ELETKOR
1  81    138.2       9
2  86    144.5      12
3  91    156.2      14
4 101    162.5      18
5 111    167.0      22
1.24. R-eredmény.

print(summary(lm(IQ~MAGASSAG, data=d)),digits=3)
1.25. R-forráskód

Call:
lm(formula = IQ ~ magassag, data = d)

Residuals:
     1      2      3      4      5 
 1.682  0.707 -5.390 -1.366  4.366 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -51.761     26.841   -1.93    0.149  
magassag       0.948      0.174    5.44    0.012 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 4.22 on 3 degrees of freedom
Multiple R-Squared: 0.908,      Adjusted R-squared: 0.877 
F-statistic: 29.6 on 1 and 3 DF,  p-value: 0.0122
1.25. R-eredmény.

print(summary(lm(IQ~magassag+eletkor, data=d)),digits=3)
1.26. R-forráskód

Call:
lm(formula = IQ ~ magassag + eletkor, data = d)

Residuals:
     1      2      3      4      5 
 0.950 -1.174 -0.145  0.137  0.232 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   71.071     20.002    3.55    0.071 .
magassag      -0.104      0.167   -0.62    0.597  
eletkor        2.593      0.396    6.55    0.023 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 1.09 on 2 degrees of freedom
Multiple R-Squared: 0.996,      Adjusted R-squared: 0.992 
F-statistic:  243 on 2 and 2 DF,  p-value: 0.0041
1.26. R-eredmény.

Azt a meglepő dolgot tapasztaljuk, hogy minél magasabb valaki, annál intelligensebb (1.25. R-eredmény, b magassag =0,948). Ám ha bevonjuk az életkor változót (1.26. R-forráskód), akkor azt tapasztalhatjuk, hogy eltűnik az intelligencia és a testmagasság közötti kapcsolat (1.26. R-eredmény, p>0,05).

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.