mvst

6.5.4 probléma: Többdimenziós skálázás összevetése a klaszteranalízis és a faktoranalízis eredményeivel.

Az utolsó példában egy már a faktoranalízis fejezetében megismert példát veszünk ismét elő. A 3.4.1 fejezetben található 3.1 R-forráskóddal hívhatjuk elő az adatokat, melyek magyarázata a 3.2 fejezetben található.

Az elemzés előtt most is a távolságmátrixot fogjuk elkészíteni a korrelációs mátrix alapján a 6.43. és 6.44. R-forráskód segítségével. A távolságmátrix a 6.44. R-eredményen látható.

cor<-cor(d)
d2<-matrix(0,nrow=6,ncol=6)
for(i in 1:6) for (j in 1:6)d2[i,j]<-sqrt(cor[i,i]-2*cor[i,j]+cor[j,j])
név=c("v1","v2","v3","v4","v5","v6")
rownames(d2)<-név
print(d2,digits=3)
6.43. R-forráskód

    [,1]  [,2]  [,3]  [,4]  [,5] [,6]
v1 0.000 0.757 0.758 0.963 0.992 1.77
v2 0.757 0.000 0.296 1.130 1.091 1.65
v3 0.758 0.296 0.000 1.128 1.057 1.67
v4 0.963 1.130 1.128 0.000 0.237 1.99
v5 0.992 1.091 1.057 0.237 0.000 1.99
v6 1.765 1.648 1.668 1.990 1.991 0.00 
6.43. R-eredmény.

dist<-as.dist(d2)
print(dist,digits=3)
6.44. R-forráskód

   v1    v2    v3    v4    v5
v2 0.757                        
v3 0.758 0.296                  
v4 0.963 1.130 1.128            
v5 0.992 1.091 1.057 0.237      
v6 1.765 1.648 1.668 1.990 1.991
6.44. R-eredmény.

library(MASS)
mds<-isoMDS(dist)
6.45. R-forráskód

A többdimenziós skálázást a 6.45. R-forráskód segítségével futtathatjuk.

plot(mds$points)
text(mds$points,labels=rownames(d2))
6.46. R-forráskód

6.46. R-eredmény.

A 6.46. R-eredményen látható a kétdimenziós reprezentációja az adatoknak. Az ábra alapján a v4 és v5 viszonylag közel esik, hasonlít egymáshoz (vonás-szorongás itemei). A v6 távolabb esik a többi változótól (ez volt a fordított item), és a v1-v3, az állapot-szorongás itemei is viszonylag közel vannak egymáshoz.

Mielőtt a kapott eredményt összevetnénk a faktoranalízis és a klaszteranalízis eredményeivel, nézzük meg az illeszkedésmutatókat.

print(mds$stress,digits=3)
6.47. R-forráskód

 [1] 0.00894
6.47. R-eredmény.

Első lépésben a Stess-értéket nézhetjük meg a 6.47. R-eredményen. Az értéke megfelelően kicsi, így elfogadhatjuk a kétdimenziós megoldást.

delta<-dist(mds$points)
plot(delta,dist)
6.48. R-forráskód

6.48. R-eredmény.

A Shepard-diagramon (6.48. R-eredmény) egy egyenesre illeszkednek az adatok, ami szintén a kétdimenziós megoldás jóságát erősíti meg.

Sh<-Shepard(dist,mds$points)
lm<-summary(lm(Sh$yf~Sh$x))
print(lm$r.squared,digits=3)
6.49. R-forráskód

 [1] 0.96
6.49. R-eredmény.

fi<-mds$stress^2/2
print(fi,digits=3)
6.50. R-forráskód

 [1] 4e-0.5
6.50. R-eredmény.

mu<-cor(dist,delta)
print(mu,digits=4)
6.51. R-forráskód

 [1] 0.9793
6.51. R-eredmény.

Az illeszkedés jóságát erősíti meg egy értéket felvevő RSQ (6.49. R-eredmény) és mü-érték (6.51. R-eredmény), valamint a nullához közeli fi-érték is (6.50. R-eredmény).

A 3.4.2 fejezetben már kiszámítottuk a példában szereplő adatokra a faktor-analízis faktorsúlyait. Mivel a többdimenziós skálázás is a korrelációkból indult ki, így összevethetjük a 6.46. R-eredményen szereplő és a 6.52. R-eredményen szereplő reprezentációkat. A 6.52. R-eredményen a faktorsúlyok pontdiagramját láthatjuk, melyet a 6.52. R-forráskód segítségével hívhatunk elő, felhasználva a 3.4. R-forráskódot is.

plot(FA$loadings)
text(FA$loadings,labels=rownames(d2))
6.52. R-forráskód

6.52. R-eredmény.

Láthatjuk, hogy a két ábra szinte tükörképe egymásnak, vagyis mindkét módszerrel ugyanazt a geometriai reprezentációt kaptuk az adatokra.

Utolsó lépésként érdemes megnézni, hogy a klaszteranalízis is hasonló eredményt ad-e (6.53. R-forráskód).

klaszter<-hclust(dist)
plot(klaszter)
6.53. R-forráskód

6.53. R-eredmény.

A 6.53. R-eredmény dendrogramja is ugyanazt sugallja, mint az előző két ábra: a 6-os item egy kissé távolabb van a többi változótól, a 4-es és az 5-ös szorosan összekapcsolódik, míg az 1-3 itemek is önálló klasztert, csoportot alkotnak.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.