mvst

3.7 Példák
  3.7.1 Probléma: Valóban szétválasztható a reál és a humán tárgyakhoz szükséges tudás?

A 2. fejezetben a főkomponens-analízis kapcsán megvizsgáltuk, hogy valóban létezik egy úgynevezett reál tárgyak iránti fogékonyság. Ez a fogékonyság hatással van a reál tárgyakból nyújtott teljesítményre. Ebből levonhatjuk azt a következtetést, hogy ha létezik a reál tárgyak iránti fogékonyság, akkor létezhet a humán tárgyak iránti fogékonyság is. Ebben a problémában nem azzal foglalkozunk, hogy ez utóbbinak jelenlétét igazoljuk, hanem megnézzük, hogy a diákok teljesítménye alapján a tantárgyak „szétválnak-e” reál és humán tárgyakra, avagy illeszthetünk-e egy kétfaktoros modellt az adatokra.

Első lépésként most is az adatokat hívjuk elő a 3.9. R-forráskóddal, az adatokat a 3.9. R-eredmény mutatja.

d<-read.csv(„c:/adat/targyak.csv”)
d
3.9. R-forráskód

   matek informatika kemia irodalom nyelvtan angol
1      5           4     5        5        4     5
2      4           4     5        4        4     5
3      3           4     3        2        2     3
4      2           2     3        5        5     5
5      5           5     5        3        3     3
6      1           1     1        5        5     5
7      5           5     5        3        3     3
8      2           2     3        5        5     5
9      5           5     5        4        5     5
10     5           4     5        2        2     2
11     4           4     5        5        5     5
12     3           4     3        4        4     4
13     2           2     3        2        2     2
14     5           4     5        5        5     5
15     1           1     1        3        3     3
16     5           5     3        5        5     5
17     2           2     3        4        4     4
18     5           5     5        2        2     2
19     5           4     5        5        4     4
20     4           4     5        3        3     3
21     3           4     3        4        4     4
22     2           2     3        5        5     5
23     5           5     5        2        2     2
24     1           2     1        5        5     5
25     5           5     5        3        3     3
26     2           2     3        1        2     3
27     5           5     5        2        2     3
28     5           5     5        4        4     4
29     2           2     3        4        5     5
30     5           5     5        4        5     5
3.9. R-eredmény.

A 3.9. R-eredményen láthatjuk, hogy összesen hat változónk van. Az első hármat „hétköznapi” tudásunk alapján a reál tárgyak csoportjába, míg a második hármat a humán tárgyak csoportjába sorolnánk.

cor<-cor(d)
print(cor,digits=3)
3.10. R-forráskód

             matek informatika  kemia irodalom nyelvtan  angol
matek        1.000       0.939  0.908   -0.146   -0.211 -0.205
informatika  0.939       1.000  0.817   -0.201   -0.233 -0.227
kemia        0.908       0.817  1.000   -0.191   -0.234 -0.212
irodalom    -0.146      -0.201 -0.191    1.000    0.933  0.889
nyelvtan    -0.211      -0.233 -0.234    0.933    1.000  0.949
angol       -0.205      -0.227 -0.212    0.889    0.949  1.000
3.10. R-eredmény.

A 3.10. R-forráskóddal kértünk egy korrelációs mátrixot, melyet a 3.10. R-eredményen láthatunk. A korrelációs mátrix értékei alapján láthatjuk, hogy az első három változó (matek, informatika, kémia) viszonylag szorosabb kapcsolatban van egymással, hiszen a mátrixban szereplő korrelációs értékek elég magasak: a matek és informatika közötti korreláció értéke 0,939, matek és kémia között 0,908, míg az informatika és kémia között 0,817 kerekítve. Hasonlóan erős kapcsolatot figyelhetünk meg az irodalom, nyelvtan és az angol változók estében is: az irdalom és a nyelvtan változók közötti korreláció értéke 0,933, az irodalom és az angol között 0,889, míg nyelvtan és az angol között 0,949.

A korrelációs mátrix értékei azt sugallják, hogy két faktort azonosíthatunk. Az első faktort az első három változó (vagyis a reál tárgyak) alkotják, míg a második faktort a második három változó, azaz a humán tárgyak adják. A következő lépésben faktoranalízis segítségével teszteljük, hogy helyes-e a megérzésünk (3.11. R-forráskód).

FA<-factanal(d, factors=2, rotation="varimax", scores="Bartlett")
FA
3.11. R-forráskód

Call:
factanal(x = d, factors = 2, scores = "Bartlett", rotation = "varimax")

Uniquenesses:
      matek informatika       kemia    irodalom    nyelvtan       angol 
      0.005       0.114       0.173       0.122       0.006       0.094 

Loadings:
            Factor1 Factor2
matek       -0.107   0.992 
informatika -0.136   0.931 
kemia       -0.139   0.898 
irodalom     0.936         
nyelvtan     0.991  -0.106 
angol        0.946  -0.105 

               Factor1 Factor2
SS loadings      2.802   2.683
Proportion Var   0.467   0.447
Cumulative Var   0.467   0.914

Test of the hypothesis that 2 factors are sufficient.
The chi square statistic is 5.24 on 4 degrees of freedom.
The p-value is 0.264
3.11. R-eredmény.

A 3.11. R-eredményen több dolgot is láthatunk. Legfontosabb dolog, hogy a khi-négyzet statisztika alapján a kétfaktoros modell illeszkedik az adatokra, hiszen a statisztikához tartozó szignifikancia-szint p=0,264.

A „proportion var” sor mutatja, hogy egyes faktorok az összvariancia hány százalékát magyarázzák. Láthatjuk, hogy az első faktor 47%-át magyarázza az összvarianciának, míg a második 45%-át - kerekített értékben. A két faktor összesen kb. 91%-át magarázza az összvarianciának.

A „loadings” résznél láthatjuk a faktorsúlyokat. A faktorsúlyok értékei megerősítik azt, amit a korrelációs mátrix és az előzetes tudásunk alapján véltünk: a matek, informatika és a kémia tárgyak alkotják az egyik faktort (a másodikat), a faktorsúlyok a második faktornál 0,9-es érték körül mozognak. Az irodalom, nyelvtan és angol tárgyak alkotják a másik faktort (az elsőt), az ide tartozó faktorsúlyok is 0,9 felett vannak.  

Communaltities<-(1-FA$uniquenesses)
print(Communaltities,digits=3)
3.12. R-forráskód

      matek informatika       kemia    irodalom    nyelvtan       angol 
      0.995       0.886       0.827       0.878       0.994       0.906  
3.12. R-eredmény.

A 3.12. R-eredményen látható kommunalitások alapján az eredeti változók a szórásuk nagy részét megőrizték a faktorba kerüléskor. A magas, 0,9 körüli értékek arra utalnak, hogy a kétfaktoros modellnél az információveszteség elenyészően kicsi.

                 

d.cor<-cor(d)
szfa<-lapply(1:2,function(nf) factanal(covmat=d.cor, factors=nf, method="mle"))
pred<-szfa[[2]]$loadings%*%t(szfa[[2]]$loadings)+diag(szfa[[2]]$uniquenesses)
print(d.cor-pred, digits=3)
3.13. R-forráskód

                matek informatika     kemia  irodalom  nyelvtan     angol
matek       -8.86e-05    1.06e-03  1.61e-03  1.62e-03 -4.60e-05 -3.73e-04
informatika  1.06e-03    2.64e-07 -3.83e-02 -2.88e-02  1.21e-03  1.93e-04
kemia        1.61e-03   -3.83e-02  2.48e-07 -1.71e-02 -1.28e-04  1.41e-02
irodalom     1.62e-03   -2.88e-02 -1.71e-02 -1.90e-07 -2.92e-05 -8.44e-04
nyelvtan    -4.60e-05    1.21e-03 -1.28e-04 -2.92e-05 -5.39e-09  5.79e-05
angol       -3.73e-04    1.93e-04  1.41e-02 -8.44e-04  5.79e-05 -5.55e-07
3.13. R-eredmény.

A 3.13. R-forráskóddal kérhetjük a már korábban bemutatott különbség mátrixot, amely az eredeti változókból számított korrelációs mátrix és a modell alapján becsült korrelációs mátrix különbségeit mutatja. A különbség mátrix kicsi értékei jó illeszkedésre utalnak.

print(FA$scores,digits=3)
3.14. R-forráskód

Végül, nézzük meg az egyes személyek faktorértékeit (3.14. R-forráskód és R-eredmény). A faktorértékeknél azt láthatjuk, hogy akik reál tárgyakból értek el jobb eredményt, azok a második faktorban kaptak magasabb pontszámot, míg akik a humán tárgyakból kaptak jobb jegyeket, azok az első faktorban kaptak magasabb pontszámokat.

Összefoglalva, az adatokra jól illeszkedik a kétfaktoros modell, vagyis azonosíthatjuk a humán és a reál tárgyakat az egyes tantárgyakból nyújtott eredmények alapján. Az egyes tárgyak faktorba történő besorolása összhangban van „hétköznapi”, előzetes tudásunkkal: a matek, informatika és a kémia sorolható a reál, míg az irodalom, nyelvtan és angol tárgyak a humán tárgyakhoz.

   Factor1 Factor2
1    0.400   0.950
2    0.299   0.314
3   -1.481  -0.542
4    0.965  -0.952
5   -0.534   0.875
6    0.893  -1.648
7   -0.534   0.875
8    0.965  -0.952
9    1.143   1.057
10  -1.391   0.752
11   1.107   0.403
12   0.181  -0.359
13  -1.601  -1.234
14   1.175   1.034
15  -0.818  -1.836
16   1.175   1.026
17   0.109  -1.046
18  -1.389   0.781
19   0.353   0.945
20  -0.604   0.215
21   0.181  -0.359
22   0.965  -0.952
23  -1.389   0.781
24   0.894  -1.620
25  -0.534   0.875
26  -1.586  -1.235
27  -1.341   0.786
28   0.321   0.969
29   0.931  -0.958
30   1.143   1.057
3.14. R-eredmény.
   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.