3.7 Példák 3.7.1 Probléma: Valóban szétválasztható a reál és a humán tárgyakhoz szükséges tudás?
A 2. fejezetben a főkomponens-analízis kapcsán megvizsgáltuk, hogy valóban létezik egy úgynevezett reál tárgyak iránti fogékonyság. Ez a fogékonyság hatással van a reál tárgyakból nyújtott teljesítményre. Ebből levonhatjuk azt a következtetést, hogy ha létezik a reál tárgyak iránti fogékonyság, akkor létezhet a humán tárgyak iránti fogékonyság is. Ebben a problémában nem azzal foglalkozunk, hogy ez utóbbinak jelenlétét igazoljuk, hanem megnézzük, hogy a diákok teljesítménye alapján a tantárgyak „szétválnak-e” reál és humán tárgyakra, avagy illeszthetünk-e egy kétfaktoros modellt az adatokra.
Első lépésként most is az adatokat hívjuk elő a 3.9. R-forráskóddal, az adatokat a 3.9. R-eredmény mutatja.
d<-read.csv(„c:/adat/targyak.csv”)
d
|
|
3.9. R-forráskód
|
matek informatika kemia irodalom nyelvtan angol
1 5 4 5 5 4 5
2 4 4 5 4 4 5
3 3 4 3 2 2 3
4 2 2 3 5 5 5
5 5 5 5 3 3 3
6 1 1 1 5 5 5
7 5 5 5 3 3 3
8 2 2 3 5 5 5
9 5 5 5 4 5 5
10 5 4 5 2 2 2
11 4 4 5 5 5 5
12 3 4 3 4 4 4
13 2 2 3 2 2 2
14 5 4 5 5 5 5
15 1 1 1 3 3 3
16 5 5 3 5 5 5
17 2 2 3 4 4 4
18 5 5 5 2 2 2
19 5 4 5 5 4 4
20 4 4 5 3 3 3
21 3 4 3 4 4 4
22 2 2 3 5 5 5
23 5 5 5 2 2 2
24 1 2 1 5 5 5
25 5 5 5 3 3 3
26 2 2 3 1 2 3
27 5 5 5 2 2 3
28 5 5 5 4 4 4
29 2 2 3 4 5 5
30 5 5 5 4 5 5
|
|
3.9. R-eredmény.
|
A 3.9. R-eredményen láthatjuk, hogy összesen hat változónk van. Az első hármat „hétköznapi” tudásunk alapján a reál tárgyak csoportjába, míg a második hármat a humán tárgyak csoportjába sorolnánk.
cor<-cor(d)
print(cor,digits=3)
|
|
3.10. R-forráskód
|
matek informatika kemia irodalom nyelvtan angol
matek 1.000 0.939 0.908 -0.146 -0.211 -0.205
informatika 0.939 1.000 0.817 -0.201 -0.233 -0.227
kemia 0.908 0.817 1.000 -0.191 -0.234 -0.212
irodalom -0.146 -0.201 -0.191 1.000 0.933 0.889
nyelvtan -0.211 -0.233 -0.234 0.933 1.000 0.949
angol -0.205 -0.227 -0.212 0.889 0.949 1.000
|
|
3.10. R-eredmény.
|
A 3.10. R-forráskóddal kértünk egy korrelációs mátrixot, melyet a 3.10. R-eredményen láthatunk. A korrelációs mátrix értékei alapján láthatjuk, hogy az első három változó (matek, informatika, kémia) viszonylag szorosabb kapcsolatban van egymással, hiszen a mátrixban szereplő korrelációs értékek elég magasak: a matek és informatika közötti korreláció értéke 0,939, matek és kémia között 0,908, míg az informatika és kémia között 0,817 kerekítve. Hasonlóan erős kapcsolatot figyelhetünk meg az irodalom, nyelvtan és az angol változók estében is: az irdalom és a nyelvtan változók közötti korreláció értéke 0,933, az irodalom és az angol között 0,889, míg nyelvtan és az angol között 0,949.
A korrelációs mátrix értékei azt sugallják, hogy két faktort azonosíthatunk. Az első faktort az első három változó (vagyis a reál tárgyak) alkotják, míg a második faktort a második három változó, azaz a humán tárgyak adják. A következő lépésben faktoranalízis segítségével teszteljük, hogy helyes-e a megérzésünk (3.11. R-forráskód).
FA<-factanal(d, factors=2, rotation="varimax", scores="Bartlett")
FA
|
|
3.11. R-forráskód
|
Call:
factanal(x = d, factors = 2, scores = "Bartlett", rotation = "varimax")
Uniquenesses:
matek informatika kemia irodalom nyelvtan angol
0.005 0.114 0.173 0.122 0.006 0.094
Loadings:
Factor1 Factor2
matek -0.107 0.992
informatika -0.136 0.931
kemia -0.139 0.898
irodalom 0.936
nyelvtan 0.991 -0.106
angol 0.946 -0.105
Factor1 Factor2
SS loadings 2.802 2.683
Proportion Var 0.467 0.447
Cumulative Var 0.467 0.914
Test of the hypothesis that 2 factors are sufficient.
The chi square statistic is 5.24 on 4 degrees of freedom.
The p-value is 0.264
|
|
3.11. R-eredmény.
|
A 3.11. R-eredményen több dolgot is láthatunk. Legfontosabb dolog, hogy a khi-négyzet statisztika alapján a kétfaktoros modell illeszkedik az adatokra, hiszen a statisztikához tartozó szignifikancia-szint p=0,264.
A „proportion var” sor mutatja, hogy egyes faktorok az összvariancia hány százalékát magyarázzák. Láthatjuk, hogy az első faktor 47%-át magyarázza az összvarianciának, míg a második 45%-át - kerekített értékben. A két faktor összesen kb. 91%-át magarázza az összvarianciának.
A „loadings” résznél láthatjuk a faktorsúlyokat. A faktorsúlyok értékei megerősítik azt, amit a korrelációs mátrix és az előzetes tudásunk alapján véltünk: a matek, informatika és a kémia tárgyak alkotják az egyik faktort (a másodikat), a faktorsúlyok a második faktornál 0,9-es érték körül mozognak. Az irodalom, nyelvtan és angol tárgyak alkotják a másik faktort (az elsőt), az ide tartozó faktorsúlyok is 0,9 felett vannak.
Communaltities<-(1-FA$uniquenesses)
print(Communaltities,digits=3)
|
|
3.12. R-forráskód
|
matek informatika kemia irodalom nyelvtan angol
0.995 0.886 0.827 0.878 0.994 0.906
|
|
3.12. R-eredmény.
|
A 3.12. R-eredményen látható kommunalitások alapján az eredeti változók a szórásuk nagy részét megőrizték a faktorba kerüléskor. A magas, 0,9 körüli értékek arra utalnak, hogy a kétfaktoros modellnél az információveszteség elenyészően kicsi.
d.cor<-cor(d)
szfa<-lapply(1:2,function(nf) factanal(covmat=d.cor, factors=nf, method="mle"))
pred<-szfa[[2]]$loadings%*%t(szfa[[2]]$loadings)+diag(szfa[[2]]$uniquenesses)
print(d.cor-pred, digits=3)
|
|
3.13. R-forráskód
|
matek informatika kemia irodalom nyelvtan angol
matek -8.86e-05 1.06e-03 1.61e-03 1.62e-03 -4.60e-05 -3.73e-04
informatika 1.06e-03 2.64e-07 -3.83e-02 -2.88e-02 1.21e-03 1.93e-04
kemia 1.61e-03 -3.83e-02 2.48e-07 -1.71e-02 -1.28e-04 1.41e-02
irodalom 1.62e-03 -2.88e-02 -1.71e-02 -1.90e-07 -2.92e-05 -8.44e-04
nyelvtan -4.60e-05 1.21e-03 -1.28e-04 -2.92e-05 -5.39e-09 5.79e-05
angol -3.73e-04 1.93e-04 1.41e-02 -8.44e-04 5.79e-05 -5.55e-07
|
|
3.13. R-eredmény.
|
A 3.13. R-forráskóddal kérhetjük a már korábban bemutatott különbség mátrixot, amely az eredeti változókból számított korrelációs mátrix és a modell alapján becsült korrelációs mátrix különbségeit mutatja. A különbség mátrix kicsi értékei jó illeszkedésre utalnak.
print(FA$scores,digits=3)
|
|
3.14. R-forráskód
|
Végül, nézzük meg az egyes személyek faktorértékeit (3.14. R-forráskód és R-eredmény). A faktorértékeknél azt láthatjuk, hogy akik reál tárgyakból értek el jobb eredményt, azok a második faktorban kaptak magasabb pontszámot, míg akik a humán tárgyakból kaptak jobb jegyeket, azok az első faktorban kaptak magasabb pontszámokat.
Összefoglalva, az adatokra jól illeszkedik a kétfaktoros modell, vagyis azonosíthatjuk a humán és a reál tárgyakat az egyes tantárgyakból nyújtott eredmények alapján. Az egyes tárgyak faktorba történő besorolása összhangban van „hétköznapi”, előzetes tudásunkkal: a matek, informatika és a kémia sorolható a reál, míg az irodalom, nyelvtan és angol tárgyak a humán tárgyakhoz.
Factor1 Factor2
1 0.400 0.950
2 0.299 0.314
3 -1.481 -0.542
4 0.965 -0.952
5 -0.534 0.875
6 0.893 -1.648
7 -0.534 0.875
8 0.965 -0.952
9 1.143 1.057
10 -1.391 0.752
11 1.107 0.403
12 0.181 -0.359
13 -1.601 -1.234
14 1.175 1.034
15 -0.818 -1.836
16 1.175 1.026
17 0.109 -1.046
18 -1.389 0.781
19 0.353 0.945
20 -0.604 0.215
21 0.181 -0.359
22 0.965 -0.952
23 -1.389 0.781
24 0.894 -1.620
25 -0.534 0.875
26 -1.586 -1.235
27 -1.341 0.786
28 0.321 0.969
29 0.931 -0.958
30 1.143 1.057
|
|
3.14. R-eredmény.
|
|