2.3.1 A főkomponens-analízis nyers adatai, a változók sztenderdizálása
A 2.2. táblázat négy tantárgy osztályzatait tartalmazza (matek, fizika, informatika, kémia). A táblázat alapján úgy tűnik, hogy a jegyek viszonylag együtt mozognak, vagyis akinek jobb jegye van matematikából, az fizikából, informatikából és kémiából is jó eredményeket ér el. Míg, aki valamelyik tárgyból gyengébb, az a többi tantárgyból sem kapott túl fényes jegyeket. Ezen adatok alapján létrehozhatunk egy olyan összesített mutatót, amely ezen tantárgyak adatait sűríti magába. Így a reál tárgyak iránti fogékonyság mérőszáma lehet.
A jelenség statisztikai vizsgálatához első lépésként vigyük be az adatokat (2.1. R-forráskód, illetve R-eredmény)
|
5 |
5 |
4 |
5 |
4 |
5 |
4 |
5 |
3 |
3 |
4 |
3 |
2 |
3 |
2 |
3 |
5 |
4 |
5 |
5 |
1 |
2 |
1 |
1 |
5 |
4 |
5 |
5 |
2 |
3 |
2 |
3 |
5 |
5 |
5 |
5 |
|
|
|
2.2. táblázat. |
|
matek=c(5,4,3,2,5,1,5,2,5)
fizika=c(5,5,3,3,4,2,4,3,5)
informatika=c(4,4,4,2,5,1,5,2,5)
kemia=c(5,5,3,3,5,1,5,3,5)
d<-cbind(matek,fizika,informatika, kemia)
print(d)
|
|
2.1. R-forráskód
|
matek fizika informatika kemia
[1,] 5 5 4 5
[2,] 4 5 4 5
[3,] 3 3 4 3
[4,] 2 3 2 3
[5,] 5 4 5 5
[6,] 1 2 1 1
[7,] 5 4 5 5
[8,] 2 3 2 3
[9,] 5 5 5 5
|
|
2.1. R-ererdmény.
|
A 2.1. R-eredmény a nyers adatokat tartalmazza, ám főkomponens-analízis esetén gyakran nem ezekből, hanem a sztenderdizált adatokból indulunk ki. Ez azt jelenti, hogy az adatokat nulla átlagúra és egységnyi szórásúra alakítjuk. A sztenderdizálás úgy történik, hogy a változó minden egyes értékeiből levonjuk az értékek átlagát, majd a különbségeket osztjuk az értékek szórásával, ennek képlete:
Ezt a lépést - amennyiben szükséges - megtehetjük az R-program segítségével is, ahogyan azt a 2.2. R-forráskód és R-eredmény mutatja.
scale<-scale(d)
print(scale, digits=3)
|
|
2.2. R-forráskód
|
matek fizika informatika kemia
1 0.909 1.118 0.294 0.765
2 0.280 1.118 0.294 0.765
3 -0.349 -0.712 0.294 -0.612
4 -0.978 -0.712 -1.031 -0.612
5 0.909 0.203 0.957 0.765
6 -1.607 -1.627 -1.693 -1.988
7 0.909 0.203 0.957 0.765
8 -0.978 -0.712 -1.031 -0.612
9 0.909 1.118 0.957 0.765
attr(,"scaled:center")
matek fizika informatika kemia
3.56 3.78 3.56 3.89
attr(,"scaled:scale")
matek fizika informatika kemia
1.59 1.09 1.51 1.45
|
|
2.2. R-ererdmény.
|
A 2.2. R-eredményen a sztenderdizált változókon kívül láthatjuk az egyes változók átlagát is az „attr(,"scaled:center")” címszó alatt, míg az „attr(,"scaled:scale")” a szórásokat jeleníti meg. Jelen példában a 2.1. R-eredményen szereplő nyers adatokkal fogunk tovább dolgozni, nem a sztenderdizált értékekkel.
|