mvst

2.3.1 A főkomponens-analízis nyers adatai, a változók sztenderdizálása

A 2.2. táblázat négy tantárgy osztályzatait tartalmazza (matek, fizika, informatika, kémia). A táblázat alapján úgy tűnik, hogy a jegyek viszonylag együtt mozognak, vagyis akinek jobb jegye van matematikából, az fizikából, informatikából és kémiából is jó eredményeket ér el. Míg, aki valamelyik tárgyból gyengébb, az a többi tantárgyból sem kapott túl fényes jegyeket. Ezen adatok alapján létrehozhatunk egy olyan összesített mutatót, amely ezen tantárgyak adatait sűríti magába. Így a reál tárgyak iránti fogékonyság mérőszáma lehet.

A jelenség statisztikai vizsgálatához első lépésként vigyük be az adatokat (2.1. R-forráskód, illetve R-eredmény)

 
matek fizika informatika kémia
5 5 4 5
4 5 4 5
3 3 4 3
2 3 2 3
5 4 5 5
1 2 1 1
5 4 5 5
2 3 2 3
5 5 5 5
 
  2.2. táblázat.  

 

matek=c(5,4,3,2,5,1,5,2,5)
fizika=c(5,5,3,3,4,2,4,3,5)
informatika=c(4,4,4,2,5,1,5,2,5)
kemia=c(5,5,3,3,5,1,5,3,5)
d<-cbind(matek,fizika,informatika, kemia)
print(d)
2.1. R-forráskód

      matek fizika informatika kemia
 [1,]     5      5           4     5
 [2,]     4      5           4     5
 [3,]     3      3           4     3
 [4,]     2      3           2     3
 [5,]     5      4           5     5
 [6,]     1      2           1     1
 [7,]     5      4           5     5
 [8,]     2      3           2     3
 [9,]     5      5           5     5
2.1. R-ererdmény.

A 2.1. R-eredmény a nyers adatokat tartalmazza, ám főkomponens-analízis esetén gyakran nem ezekből, hanem a sztenderdizált adatokból indulunk ki. Ez azt jelenti, hogy az adatokat nulla átlagúra és egységnyi szórásúra alakítjuk. A sztenderdizálás úgy történik, hogy a változó minden egyes értékeiből levonjuk az értékek átlagát, majd a különbségeket osztjuk az értékek szórásával, ennek képlete:

z ij = x ij x j ¯ s j

Ezt a lépést - amennyiben szükséges - megtehetjük az R-program segítségével is, ahogyan azt a 2.2. R-forráskód és R-eredmény mutatja.

scale<-scale(d)
print(scale, digits=3)
2.2. R-forráskód

   matek fizika informatika  kemia
1  0.909  1.118       0.294  0.765
2  0.280  1.118       0.294  0.765
3 -0.349 -0.712       0.294 -0.612
4 -0.978 -0.712      -1.031 -0.612
5  0.909  0.203       0.957  0.765
6 -1.607 -1.627      -1.693 -1.988
7  0.909  0.203       0.957  0.765
8 -0.978 -0.712      -1.031 -0.612
9  0.909  1.118       0.957  0.765
attr(,"scaled:center")
      matek      fizika informatika       kemia 
       3.56        3.78        3.56        3.89 
attr(,"scaled:scale")
      matek      fizika informatika       kemia 
       1.59        1.09        1.51        1.45
2.2. R-ererdmény.

A 2.2. R-eredményen a sztenderdizált változókon kívül láthatjuk az egyes változók átlagát is az „attr(,"scaled:center")” címszó alatt, míg az „attr(,"scaled:scale")” a szórásokat jeleníti meg.  Jelen példában a 2.1. R-eredményen szereplő nyers adatokkal fogunk tovább dolgozni, nem a sztenderdizált értékekkel.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.