mvst

2.3 A főkomponens-analízis menete

A főkomponens-analízis kiindulási pontja, egy p változóból és n személyből álló adatbázis, ahogy azt a 2.1. táblázat is mutatja.

 
Személyek X 1 X 2 ... X p
1 x 11 x 12 ... x 1p
2 x 21 x 22 ... x 2p
.
.
.
.
.
.
.
.
.
.
.
.
n x n1 x n2 ... x np
 
  2.1. táblázat.  

Az első főkomponens   X 1 , X 2 ,..., X p  változók

Z 1 = a 11 X 1 + a 12 X 2 +...+ a 1p X p

lineáris kombinációja, amely egyénenként változik, az egyetlen feltétel, hogy

a 11 2 + a 12 2 +...+ a 1p 2 =1 .

Ezáltal Z 1 varianciája, var( Z 1 ) , a lehető legnagyobb lesz az a 1j -re adott feltétel mellett. Ha nem szabnánk ilyen feltételt, akkor var( Z 1 ) -et növelhetnénk egyszerűen azáltal, hogy bármely a 1j  értéket növeljük. A második főkomponens,

Z 2 = a 21 X 1 + a 22 X 2 +...+ a 2p X p ,

úgy alakul, hogy var( Z 2 ) a lehető legnagyobb, azzal a feltétellel, hogy

a 21 2 + a 22 2 +...+ a 2p 2 =1 ,

továbbá azzal a feltétellel is, hogy Z 1 és Z 2 nem korrelálnak egymással. A harmadik főkomponens esetében pedig,

Z 3 = a 31 X 1 + a 32 X 2 +...+ a 3p X p ,

var( Z 3 ) a lehető legnagyobb amellett a feltétel mellett, hogy

a 31 2 + a 32 2 +...+ a 3p 2 =1 ,

és ismét feltétel az is, hogy Z 3 nem korrelál Z 1  és Z 2 -vel. A további főkomponenseket is ugyanígy határozzuk meg. Ha p változónk van, akkor akár p főkomponenst is kaphatunk.

A főkomponens-analízis eredményeinek használatához nem kell feltétlenül tudnunk, hogy hogyan kapjuk a főkomponens-analízis egyenleteit. De magukat az egyenleteket hasznos megérteni. Valójában a főkomponens-analízis csupán a minta kovariancia mátrixának (vagy korrelációs mátrixának) a sajátértékeit keresi meg (a sajátértékről és a sajátvektorról részletesebben a 2.3.3 fejezetben lesz szó).

A kovariancia vagy korrelációs mátrix:

C=[ c 11 c 12 . . . c 1p c 21 c 22 . . . c 2p . . . . . . . . . c p1 c p2 . . . c pp ]

Tegyük fel, hogy a sajátértékek sorrendje λ 1 λ 2 ... λ p 0 , és λ i az i-edik főkomponenshez kapcsolódik:

Z i = a i1 X 1 + a i2 X 2 +...+ a ip X p .

A megfelelő sajátvektor elemei az a i1 , a i2 ...  , a ip konstansok.

A sajátértékeknek van egy fontos tulajdonságuk, mégpedig az, hogy összegük megegyezik a C mátrix főátlójában elhelyezkedő elemek összegével. Vagyis

λ 1 + λ 2 +...+ λ p = c 11 + c 22 +...+ c pp .

Mivel c ii az X i változó varianciája és λ i a Z i varianciája, ez azt jelenti, hogy a főkomponensek varianciájának az összege egyenlő az eredeti változók varianciájának összegével. Ezáltal a főkomponensek bizonyos értelemben magyarázzák az eredeti adatok teljes variabilitását.  

Annak érdekében, hogy a változók arányosan fejtsék ki hatásukat a főkomponensekre, az  X 1 , X 2 , ... , X p változókat sztenderdizáljuk, hogy az elemzés kezdetén az átlaguk nulla, varianciájuk pedig 1 legyen.

A C mátrix ekkor a következőképpen néz ki:

C=[ 1 c 12 . . . c 1p c 21 1 . . . c 2p . . . . . . . . . c p1 c p2 . . . 1 ]

A mátrixban az X i  és X j változók közötti korreláció  c ij  = c ji . Más szavakkal, a főkomponens analízist a korrelációs mátrix alapján is el lehet végezni. Ekkor a főátlón elhelyezkedő értékeknek, így a sajátértékeknek is az összege p-vel, a változók számával egyenlő.

Most már leírhatjuk a főkomponens analízis lépéseit is:

  1. Első lépésként sztenderdizáljuk az  X 1 , X 2 , ... , X p  változókat úgy, hogy átlaguk nulla, varianciájuk egységnyi legyen. Ez az általános, de bizonyos esetekben elhagyható.
  2. Számítsuk ki a C kovariancia mátrixot. Ha az 1. lépést elvégeztük, akkor ez egy korrelációs mátrix.
  3. Keressük meg  λ 1 , λ 2 ,..., λ p  sajátértékeket, és a hozzájuk tartozó  a 1 , a 2 ... a p  sajátvektorokat. Az i-edik főkomponens együtthatóját  a i   adja meg, míg λ i a varianciája.
  4. Hagyjuk figyelmen kívül azokat a főkomponenseket, amelyek az adatoknak csak csekély arányú varianciáját magyarázzák. Például, ha kezdetben 20 változónk van, akkor előfordulhat, hogy az első három főkomponens a teljes variancia 90%-át magyarázza. Ezáltal a többi 17 főkomponenstől eltekinthetünk.

A következőkben megnézzük a főkomponens-analízis lépéseit részletesebben egy konkrét példán keresztül.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.