2.3 A főkomponens-analízis menete
A főkomponens-analízis kiindulási pontja, egy p változóból és n személyből álló adatbázis, ahogy azt a 2.1. táblázat is mutatja.
|
1 |
|
|
... |
|
2 |
|
|
... |
|
. . . |
. . . |
. . . |
|
. . . |
n |
|
|
... |
|
|
|
|
2.1. táblázat. |
|
Az első főkomponens
változók
lineáris kombinációja, amely egyénenként változik, az egyetlen feltétel, hogy
.
Ezáltal
varianciája,
, a lehető legnagyobb lesz az
-re adott feltétel mellett. Ha nem szabnánk ilyen feltételt, akkor
-et növelhetnénk egyszerűen azáltal, hogy bármely
értéket növeljük. A második főkomponens,
,
úgy alakul, hogy
a lehető legnagyobb, azzal a feltétellel, hogy
,
továbbá azzal a feltétellel is, hogy
és
nem korrelálnak egymással. A harmadik főkomponens esetében pedig,
,
a lehető legnagyobb amellett a feltétel mellett, hogy
,
és ismét feltétel az is, hogy
nem korrelál
és
-vel. A további főkomponenseket is ugyanígy határozzuk meg. Ha p változónk van, akkor akár p főkomponenst is kaphatunk.
A főkomponens-analízis eredményeinek használatához nem kell feltétlenül tudnunk, hogy hogyan kapjuk a főkomponens-analízis egyenleteit. De magukat az egyenleteket hasznos megérteni. Valójában a főkomponens-analízis csupán a minta kovariancia mátrixának (vagy korrelációs mátrixának) a sajátértékeit keresi meg (a sajátértékről és a sajátvektorról részletesebben a 2.3.3 fejezetben lesz szó).
A kovariancia vagy korrelációs mátrix:
Tegyük fel, hogy a sajátértékek sorrendje
, és
az i-edik főkomponenshez kapcsolódik:
.
A megfelelő sajátvektor elemei az
konstansok.
A sajátértékeknek van egy fontos tulajdonságuk, mégpedig az, hogy összegük megegyezik a C mátrix főátlójában elhelyezkedő elemek összegével. Vagyis
.
Mivel
az
változó varianciája és
a
varianciája, ez azt jelenti, hogy a főkomponensek varianciájának az összege egyenlő az eredeti változók varianciájának összegével. Ezáltal a főkomponensek bizonyos értelemben magyarázzák az eredeti adatok teljes variabilitását.
Annak érdekében, hogy a változók arányosan fejtsék ki hatásukat a főkomponensekre, az
változókat sztenderdizáljuk, hogy az elemzés kezdetén az átlaguk nulla, varianciájuk pedig 1 legyen.
A C mátrix ekkor a következőképpen néz ki:
A mátrixban az
és
változók közötti korreláció
. Más szavakkal, a főkomponens analízist a korrelációs mátrix alapján is el lehet végezni. Ekkor a főátlón elhelyezkedő értékeknek, így a sajátértékeknek is az összege p-vel, a változók számával egyenlő.
Most már leírhatjuk a főkomponens analízis lépéseit is:
- Első lépésként sztenderdizáljuk az
változókat úgy, hogy átlaguk nulla, varianciájuk egységnyi legyen. Ez az általános, de bizonyos esetekben elhagyható.
- Számítsuk ki a C kovariancia mátrixot. Ha az 1. lépést elvégeztük, akkor ez egy korrelációs mátrix.
- Keressük meg
sajátértékeket, és a hozzájuk tartozó
sajátvektorokat. Az i-edik főkomponens együtthatóját
adja meg, míg
a varianciája.
- Hagyjuk figyelmen kívül azokat a főkomponenseket, amelyek az adatoknak csak csekély arányú varianciáját magyarázzák. Például, ha kezdetben 20 változónk van, akkor előfordulhat, hogy az első három főkomponens a teljes variancia 90%-át magyarázza. Ezáltal a többi 17 főkomponenstől eltekinthetünk.
A következőkben megnézzük a főkomponens-analízis lépéseit részletesebben egy konkrét példán keresztül.
|