mvst

2.2 Mik is azok a főkomponensek?

A főkomponens-analízis módszerét elsőként Karl Pearson írta le a múlt század elején, 1901-ben. Úgy vélte, sikerült megfelelő megoldást találnia a biometria akkori problémáinak egy részére, jóllehet az általa javasolt módszer csupán két-három változót tudott kezelni. Jóval később, a harmincas években, Hotelling dolgozott ki egy módszert, amely könnyebbé tette a számolást. Ennek ellenére is a kézi számítások hihetetlenül hosszúak és fárasztóak voltak még akkor is, ha csak néhány változót használtak. Éppen ezért csak a számítógépek használata tette lehetővé, hogy ez az eljárás szélesebb körben elterjedjen.

A főkomponens-analízis a legegyszerűbb többváltozós statisztikai eljárások egyike. A módszer alapgondolata az, hogy vegyünk p változót, X 1 , X 2 ,..., X p , majd keressük meg ezek kombinációit, hogy ezáltal Z 1 , Z 2 ,..., Z p -vel jelölt indexeket kaphassunk, melyek egymással nem korrelálnak. A korreláció hiánya hasznos tulajdonság, ugyanis azt jelenti, hogy az indexek az adatok különböző „dimenzióit” mérik. Ugyanakkor az is feltétel, hogy Z 1 képviselje a variancia legnagyobb részét, Z 2 a második legnagyobb részét, és így tovább. Ez azt jelenti, hogy  var( Z 1 )var( Z 2 )...var( Z p ) , ahol var( Z i ) a Z i varianciáját jelöli a vizsgált adatbázisban. Z i -t főkomponensnek nevezzük. Amikor főkomponens-analízist végzünk, mindig abban bízunk, hogy a legtöbb index varianciája elhanyagolhatóan kicsi. Ezáltal az adatok varianciája adekvátan leírható néhány olyan Z változóval, melyek varianciája nem elhanyagolható.

Ha a bevezetésben szereplő példára, az iskolai átlagokra utalunk, akkor az X 1 , X 2 ,..., X p változók a tantárgyak, míg a kreditrendszerben számított súlyozott átlagok tekinthetők főkomponensnek. Ha csak egy összesített átlagot számolunk, akkor csupán egy főkomponenssel dolgozunk. De árnyalhatjuk a jelenséget úgy, hogy humán és reál tárgyakra külön átlagot számítunk, külön átlagot a készség tárgyakra stb. Ilyenkor a főkomponensek száma feltehetően a tantárgycsoportok (humán, reál, stb.) számával egyezik meg.

Fontos hangsúlyozni, hogy nem mindig működik abban az értelemben, hogy az eredeti, nagyszámú változókat kisebb számú változókká alakítjuk. Sőt, ha az eredeti változók nem korrelálnak egymással, akkor az elemzéssel abszolút semmit sem tudunk elérni. A legjobb eredményt akkor kaphatjuk, ha az eredeti változók erősen korrelálnak egymással - akár pozitív, akár negatív a korreláció. Ebben az esetben könnyen elképzelhető, hogy 20-30 eredeti változót adekvátan reprezentálhat 2-3 főkomponens. Ha pedig ez teljesül, akkor a fontosabb főkomponensek (melyek varianciája elég nagy) lesznek csupán érdekesek, hiszen ezek fogják az adatok „dimenzióit” mérni. Természetesen nagyon fontos azt is tudnunk, hogy rengeteg eredeti változónk van, és legtöbbjük ugyanazt, vagy legalábbis hasonló dolgokat mér.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.