mvst

5.2 Mire jó a klaszteranalízis?

A klaszteranalízis kiindulópontja az elemek közötti hasonlóság vagy távolság. Ezzel kapcsolatban általában rendelkezünk előzetes információkkal, amelyek alapján kiszámítjuk ezeket a hasonlóságokat vagy távolságokat. Más esetekben csak a hasonlóságok vagy távolságok mértékéről rendelkezünk információkkal.

Az előbbi esetben a klaszteranalízis (cluster = fürt (angol)) segítségével vizsgált probléma a következő: egy n elemű adatbázisban minden egyes elemhez p darab változó értékei kapcsolódnak; alakítsunk az elemekből csoportokat úgy, hogy a „hasonlóak” egy csoportba kerüljenek. Minden klaszter elemei viszonylag hasonlók egymáshoz, de különböznek más klaszterek elemeitől. Az eljárásnak teljes mértékben számszerűnek kell lennie, a csoportok száma pedig előzetesen nem ismert. Így nehezebb problémával állunk szemben, mint a diszkriminancia-analízis esetében, hiszen ez utóbbi esetben a csoporttagságok ismertek. A klaszteranalízis és a diszkriminancia-analízis is csoportosítással foglalkozik. A diszkriminancia-analízis megköveteli a klaszterekbe tartozás előzetes ismeretét, s ez alapján kialakít egy csoportosító szabályt. Ezzel szemben a klaszteranalízisnél nem rendelkezünk előzetes ismerettel, a csoportok az adatok alapján alakulnak ki.

A klaszteranalízis több szempontból is igen hasznos eljárás. Először is, gyakran szükség van arra, hogy a „valódi” csoportokat határozzuk meg. Például, többféle módon csoportosíthatjuk a vásárlói magatartásformákat - különböző elméleteknek megfelelően -, a klaszteranalízis egy objektív módszert kínál a csoportok kialakításához. Másodszor, a klaszteranalízist adatredukció céljából is használhatjuk. Az adatredukcióról a főkomponens-analízis kapcsán már részletesebben volt szó. Harmadrészt a klaszteranalízis segítségével kapott esetleg meglepő klaszter-csoportosulások új fényt vethetnek az eddig vizsgált kapcsolatok rendszerére.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.