5.5 Távolságmérő eljárások
A klaszteranalízis esetében a klaszterek kialakításának módszere mellett fontos dolog az elemezni kívánt objektumok közötti távolság vagy hasonlóság meghatározása. Az R-statisztikai program alapvetően az objektumok közötti távolságokat tudja kezelni. Éppen ezért most az objektumok közötti távolságok mérésének néhány módszerét tekintjük át. A képletekben az
az egyik, az
a másik objektumot jelöli, melyek között a d távolságot számítjuk ki.
Az euklideszi távolság
Az euklideszi az egyik legismertebb és legelterjedtebb távolságmérő eljárás. Alapelve a Pitagorasz-tételen alapul:
-
Az abszolút eltérés
Más néven Manhattan vagy „city block” (háztömb) távolságnak is nevezik. Hasonlít az euklideszi távolságra, ám a négyzet, illetve a négyzetgyök helyett itt a távolságok abszolút értékét vesszük.
-
A Pearson-távolság
Ez a távolságmérő módszer is az euklideszi távolságból indul ki, ám az egyes objektumok közötti távolságokat sztenderdizáljuk is.
-
A négyzetes euklideszi távolság
Ahogyan a neve is mutatja, ez is az euklideszi távolságon alapul, annak a négyzete.
-
A négyzetes Pearson-távolság
A Pearson-távolság négyzete.
Az egyes objektumok közötti távolságokat rendszerint egy távolságmátrixban reprezentáljuk, ahogyan azt például az 5.3. R-eredményen is láthattuk. A hasonlóság és a távolság egymással ellentétes fogalmak. Ebből a kapcsolatból adódik, hogy a hasonlóság és a távolság mérőszáma egymásba átalakítható. Ennek képlete a következő:
A képletben a
jelöli az i-edik és a j-edik objektum közötti hasonlóságot, míg a
a távolságot, a
pedig a távolságmátrix legnagyobb elemét jelöli.
|