mvst

5.5 Távolságmérő eljárások

A klaszteranalízis esetében a klaszterek kialakításának módszere mellett fontos dolog az elemezni kívánt objektumok közötti távolság vagy hasonlóság meghatározása. Az R-statisztikai program alapvetően az objektumok közötti távolságokat tudja kezelni. Éppen ezért most az objektumok közötti távolságok mérésének néhány módszerét tekintjük át. A képletekben az x ik az egyik, az x jk a másik objektumot jelöli, melyek között a d távolságot számítjuk ki.

  • Az euklideszi távolság

    Az euklideszi az egyik legismertebb és legelterjedtebb távolságmérő eljárás. Alapelve a Pitagorasz-tételen alapul:

    d ij = k=1 p ( x ik x jk ) 2
  • Az abszolút eltérés

    Más néven Manhattan vagy „city block” (háztömb) távolságnak is nevezik. Hasonlít az euklideszi távolságra, ám a négyzet, illetve a négyzetgyök helyett itt a távolságok abszolút értékét vesszük.

    d ij = k=1 p | x ij x jk |
  • A Pearson-távolság

    Ez a távolságmérő módszer is az euklideszi távolságból indul ki, ám az egyes objektumok közötti távolságokat sztenderdizáljuk is.

    d ij = k=1 p ( x ik x jk ) 2 / s k 2
  • A négyzetes euklideszi távolság

    Ahogyan a neve is mutatja, ez is az euklideszi távolságon alapul, annak a négyzete.

    d ij 2 = k=1 p ( x ik x jk ) 2
  • A négyzetes Pearson-távolság

    A Pearson-távolság négyzete.

    d ij 2 = k=1 p ( x ik x jk ) 2 / s k 2

Az egyes objektumok közötti távolságokat rendszerint egy távolságmátrixban reprezentáljuk, ahogyan azt például az 5.3. R-eredményen is láthattuk. A hasonlóság és a távolság egymással ellentétes fogalmak. Ebből a kapcsolatból adódik, hogy a hasonlóság és a távolság mérőszáma egymásba átalakítható. Ennek képlete a következő:

h ij =100 d max d ij d max

A képletben a h ij jelöli az i-edik és a j-edik objektum közötti hasonlóságot, míg a d ij a távolságot, a d max pedig a távolságmátrix legnagyobb elemét jelöli.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.