Processing math: 100%
mvst

5.5 Távolságmérő eljárások

A klaszteranalízis esetében a klaszterek kialakításának módszere mellett fontos dolog az elemezni kívánt objektumok közötti távolság vagy hasonlóság meghatározása. Az R-statisztikai program alapvetően az objektumok közötti távolságokat tudja kezelni. Éppen ezért most az objektumok közötti távolságok mérésének néhány módszerét tekintjük át. A képletekben az xik az egyik, az xjk a másik objektumot jelöli, melyek között a d távolságot számítjuk ki.

  • Az euklideszi távolság

    Az euklideszi az egyik legismertebb és legelterjedtebb távolságmérő eljárás. Alapelve a Pitagorasz-tételen alapul:

    dij=pk=1(xikxjk)2
  • Az abszolút eltérés

    Más néven Manhattan vagy „city block” (háztömb) távolságnak is nevezik. Hasonlít az euklideszi távolságra, ám a négyzet, illetve a négyzetgyök helyett itt a távolságok abszolút értékét vesszük.

    dij=pk=1|xijxjk|
  • A Pearson-távolság

    Ez a távolságmérő módszer is az euklideszi távolságból indul ki, ám az egyes objektumok közötti távolságokat sztenderdizáljuk is.

    dij=pk=1(xikxjk)2/s2k
  • A négyzetes euklideszi távolság

    Ahogyan a neve is mutatja, ez is az euklideszi távolságon alapul, annak a négyzete.

    d2ij=pk=1(xikxjk)2
  • A négyzetes Pearson-távolság

    A Pearson-távolság négyzete.

    d2ij=pk=1(xikxjk)2/s2k

Az egyes objektumok közötti távolságokat rendszerint egy távolságmátrixban reprezentáljuk, ahogyan azt például az 5.3. R-eredményen is láthattuk. A hasonlóság és a távolság egymással ellentétes fogalmak. Ebből a kapcsolatból adódik, hogy a hasonlóság és a távolság mérőszáma egymásba átalakítható. Ennek képlete a következő:

hij=100dmaxdijdmax

A képletben a hij jelöli az i-edik és a j-edik objektum közötti hasonlóságot, míg a dij a távolságot, a dmax pedig a távolságmátrix legnagyobb elemét jelöli.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.