mvst

4.8 Mellékletek
  4.8.1 melléklet: A Mahalanobis-féle távolság

A Mahalanobis-féle távolság olyan eljárás, amely a változók közötti korrelációt használja fel:

D ij 2 = r=1 p s=1 p ( μ ri μ rj ) v rs ( μ si μ sj ) ,      (4.1. egyenlet)

ahol v rs a p változóból álló kovariancia mátrix inverze r-edik sorának és s-edik oszlopának az eleme. Ugyanezt a képletet kvadratikus formában is fel lehet írni a következőképpen:

D ij 2 = r=1 p s=1 p ( μ ri μ rj ) V 1 ( μ si μ sj )   ,      (4.2. egyenlet)

ahol

μ i =[ μ 1i μ 2i μ pi ]

az i-edik populáció átlagainak a vektora és a V kovariancia mátrix. Ezt a mérőszámot csak úgy lehet kiszámítani, ha a minden populáció kovariancia mátrixa egyforma.

A Mahalanobis-féle távolságot gyakran használják, amikor egy többváltozós megfigyelésnek a populáció (amelyből a megfigyelés származik) középpontjától való távolságát akarják meghatározni. Ha x 1 ,  x 2  ...  x p a személy X 1 ,  X 2  ...  X p változóbeli értékei, és µ 1 ,  µ 2  ...  µ p a hozzájuk tartozó populációátlagok, akkor

D 2 = r=1 p s=1 p ( x r μ r ) v rs ( x s μ s )=(xμ ) V 1 (xμ) ,      (4.3. egyenlet)

ahol  x =( x 1 , x 2 ,..., x p )  és  μ =( μ 1 , μ 2 ,... μ p ) . A V most is a populáció kovariancia mátrixát jelöli, és v rs a V -1 r-edik sorának és s-edik oszlopának az eleme.

A D 2  értéket úgy lehet értelmezni, mint az x megfigyelés reziduálisa. A „reziduális” itt egy olyan mérőszám, amely megmutatja, hogy az x megfigyelés milyen távol esik az összes érték eloszlásának a közepétől (ebben az eloszlásban az összes vizsgált változót belevesszük). Egy fontos és hasznos következmény, hogy ha a vizsgált populáció normál eloszlást mutat, akkor a D 2  értékei egy p szabadsági fokú khi-négyzet eloszlást fognak követni. A szignifikánsan nagy D 2  érték azt jelenti, hogy az érintett megfigyelés (a) valódi, ám valószínűtlen adat, vagy (b) hogy az adatfelvételbe valami hiba csúszott. Ez alapján szükség lenne ellenőrizni, hogy a megfigyelés helyes-e és nincs-e benne semmi hiba.

A 4.3. egyenletben a valódi értékek helyett a populációs becsült átlaga, varianciája és kovarianciája is szerepelhet. Ekkor a 4.1. és a 4.2. egyenletben a V kovariancia mátrix helyett a mintákból származó összesített becslés szerepel. Pontosabban fogalmazva, tegyük fel, hogy van m mintánk, és az i-edik minta nagysága n i , kovariancia mátrixa pedig C i . Ekkor

C= i=1 m ( n i 1) C i / i=1 m ( n i 1)       (4.4. egyenlet)

a közös kovariancia mátrix összesített becslése. A C i egymintás kovariancia mátrixnak n i -1 szabadsági foka van, míg a C kovariancia mátrixnak  ( n i 1) .

A Mahalanobis-féle távolságot az R is ki tudja számítani, ahogyan azt a 4.31. R-eredményen láthatjuk.

mahal<-mahalanobis(d[2:3], mean(d[2:3]), cov(d[2:3]))
print(mahal, digits=3)
4.31. R-forráskód

    1     2     3     4     5     6     7     8     9    10 
2.013 0.613 1.537 4.939 1.244 2.786 0.787 1.363 1.263 1.453
4.31. R-eredmény.
   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.