4.8 Mellékletek 4.8.1 melléklet: A Mahalanobis-féle távolság
A Mahalanobis-féle távolság olyan eljárás, amely a változók közötti korrelációt használja fel:
, (4.1. egyenlet)
ahol
a p változóból álló kovariancia mátrix inverze r-edik sorának és s-edik oszlopának az eleme. Ugyanezt a képletet kvadratikus formában is fel lehet írni a következőképpen:
, (4.2. egyenlet)
ahol
az i-edik populáció átlagainak a vektora és a V kovariancia mátrix. Ezt a mérőszámot csak úgy lehet kiszámítani, ha a minden populáció kovariancia mátrixa egyforma.
A Mahalanobis-féle távolságot gyakran használják, amikor egy többváltozós megfigyelésnek a populáció (amelyből a megfigyelés származik) középpontjától való távolságát akarják meghatározni. Ha
a személy
változóbeli értékei, és
a hozzájuk tartozó populációátlagok, akkor
, (4.3. egyenlet)
ahol
és
. A V most is a populáció kovariancia mátrixát jelöli, és
a
r-edik sorának és s-edik oszlopának az eleme.
A
értéket úgy lehet értelmezni, mint az x megfigyelés reziduálisa. A „reziduális” itt egy olyan mérőszám, amely megmutatja, hogy az x megfigyelés milyen távol esik az összes érték eloszlásának a közepétől (ebben az eloszlásban az összes vizsgált változót belevesszük). Egy fontos és hasznos következmény, hogy ha a vizsgált populáció normál eloszlást mutat, akkor a
értékei egy p szabadsági fokú khi-négyzet eloszlást fognak követni. A szignifikánsan nagy
érték azt jelenti, hogy az érintett megfigyelés (a) valódi, ám valószínűtlen adat, vagy (b) hogy az adatfelvételbe valami hiba csúszott. Ez alapján szükség lenne ellenőrizni, hogy a megfigyelés helyes-e és nincs-e benne semmi hiba.
A 4.3. egyenletben a valódi értékek helyett a populációs becsült átlaga, varianciája és kovarianciája is szerepelhet. Ekkor a 4.1. és a 4.2. egyenletben a V kovariancia mátrix helyett a mintákból származó összesített becslés szerepel. Pontosabban fogalmazva, tegyük fel, hogy van m mintánk, és az i-edik minta nagysága
, kovariancia mátrixa pedig
. Ekkor
(4.4. egyenlet)
a közös kovariancia mátrix összesített becslése. A
egymintás kovariancia mátrixnak
szabadsági foka van, míg a C kovariancia mátrixnak
.
A Mahalanobis-féle távolságot az R is ki tudja számítani, ahogyan azt a 4.31. R-eredményen láthatjuk.
mahal<-mahalanobis(d[2:3], mean(d[2:3]), cov(d[2:3]))
print(mahal, digits=3)
|
|
4.31. R-forráskód
|
1 2 3 4 5 6 7 8 9 10
2.013 0.613 1.537 4.939 1.244 2.786 0.787 1.363 1.263 1.453
|
|
4.31. R-eredmény.
|
|