5.6.4 probléma: Vállalatok vizsgálata
A következő problémában különböző vállalatokat próbálunk meg klaszterezni. A vállalatokat számtalan jellemző mentén mérhetjük, vizsgálhatjuk, ezáltal többféleképpen is csoportosíthatjuk őket. A csoportosítás alapjául mi most a vállalat nagyságát, a hatalmi távolságot és a vállalat szemléletében jelen levő konzervativizmus mértékét választottuk, ahogyan az az 5.27. R-forráskódon is látható.
d<-read.csv("c:/adat/vallalatok.csv")
d
|
|
5.27. R-forráskód
|
NÉV MÉRET HATALMIT KONZERVA
1 A vallalat 75 1 2
2 B vallalat 1500 10 9
3 C vallalat 2000 11 8
4 D vallalat 21 3 4
5 E vallalat 1000 10 9
6 F vallalat 900 11 8
7 G vallalat 1000 10 11
8 H vallalat 35 4 3
9 I vallalat 120 2 2
10 J vallalat 100 5 4
|
|
5.27. R-eredmény.
|
Az 5.27. R-eredményen láthatjuk, hogy most sem távolságmátrixszal dolgozunk, ezért el kell készítenünk a távolságmátrixot. Ehhez első lépésként azt kell tudatnunk a programmal, hogy az első változó, a „NÉV”, az egyes elemek neveit tartalmazza. Ez azért hasznos, mert így a kapott dendrogram levelein a csokoládék neveit fogjuk látni, nem pedig számokat. Ezáltal sokkal áttekinthetőbb ábrát fogunk kapni és könnyebben tudjuk azonosítani az egyes klasztereket. Ezt az 5.28. R-forráskóddal tudjuk megtenni.
távolságmátrix<-dist(d[2:4])
print(távolságmátrix, digits=3)
|
|
5.29. R-forráskód
|
Ezután kiszámíttathatjuk a távolságmátrixot az adatokra. A távolságmátrix kiszámítása az 5.29. R-forráskódon látható. Láthatjuk, hogy az első változót most is kihagyjuk a mátrixból, hiszen az csak a vállalatok neveit tartalmazza, egyéb adatot nem. A tényleges távolságmátrixot az 5.29. R-eredményen láthatjuk.
A vallalat B vallalat
B vallalat 1425.0
C vallalat 1925.0 500.0
D vallalat 54.1 1479.0
E vallalat 925.1 500.0
F vallalat 825.1 600.0
G vallalat 925.1 500.0
H vallalat 40.1 1465.0
I vallalat 45.0 1380.0
J vallalat 25.4 1400.0
C vallalat D vallalat
B vallalat
C vallalat
D vallalat 1979.0
E vallalat 1000.0 979.0
F vallalat 1100.0 879.0
G vallalat 1000.0 979.1
H vallalat 1965.0 14.1
I vallalat 1880.0 99.0
J vallalat 1900.0 79.0
E vallalat F vallalat
B vallalat
C vallalat
D vallalat
E vallalat
F vallalat 100.0
G vallalat 2.0 100.0
H vallalat 965.0 865.0
I vallalat 880.1 780.1
J vallalat 900.0 800.0
G vallalat H vallalat
B vallalat
C vallalat
D vallalat
E vallalat
F vallalat
G vallalat
H vallalat 965.1
I vallalat 880.1 85.0
J vallalat 900.0 65.0
I vallalat
B vallalat
C vallalat
D vallalat
E vallalat
F vallalat
G vallalat
H vallalat
I vallalat
J vallalat 20.3
|
|
5.29. R-eredmény.
|
A távolságmátrix birtokában már futtathatunk egy klaszteranalízist, az egyszerű lánc módszert használva a klaszterképzéshez (5.30. R-forráskód).
klaszter<-hclust(távolságmátrix, method="single")
plot(klaszter)
|
|
5.30. R-forráskód
|
[,1] [,2]
[1,] -5 -7
[2,] -4 -8
[3,] -9 -10
[4,] -1 3
[5,] 2 4
[6,] -6 1
[7,] -2 6
[8,] -3 7
[9,] 5 8
|
|
5.31. R-eredmény.
|
magasság<-klaszter$height
print(magasság, digits=3)
|
|
5.32. R-forráskód
|
[1] 2.0 14.1 20.3 25.4 40.1 100.0 500.0 500.0 780.1
|
|
5.32. R-eredmény.
|
Az 5.31-5.32. R-eredményen láthatjuk, hogy a klaszterek kialakítása 9 lépésben történt és legutolsó elemet 780-as távolságnál vontuk be a klaszterbe.
Az 5.30. R-eredményen pedig a dendrogram látható. Láthatjuk, hogy alapvetően két nagy csoportja van a vizsgált vállalatoknak. Az egyikbe tartoznak a D, H, A, I és a J vállalatok, míg a másikba az F, E, G és egy kicsit távolabb a B és a C. A B és a C vállalat akár önálló klasztert is alkothat.
|