mvst

5.6.4 probléma: Vállalatok vizsgálata

A következő problémában különböző vállalatokat próbálunk meg klaszterezni. A vállalatokat számtalan jellemző mentén mérhetjük, vizsgálhatjuk, ezáltal többféleképpen is csoportosíthatjuk őket. A csoportosítás alapjául mi most a vállalat nagyságát, a hatalmi távolságot és a vállalat szemléletében jelen levő konzervativizmus mértékét választottuk, ahogyan az az 5.27. R-forráskódon is látható.

d<-read.csv("c:/adat/vallalatok.csv")
d
5.27. R-forráskód

          NÉV           MÉRET HATALMIT KONZERVA
1  A vallalat              75        1        2
2  B vallalat            1500       10        9
3  C vallalat            2000       11        8
4  D vallalat              21        3        4
5  E vallalat            1000       10        9
6  F vallalat             900       11        8
7  G vallalat            1000       10       11
8  H vallalat              35        4        3
9  I vallalat             120        2        2
10 J vallalat             100        5        4
5.27. R-eredmény.

Az 5.27. R-eredményen láthatjuk, hogy most sem távolságmátrixszal dolgozunk, ezért el kell készítenünk a távolságmátrixot. Ehhez első lépésként azt kell tudatnunk a programmal, hogy az első változó, a „NÉV”, az egyes elemek neveit tartalmazza. Ez azért hasznos, mert így a kapott dendrogram levelein a csokoládék neveit fogjuk látni, nem pedig számokat. Ezáltal sokkal áttekinthetőbb ábrát fogunk kapni és könnyebben tudjuk azonosítani az egyes klasztereket. Ezt az 5.28. R-forráskóddal tudjuk megtenni.

rownames(d)<-d$NÉV
5.28. R-forráskód

távolságmátrix<-dist(d[2:4])
print(távolságmátrix, digits=3)
5.29. R-forráskód

Ezután kiszámíttathatjuk a távolságmátrixot az adatokra. A távolságmátrix kiszámítása az 5.29. R-forráskódon látható. Láthatjuk, hogy az első változót most is kihagyjuk a mátrixból, hiszen az csak a vállalatok neveit tartalmazza, egyéb adatot nem. A tényleges távolságmátrixot az 5.29. R-eredményen láthatjuk.

                     A vallalat           B vallalat          
B vallalat                         1425.0                     
C vallalat                         1925.0                500.0
D vallalat                           54.1               1479.0
E vallalat                          925.1                500.0
F vallalat                          825.1                600.0
G vallalat                          925.1                500.0
H vallalat                           40.1               1465.0
I vallalat                           45.0               1380.0
J vallalat                           25.4               1400.0
                     C vallalat           D vallalat          
B vallalat                                                    
C vallalat                                                    
D vallalat                         1979.0                     
E vallalat                         1000.0                979.0
F vallalat                         1100.0                879.0
G vallalat                         1000.0                979.1
H vallalat                         1965.0                 14.1
I vallalat                         1880.0                 99.0
J vallalat                         1900.0                 79.0
                     E vallalat           F vallalat          
B vallalat                                                    
C vallalat                                                    
D vallalat                                                    
E vallalat                                                    
F vallalat                          100.0                     
G vallalat                            2.0                100.0
H vallalat                          965.0                865.0
I vallalat                          880.1                780.1
J vallalat                          900.0                800.0
                     G vallalat           H vallalat          
B vallalat                                                    
C vallalat                                                    
D vallalat                                                    
E vallalat                                                    
F vallalat                                                    
G vallalat                                                    
H vallalat                          965.1                     
I vallalat                          880.1                 85.0
J vallalat                          900.0                 65.0
                     I vallalat          
B vallalat                               
C vallalat                               
D vallalat                               
E vallalat                               
F vallalat                               
G vallalat                               
H vallalat                               
I vallalat                               
J vallalat                           20.3 
5.29. R-eredmény.

A távolságmátrix birtokában már futtathatunk egy klaszteranalízist, az egyszerű lánc módszert használva a klaszterképzéshez (5.30. R-forráskód).

klaszter<-hclust(távolságmátrix, method="single")
plot(klaszter)
5.30. R-forráskód

5.30. R-eredmény.

klaszter$merge
5.31. R-forráskód

      [,1] [,2]
 [1,]   -5   -7
 [2,]   -4   -8
 [3,]   -9  -10
 [4,]   -1    3
 [5,]    2    4
 [6,]   -6    1
 [7,]   -2    6
 [8,]   -3    7
 [9,]    5    8  
5.31. R-eredmény.

magasság<-klaszter$height
print(magasság, digits=3)
5.32. R-forráskód

 [1]   2.0  14.1  20.3  25.4  40.1 100.0 500.0 500.0 780.1 
5.32. R-eredmény.

Az 5.31-5.32. R-eredményen láthatjuk, hogy a klaszterek kialakítása 9 lépésben történt és legutolsó elemet 780-as távolságnál vontuk be a klaszterbe.

Az 5.30. R-eredményen pedig a dendrogram látható. Láthatjuk, hogy alapvetően két nagy csoportja van a vizsgált vállalatoknak. Az egyikbe tartoznak a D, H, A, I és a J vállalatok, míg a másikba az F, E, G és egy kicsit távolabb a B és a C. A B és a C vállalat akár önálló klasztert is alkothat.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.