mvst

5.6 Példák
  5.6.1 probléma: Csokoládémárkák vizsgálata

A klaszteranalízissel elemzett első problémában csokoládémárkákat vizsgálunk. Összesen tíz csokimárkát ítéltek meg a személyek a csoki nagysága, krémességének és töménységének tekintetében. Azt fogjuk megvizsgálni, hogy mely csokoládék állnak a vizsgálati személyek szerint közel egymáshoz. Ennek ismerete hasznos lehet marketing szempontból - például mely csokoládékat érdemes közel tenni egymáshoz a polcon.

Az adatokat tartalmazó file-t az 5.15. R-forráskód segítségével nyithatjuk meg.

d<-read.csv("c:/adat/csoki.csv")
5.15. R-forráskód

     CSOKI        NAGYSÁG KRÉMES TÖMÉNY
1  Boci                10      9      7
2  Milka               10     10      8
3  Tibi                 9      8      6
4  Balaton              4      5      6
5  Müzliszel            4      2      4
6  3-bit                3      7      7
7  Kapuciner            2      5      7
8  Mars                 5      7      8
9  Snickers             5      7      9
10 Sportszel            4      8      9
5.15. R-eredmény.

Az 5.15. R-eredményen láthatjuk, hogy most nem távolságmátrixszal dolgozunk, hanem „eredeti” változókkal. Az adatokból számított távolságmátrixot természetesen elkészíthetjük az R segítségével is. Ehhez első lépésként azt kell tudatnunk a programmal, hogy az első változó, a „CSOKI”, az egyes elemek neveit tartalmazza. Ez azért hasznos, mert így a kapott dendrogram levelein a csokoládék neveit fogjuk látni, nem pedig számokat. Ezáltal sokkal áttekinthetőbb ábrát fogunk kapni és könnyebben tudjuk azonosítani az egyes klasztereket. Ezt az 5.16. R-forráskóddal tudjuk megtenni.

rownames(d)<-d$CSOKI
5.16. R-forráskód

Ezután kiszámíttathatjuk a távolságmátrixot az adatokra. A távolságmátrix kiszámítása az 5.17. R-forráskódon látható. Láthatjuk, hogy az első változót kihagyjuk a mátrixból, hiszen az csak a csokoládéneveket tartalmazza, egyéb adatot nem. A tényleges távolságmátrixot az 5.17. R-eredményen láthatjuk.

távolságmátrix<-dist(d[2:4])
print(távolságmátrix, digits=3)
5.17. R-forráskód

      Boci           Milka          Tibi           Balaton       
Milka                    1.41                                             
Tibi                     1.73           3.00                              
Balaton                  7.28           8.06           5.83               
Müzliszel                9.70          10.77           8.06           3.61
3-bit                    7.28           7.68           6.16           2.45
Kapuciner                8.94           9.49           7.68           2.24
Mars                     5.48           5.83           4.58           3.00
Snickers                 5.74           5.92           5.10           3.74
Sportszel                6.40           6.40           5.83           4.24
               Müzliszel      3-bit          Kapuciner      Mars          
Milka                                                                     
Tibi                                                                      
Balaton                                                                   
Müzliszel                                                                 
3-bit                    5.92                                             
Kapuciner                4.69           2.24                              
Mars                     6.48           2.24           3.74               
Snickers                 7.14           2.83           4.12           1.00
Sportszel                7.81           2.45           4.12           1.73
               Snickers      
Milka                        
Tibi                         
Balaton                      
Müzliszel                    
3-bit                        
Kapuciner                    
Mars                         
Snickers                     
Sportszel                1.41
5.17. R-eredmény.

A távolságmátrix birtokában már futtathatunk egy klaszteranalízist, az egyszerű lánc módszert használva a klaszterképzéshez (5.18. R-forráskód).

klaszter<-hclust(távolságmátrix, method="single")
5.18. R-forráskód

5.18. R-eredmény.

klaszter$merge
5.19. R-forráskód

      [,1] [,2]
 [1,]   -8   -9
 [2,]   -1   -2
 [3,]  -10    1
 [4,]   -3    2
 [5,]   -4   -7
 [6,]   -6    5
 [7,]    3    6
 [8,]   -5    7
 [9,]    4    8
5.19. R-eredmény.

magasság<-klaszter$height
print(magasság,digits=3)
5.20. R-forráskód

 [1] 1.00 1.41 1.41 1.73 2.24 2.24 2.24 3.61 4.58
5.20. R-eredmény.

Az 5.19-5.20. R-eredményen láthatjuk, hogy a klaszterek kialakítása 9 lépésben történt és legutolsó elemet 4,58-as távolságnál vontuk be a klaszterbe.

Az 5.18. R-eredményen pedig a dendrogram látható. Láthatjuk, hogy alapvetően két nagy csoportja van a vizsgált csokoládéknak. Az egyikbe tartoznak a táblás csokoládék (Tibi, Milka és a Boci), míg a másikba a szeletes csokik. Az utóbbiba vonta be a módszer a müzliszeletet is, bár meglehetősen távol van a többi csokoládétól.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.