mvst

4.7 Példák
  4.7.1 probléma: Kikből lesznek a balesetezők?

Napjaink egyik legnagyobb problémája az egyre romló baleseti statisztikák. Az autóbalesetek egyre növekvő számához nagyon sok minden hozzájárul. Rengeteg vizsgálat folyik a közlekedéspszichológia keretein belül, a pszichológiai ismereteket felhasználva igyekeznek feltárni a közlekedési balesetek személyiség- és képességbeli vonatkozásait, a „humán faktort”.

Az első példában azt vizsgáljuk meg, mely tényezők járulnak hozzá a balesetekhez. A 4.11. R-forráskóddal a kapcsolódó adatbázist hívhatjuk elő. A 4.11. R-eredmény a 4.8.4 mellékletben látható.

d<-read.csv("c:/adat/baleset.csv")
d
4.11. R-forráskód

Az adatbázisban a baleset változó azt rögzíti, hogy volt-e már balesete a személynek vagy sem. A 0 kód azt jelenti, hogy a személy balesetmentes, míg az 1 azt jelenti, hogy már volt legalább egy balesete. Ez lesz tehát a csoportosító változó. A többi változó, melyek segítségével próbáljuk a csoportok közötti különbséget jellemezni, olyan dolgot mérnek, mint a megosztott figyelem („megosztott” változó), a figyelem pontossága („pontossag”), kockázatvállalási hajlandóság („kockazat”) és az észlelés gyorsasága („eszleles”).

A diszkriminancia-analízisben az első lépés annak megállapítása, vajon valóban szét lehet-e választani a balesetezők és a nem balesetezők csoportját az adott változók alapján. Ehhez a Wilks-lambda tesztet használjuk a többváltozós variancia-analízis keretein belül.

DA<-manova(cbind(megosztott,pontossag,kockazat,eszleles)~baleset, data=d)
DA<-summary(DA, test="Wilks")
print(DA, digits=3)
4.12. R-forráskód

	         Df   Wilks approx F num Df den Df    Pr(>F)    
baleset    1  0.2761  20.3244      4     31 2.645e-08 ***
Residuals 34                                             
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
4.12. R-eredmény.

A 4.12 R-eredmény tesztstatisztikájának szignifikanciaszintje azt mutatja, hogy a csoportok közötti különbségek szignifikánsak, vagyis valóban van különbség a balesetet szenvedett és a balesetmentes autóvezetők között.

library(MASS)
diszkr<-lda(baleset~megosztott+pontossag+kockazat+eszleles, data=d)
print(diszkr, digits=3)
4.13. R-forráskód

A 4.13. R-forráskód segítségével lefuttatható a diszkriminancia-analízis. A 4.13. R-eredményen láthatjuk, hogy az adatokat alapul véve az előzetes valószínűsége annak, hogy valakinek még nem volt balesete 0.472, míg annak a valószínűsége, hogy már volt balesete a személynek 0.528. Ezután vizsgálhatjuk a csoportátlagokat. A balesetmentes vezetők esetében magasabb a megosztott figyelem, a figyelem pontosságának és az észlelés változójának az átlaga, míg a kockázatvállalásé alacsonyabb. Ugyanakkor a másik csoport esetében a kockázatvállalás változójának az átlaga magasabb, míg a másik három képesség változójának átlaga alacsonyabb. Vagyis a balesetmentes vezetők gyorsabban képesek észlelni és jobban meg tudják osztani a figyelmüket, figyelmük pontosabb. A balesetet szenvedett vezetők esetében ezek a képességek gyengébbek, míg jobban szeretnek kockázatot vállalni.

Call:
lda(baleset ~ megosztott + pontossag + kockazat + eszleles, data = d) 
Prior probabilities of groups: 0 1 0.472 0.528
Group means: megosztott pontossag kockazat eszleles 0 5.94 5.65 2.59 5.94 1 2.84 2.68 5.58 3.11
Coefficients of linear discriminants: LD1 megosztott -0.2576 pontossag -0.0771 kockazat 0.3627 eszleles -0.3670
4.13. R-eredmény.

Végül a kanonikus diszkriminancia együtthatók segítségével felírhatjuk a kanonikus diszkriminancia-függvényt a következő módon:

Z = 0,3627 * kockázat - 0,367 * észlelés - 0,2567 * megosztott-0,0771 * pontosság

csoport<-predict(diszkr,method="plug-in")$class
table<-table(csoport,d$baleset)
table
4.14. R-forráskód

csoport  0  1
      0 16  2
      1  1 17
4.14. R-eredmény.

n<-length(csoport)
helyes<-table[1]+table[4]
szazalek<-helyes*100/n
print(szazalek, digits=3)
4.15. R-forráskód

[1] 91.7
4.15. R-eredmény.

Utolsó lépésként pedig megnézhetjük, mennyire hatékony a diszkriminancia-analízis vagyis összevethetjük az eredeti csoporttagságokat a modell alapján alkotott besorolásokkal. A 4.14. R-forráskóddal elkészíthetjük ezt a predikciót, majd egy táblázatban reprezentálhatjuk az eredeti és a becsült csoportba tartozásokat. A 4.14. R-eredményen láthatjuk, hogy a legtöbb adat a főátlóban helyezkedik el, ami igen magas helyes besorolási arányra utal. Ennek számszerűsítése a 4.15 R-forráskóddal tehető meg. A 4.15. R-eredmény szerint a helyes besorolások aránya 91,7%.

A példában a gépjárműbalesetek emberi okait vizsgáltuk. Az eredmények alapján a balesetmentes vezetők gyorsabban képesek észlelni és jobban meg tudják osztani a figyelmüket, figyelmük pontosabb is. Ellenben a balesetet szenvedett vezetők esetében ezek a képességek gyengébbek, míg jobban szeretnek kockázatot vállalni.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.