4.7 Példák 4.7.1 probléma: Kikből lesznek a balesetezők?
Napjaink egyik legnagyobb problémája az egyre romló baleseti statisztikák. Az autóbalesetek egyre növekvő számához nagyon sok minden hozzájárul. Rengeteg vizsgálat folyik a közlekedéspszichológia keretein belül, a pszichológiai ismereteket felhasználva igyekeznek feltárni a közlekedési balesetek személyiség- és képességbeli vonatkozásait, a „humán faktort”.
Az első példában azt vizsgáljuk meg, mely tényezők járulnak hozzá a balesetekhez. A 4.11. R-forráskóddal a kapcsolódó adatbázist hívhatjuk elő. A 4.11. R-eredmény a 4.8.4 mellékletben látható.
d<-read.csv("c:/adat/baleset.csv")
d
|
|
4.11. R-forráskód
|
Az adatbázisban a baleset változó azt rögzíti, hogy volt-e már balesete a személynek vagy sem. A 0 kód azt jelenti, hogy a személy balesetmentes, míg az 1 azt jelenti, hogy már volt legalább egy balesete. Ez lesz tehát a csoportosító változó. A többi változó, melyek segítségével próbáljuk a csoportok közötti különbséget jellemezni, olyan dolgot mérnek, mint a megosztott figyelem („megosztott” változó), a figyelem pontossága („pontossag”), kockázatvállalási hajlandóság („kockazat”) és az észlelés gyorsasága („eszleles”).
A diszkriminancia-analízisben az első lépés annak megállapítása, vajon valóban szét lehet-e választani a balesetezők és a nem balesetezők csoportját az adott változók alapján. Ehhez a Wilks-lambda tesztet használjuk a többváltozós variancia-analízis keretein belül.
DA<-manova(cbind(megosztott,pontossag,kockazat,eszleles)~baleset, data=d)
DA<-summary(DA, test="Wilks")
print(DA, digits=3)
|
|
4.12. R-forráskód
|
Df Wilks approx F num Df den Df Pr(>F)
baleset 1 0.2761 20.3244 4 31 2.645e-08 ***
Residuals 34
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
|
|
4.12. R-eredmény.
|
A 4.12 R-eredmény tesztstatisztikájának szignifikanciaszintje azt mutatja, hogy a csoportok közötti különbségek szignifikánsak, vagyis valóban van különbség a balesetet szenvedett és a balesetmentes autóvezetők között.
library(MASS)
diszkr<-lda(baleset~megosztott+pontossag+kockazat+eszleles, data=d)
print(diszkr, digits=3)
|
|
4.13. R-forráskód
|
A 4.13. R-forráskód segítségével lefuttatható a diszkriminancia-analízis. A 4.13. R-eredményen láthatjuk, hogy az adatokat alapul véve az előzetes valószínűsége annak, hogy valakinek még nem volt balesete 0.472, míg annak a valószínűsége, hogy már volt balesete a személynek 0.528. Ezután vizsgálhatjuk a csoportátlagokat. A balesetmentes vezetők esetében magasabb a megosztott figyelem, a figyelem pontosságának és az észlelés változójának az átlaga, míg a kockázatvállalásé alacsonyabb. Ugyanakkor a másik csoport esetében a kockázatvállalás változójának az átlaga magasabb, míg a másik három képesség változójának átlaga alacsonyabb. Vagyis a balesetmentes vezetők gyorsabban képesek észlelni és jobban meg tudják osztani a figyelmüket, figyelmük pontosabb. A balesetet szenvedett vezetők esetében ezek a képességek gyengébbek, míg jobban szeretnek kockázatot vállalni.
Call:
lda(baleset ~ megosztott + pontossag + kockazat + eszleles, data = d)
Prior probabilities of groups:
0 1
0.472 0.528
Group means:
megosztott pontossag kockazat eszleles
0 5.94 5.65 2.59 5.94
1 2.84 2.68 5.58 3.11
Coefficients of linear discriminants:
LD1
megosztott -0.2576
pontossag -0.0771
kockazat 0.3627
eszleles -0.3670
|
|
4.13. R-eredmény.
|
Végül a kanonikus diszkriminancia együtthatók segítségével felírhatjuk a kanonikus diszkriminancia-függvényt a következő módon:
Z = 0,3627 * kockázat - 0,367 * észlelés - 0,2567 * megosztott-0,0771 * pontosság
csoport<-predict(diszkr,method="plug-in")$class
table<-table(csoport,d$baleset)
table
|
|
4.14. R-forráskód
|
csoport 0 1
0 16 2
1 1 17
|
|
4.14. R-eredmény.
|
n<-length(csoport)
helyes<-table[1]+table[4]
szazalek<-helyes*100/n
print(szazalek, digits=3)
|
|
4.15. R-forráskód
|
Utolsó lépésként pedig megnézhetjük, mennyire hatékony a diszkriminancia-analízis vagyis összevethetjük az eredeti csoporttagságokat a modell alapján alkotott besorolásokkal. A 4.14. R-forráskóddal elkészíthetjük ezt a predikciót, majd egy táblázatban reprezentálhatjuk az eredeti és a becsült csoportba tartozásokat. A 4.14. R-eredményen láthatjuk, hogy a legtöbb adat a főátlóban helyezkedik el, ami igen magas helyes besorolási arányra utal. Ennek számszerűsítése a 4.15 R-forráskóddal tehető meg. A 4.15. R-eredmény szerint a helyes besorolások aránya 91,7%.
A példában a gépjárműbalesetek emberi okait vizsgáltuk. Az eredmények alapján a balesetmentes vezetők gyorsabban képesek észlelni és jobban meg tudják osztani a figyelmüket, figyelmük pontosabb is. Ellenben a balesetet szenvedett vezetők esetében ezek a képességek gyengébbek, míg jobban szeretnek kockázatot vállalni.
|