Bevezetés az R-be 2.0 - Feladatgyűjtemény

Kétmintás u-próba

1. feladat. Főiskolai sportolási lehetőségek száma fiúk és lányok számára.
Egy kutató azt feltételezi, hogy a főiskolákon több sportolási lehetőség áll rendelkezésre a fiúk számára. Az http://users.atw.hu/rdata/datasets/fsport.txt tartalmazza a fiúk és lányok számára ajánlott sportolási lehetőségek számát véletlenszerűen választott főiskolákon. Feltesszük, hogy mindkét populációban a szórás 3.3. Vizsgáljuk meg 10%-os szignifikanciaszinten, hogy tartható-e kutató állítása!

Az állítás elenőrzésére kétmintás u-próbát hajtunk végre:

  • \(H_0:\mu_1=\mu_2\)
  • \(H_1:\mu_1 > \mu_2\)

Adatok beolvasása

Olvassuk be az fsport.txt tartalmát, és vizsgáljuk meg a szerkezetét!

d <- read.table("http://users.atw.hu/rdata/datasets/fsport.txt", 
                sep = "\t", header = T)
str(d)
'data.frame':    100 obs. of  2 variables:
 $ sportok.szama: int  6 11 11 8 15 6 14 8 12 18 ...
 $ sportolo     : Factor w/ 2 levels "fiú","lány": 1 1 1 1 1 1 1 1 1 1 ...
head(d)
  sportok.szama sportolo
1             6      fiú
2            11      fiú
3            11      fiú
4             8      fiú
5            15      fiú
6             6      fiú

Kétmintás u-próba jobb-oldali ellenhipotézissel

library(BSDA)
BSDA::z.test(x = d$sportok.szama[d$sportolo == "fiú"], 
             y = d$sportok.szama[d$sportolo == "lány"], 
             sigma.x = 3.3, sigma.y = 3.3, alternative = "greater", conf.level = 0.9)

    Two-sample z-Test

data:  d$sportok.szama[d$sportolo == "fiú"] and d$sportok.szama[d$sportolo == "lány"]
z = 0.9394, p-value = 0.1738
alternative hypothesis: true difference in means is greater than 0
90 percent confidence interval:
 -0.225824        NA
sample estimates:
mean of x mean of y 
     8.56      7.94

Az eredményből leolvasható, hogy jelent minta alapján nem ajánlanak fel szignifikánsan több sportolási lehetőséget a fiúk számára a lányokkal szemben (\(u=0,939; p=0,1738\)).