2.2.2. Feladatok megoldása kétmintás u-próbára
Először ismételjük meg a próba végrehajtását, hogy lássuk az output numerikus értékeit.
# kétmintás u-próba kétoldali ellenhipotézissel
library(BSDA)
ff <- c(65, 70, 56, 80, 101, 79, 63, 84, 92, 88, 76)
no <- c(52, 48, 70, 63, 56, 64, 58, 77, 90, 58, 60)
BSDA::z.test(x = ff, y = no, sigma.x = 8, sigma.y = 6)
Two-sample z-Test
data: ff and no
z = 4.764, p-value = 0.000001899
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
8.454 20.273
sample estimates:
mean of x mean of y
77.64 63.27
A mintaátlagok kiszámítása:
(mean.x <- mean(ff)) # x mintaátlaga
[1] 77.64
(mean.y <- mean(no)) # y mintaátlaga
[1] 63.27
Először számoljuk ki az eltérés standard hibáját, majd az u-própastatisztika értékét:
# a különbség standard hibája
(se <- sqrt((8^2/length(ff)) + (6^2/length(no))))
[1] 3.015
# az u-próbastatisztika értéke
(z <- (mean.x - mean.y)/se)
[1] 4.764
Kéroldali próba esetén a p-érték meghatározása:
2 * (1 - pnorm(q = z)) # a p-érték
[1] 0.000001899
A kétoldali, 95%-os megbízhatóságú konfidencia-intervallum:
E <- qnorm(p = 1 - 0.05/2) * se # hibahatár kiszámítása
(mean.x - mean.y) + c(-E, E)
[1] 8.454 20.273
Olvassuk be a folyok.txt
tartalmát, és vizsgáljuk meg a szerkezetét!
d <- read.table("http://users.atw.hu/rdata/datasets/folyok.txt", sep = "\t",
header = T)
str(d)
'data.frame': 71 obs. of 2 variables:
$ hossz : int 1173 901 698 529 534 579 724 3726 1392 531 ...
$ terulet: Factor w/ 2 levels "Európa","USA": 2 2 2 2 2 2 2 2 2 2 ...
A folyók hosszá km-ben számolva a hossz
változában szerepel, a két földrész megkülönböztetésére a terulet
változót használjuk.
# kétmintás u-próba kétoldali ellenhipotézissel
library(BSDA)
BSDA::z.test(x = d$hossz[d$terulet == "USA"], y = d$hossz[d$terulet == "Európa"],
sigma.x = 724, sigma.y = 763, conf.level = 0.9)
Two-sample z-Test
data: d$hossz[d$terulet == "USA"] and d$hossz[d$terulet == "Európa"]
z = -1.133, p-value = 0.257
alternative hypothesis: true difference in means is not equal to 0
90 percent confidence interval:
-490.69 90.33
sample estimates:
mean of x mean of y
1066 1266
Az eredményből leolvasható, hogy nincs elegendő bizonyítékunk, hogy elvessük a két terület folyóinak azonos hosszára vonatkozó hipotézisünket.
A feladat alapján a \(H_0:\mu_1-\mu_2=8\) és \(H_1:\mu_1-\mu_2>8\) hipotéziseket teszteljük. Az eddigiektől kicsit eltérő hipotézisek miatt a zsum.test()
függvényben a mu=8
argumentumot is szerepeltetni kell a megszokott összeítő értékeken kívül.
# kétmintás u-próba kétoldali ellenhipotézissel
library(BSDA)
zsum.test(mean.x = 110, sigma.x = 15, n.x = 60, mean.y = 104, sigma.y = 15,
n.y = 60, mu = 8, alternative = "greater")
Two-sample z-Test
data: Summarized x and y
z = -0.7303, p-value = 0.7674
alternative hypothesis: true difference in means is greater than 8
95 percent confidence interval:
1.495 NA
sample estimates:
mean of x mean of y
110 104
Az eredményből leolvasható, hogy nincs elegendő bizonyítékunk, hogy a magán iskolákban tanulók teszteredménye legalább 8 ponttal magasabb.