2.2.2. Feladatok megoldása kétmintás u-próbára

8.5. feladat megoldása. A kétmintás u-próba outputjának kézi számolása

Először ismételjük meg a próba végrehajtását, hogy lássuk az output numerikus értékeit.

# kétmintás u-próba kétoldali ellenhipotézissel
library(BSDA)
ff <- c(65, 70, 56, 80, 101, 79, 63, 84, 92, 88, 76)
no <- c(52, 48, 70, 63, 56, 64, 58, 77, 90, 58, 60)
BSDA::z.test(x = ff, y = no, sigma.x = 8, sigma.y = 6)

    Two-sample z-Test

data:  ff and no
z = 4.764, p-value = 0.000001899
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  8.454 20.273
sample estimates:
mean of x mean of y 
    77.64     63.27 

A mintaátlagok kiszámítása:

(mean.x <- mean(ff))  # x mintaátlaga
[1] 77.64
(mean.y <- mean(no))  # y mintaátlaga
[1] 63.27

Először számoljuk ki az eltérés standard hibáját, majd az u-própastatisztika értékét:

# a különbség standard hibája
(se <- sqrt((8^2/length(ff)) + (6^2/length(no))))
[1] 3.015

# az u-próbastatisztika értéke
(z <- (mean.x - mean.y)/se)
[1] 4.764

Kéroldali próba esetén a p-érték meghatározása:

2 * (1 - pnorm(q = z))  # a p-érték
[1] 0.000001899

A kétoldali, 95%-os megbízhatóságú konfidencia-intervallum:

E <- qnorm(p = 1 - 0.05/2) * se  # hibahatár kiszámítása
(mean.x - mean.y) + c(-E, E)
[1]  8.454 20.273
8.6. feladat megoldása. Amerikai és európai folyók hossza

Olvassuk be a folyok.txt tartalmát, és vizsgáljuk meg a szerkezetét!

d <- read.table("http://users.atw.hu/rdata/datasets/folyok.txt", sep = "\t", 
    header = T)
str(d)
'data.frame':   71 obs. of  2 variables:
 $ hossz  : int  1173 901 698 529 534 579 724 3726 1392 531 ...
 $ terulet: Factor w/ 2 levels "Európa","USA": 2 2 2 2 2 2 2 2 2 2 ...

A folyók hosszá km-ben számolva a hossz változában szerepel, a két földrész megkülönböztetésére a terulet változót használjuk.

# kétmintás u-próba kétoldali ellenhipotézissel
library(BSDA)
BSDA::z.test(x = d$hossz[d$terulet == "USA"], y = d$hossz[d$terulet == "Európa"], 
    sigma.x = 724, sigma.y = 763, conf.level = 0.9)

    Two-sample z-Test

data:  d$hossz[d$terulet == "USA"] and d$hossz[d$terulet == "Európa"]
z = -1.133, p-value = 0.257
alternative hypothesis: true difference in means is not equal to 0
90 percent confidence interval:
 -490.69   90.33
sample estimates:
mean of x mean of y 
     1066      1266 

Az eredményből leolvasható, hogy nincs elegendő bizonyítékunk, hogy elvessük a két terület folyóinak azonos hosszára vonatkozó hipotézisünket.

8.7. feladat megoldása. Teszteredmények magán és állami iskolákban

A feladat alapján a \(H_0:\mu_1-\mu_2=8\) és \(H_1:\mu_1-\mu_2>8\) hipotéziseket teszteljük. Az eddigiektől kicsit eltérő hipotézisek miatt a zsum.test() függvényben a mu=8 argumentumot is szerepeltetni kell a megszokott összeítő értékeken kívül.

# kétmintás u-próba kétoldali ellenhipotézissel
library(BSDA)
zsum.test(mean.x = 110, sigma.x = 15, n.x = 60, mean.y = 104, sigma.y = 15, 
    n.y = 60, mu = 8, alternative = "greater")

    Two-sample z-Test

data:  Summarized x and y
z = -0.7303, p-value = 0.7674
alternative hypothesis: true difference in means is greater than 8
95 percent confidence interval:
 1.495    NA
sample estimates:
mean of x mean of y 
      110       104 

Az eredményből leolvasható, hogy nincs elegendő bizonyítékunk, hogy a magán iskolákban tanulók teszteredménye legalább 8 ponttal magasabb.