6 Összefüggés két változó között

6.1 Korrelációs együtthatók

A korrelációszámítás két véletlen változó szimmetrikus kapcsolatával foglalkozik. Az \(X\) és \(Y\) változó között pozitív korrelációs kapcsolat van, ha kis \(X\) értékekhez kis \(Y\) értékek, nagy \(X\) értékekhez nagy \(Y\) értékek tartoznak. Negatív kapcsolat esetén kis \(X\) értékekhez nagy \(Y\) értékek, nagy \(X\) értékekhez kis \(Y\) értékek tartoznak. A két változó lineáris kapcsolatának erősségét a Pearson-féle korrelációs együtthatóval (populációban a \(\rho_{xy}\) vagy \(\rho\), a mintában \(r_{xy}\) vagy \(r\)) mérhetjük, nemlineáris, de monoton kapcsolat esetén a Spearman-féle rangkorrelációs együtthatót (\(\rho_S\), \(r_S\)), vagy a Kendall-féle tau-t (\(\tau\), \(r_{\tau}\)) használjuk. Mindhárom korrelációs mutatóhoz hipotézisvizsgálat társul, amelyek mindegyikében a nullhipotézisben a kapcsolat hiánya szerepel.

Alkalmazási feltételek:

  • \(X\), \(Y\) véletlen változók
  • Pearson-féle korrelációs együtthatóhoz kapcsolódó hipotézisvizsgálatban:
    • lineáris kapcsolat feltételezhető a két változó között
    • az \(X\) és \(Y\) változó kétdimenziós normális eloszlású a populációban, amelynek szükséges feltétele, hogy \(X\) és \(Y\) normális eloszlású legyen
  • Spearman-féle rangkorrelációs együtthatóhoz és a Kendall-féle tau-hoz kapcsolódó hipotézisvizsgálatokban:
    • legalább ordinális skála
    • monoton kapcsolat feltételezhető a két változó között

Null- és ellenhipotézisek:

A Pearson-féle korrelációs együtthatóhoz:

  • \(H_0:\) \(X\) és \(Y\) nincs lineáris kapcsolatban egymással
  • \(H_1:\) \(X\) és \(Y\) lineáris kapcsolatban van egymással

vagyis

  • \(H_0:\rho = 0\)
  • \(H_1:\rho \neq 0\)

A Spearman-féle rangkorrelációs együtthatóhoz és a Kendall-féle tau-hoz:

  • \(H_0:\) \(X\) és \(Y\) nincs monoton kapcsolatban egymással
  • \(H_1:\) \(X\) és \(Y\) monoton kapcsolatban van egymással

azaz Spearman-féle rangkorrelációs együttható esetén:

  • \(H_0:\rho_{S}=0\)
  • \(H_1:\rho_{S} \neq 0\)

Kendall-féle tau esetén:

  • \(H_0:\tau = 0\)
  • \(H_1:\tau \neq 0\)

Próbastatisztika:

A Pearson-féle korrelációs együttható (\(r\)) értelmezhető a standardizált kovarianciaként: a kovariancia (\(\sigma_{xy}\)) per a két változó szórása (\(\sigma_x\) és \(\sigma_y\)). Az \(r\)-re épülő próbastatisztika \(t(n-2)\) eloszlású, ha \(H_0\) igaz.

\[r=r_{xy}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}=\frac{s_{xy}}{s_x s_y}\]

\[T=r\sqrt{\frac{n-2}{1-r^2}} \sim t(n-2)\]

Spearman-féle rangkorrelációs együttható definíció szerint a rangokon kiszámolt Pearson-féle korrelációs együtthatóval egyenlő. Ha kapcsolt rangokat nem tartalmaz a két változó, akkor számolhatunk a következő közelítő képlettel is. Az \(r_S\)-re épülő próbastatisztika szintén \(t(n-2)\) eloszlású, ha \(H_0\) igaz.

\[r_i=\text{rank}(x_i), q_i=\text{rank}(y_i), d_i=\left|r_i-q_i\right|, r_S=1-\frac{6\sum_{i=1}^nd_i^2}{n^3-n}, T=r_S\sqrt{\frac{n-2}{1-r_S^2}} \sim t(n-2)\]

Kendall-féle tau mutató a konkordáns és diszkordáns párok számát veszi figyelembe. Konkordánsnak nevezünk egy \((x_i, y_i)\) és \((x_j, y_j)\) párt, ha \(x_i<x_j\) esetén \(y_i<y_j\) vagy \(x_i>x_j\) esetén \(y_i>y_j\). Diszkordánsnak nevezünk egy \((x_i, y_i)\) és \((x_j, y_j)\) párt, ha \(x_i<x_j\) esetén \(y_i>y_j\) vagy \(x_i>x_j\) esetén \(y_i<y_j\). Ha \(n_C\)-vel jelöljük a konkordáns párok számát, és \(n_D\)-vel a diszkordáns párok számát, valamint ha figyelembe vesszük, hogy \(n\) elemű minta esetén összesen \(n(n-1)/2\) számú pár képezhető, akkor \(n_C+n_D = n(n-1)/2\) (feltéve, hogy nincsenek kapcsolt rangok). Ekkor a mutató számítása:

\[r_{\tau}=\frac{n_C-n_D}{n_C+n_D}=\frac{n_C-n_D}{n(n-1)/2}\]

Kapcsolt rangok esetén egy némileg módosított képlettel kell számolni. Az \(r_{\tau}\)-ra épülő próbastatisztika a nullhipotézis igaz volta esetén, ha \(n\) elég nagy, akkor közelítőleg standard normális eloszlást követ:

\[Z=\frac{r_{\tau}}{\sigma_{\tau}}=\frac{r_{\tau}}{\sqrt{\frac{2(2n+5)}{9n(n-1)}}} \sim N(0,1)\]

Kapcsolt rangok hiányában a próbastatisztika értéke pontosan is számolható, egzakt értéket is kaphatunk.

6.1.1 Példa: hőmérséklet és az elfogyasztott jégkrémek száma

Vizsgáljuk meg a hőmérséklet és az elfogyasztott jégkrémek száma közötti kapcsolatot!
Forrás: (Dancey and Reidy 2011, 181)

Adatok beolvasása. Olvassuk be az adatokat egy d nevű adattáblába:

d <- read.table(file = textConnection("
Ice.cream   Temperature
 1000      26
  950      22
  870      19
  890      20
  886      19
  900      21
  560      17
  550      16
  400      12
  500      13
  550      14
  600      19
  700      21
  750      22
  800      22
  850      24
  950      22
 1050      26
 1000      26
 1000      26
"), header=T, sep="")
str(d)            # az adattábla szerkezete
## 'data.frame':    20 obs. of  2 variables:
##  $ Ice.cream  : int  1000 950 870 890 886 900 560 550 400 500 ...
##  $ Temperature: int  26 22 19 20 19 21 17 16 12 13 ...
d                 # a beolvasott adattábla
##    Ice.cream Temperature
## 1       1000          26
## 2        950          22
## 3        870          19
## 4        890          20
## 5        886          19
## 6        900          21
## 7        560          17
## 8        550          16
## 9        400          12
## 10       500          13
## 11       550          14
## 12       600          19
## 13       700          21
## 14       750          22
## 15       800          22
## 16       850          24
## 17       950          22
## 18      1050          26
## 19      1000          26
## 20      1000          26

Grafikus ábrázolás két kvantitatív változó kapcsolatára. Kétdimenziós pontdiagram segítségével ábrázoljuk a két változó kapcsolatát:

library(ggplot2)
ggplot(data = d, mapping = aes(x = Temperature, y = Ice.cream)) + geom_point(size=4, colour = "blue", alpha = 0.6, shape=21, fill="grey") + theme_bw()

Korrelációs együtthatók kiszámítása. A három korrelációs együttható meghatározható a DescTools csomag Desc() függvényével. Argumentumként a két változót tartalmazó formula=Ice.cream~Temperature argumentumot kell megadni.

library(DescTools)
Desc(formula = Ice.cream ~ Temperature, data = d)
## ------------------------------------------------------------------------- 
## Ice.cream ~ Temperature
## 
## Summary: 
## n pairs: 20, valid: 20 (100.0%), missings: 0 (0.0%)
## 
## 
## Pearson corr. : 0.8930702
## Spearman corr.: 0.8627080
## Kendall corr. : 0.7747370

Mindhárom együttható erős pozitív kapcsolatot jelez a két változó között.

A Pearson-féle korrelációs együttható magas értéke erős pozitív lineáris kapcsolatot jelent (\(r=0,89\)). A Pearson-féle korrelációs együttható értemezését segíti az a tény, hogy az erre épülő determinációs együttható (\(r^2=0,80\)) értéke alapján azt mondhatjuk, hogy a hőmérséklet ismeretében az elfogyasztott jégkrémek számára vonatkozó előrejelzésünk hibája 80%-kal csökkenthető (lineáris regresszió esetén). A másik értelmezés is a lineáris regresszióhoz kötődik. Az elfogyasztott jégrém mennyiségében 0,89 szeres saját szórásban mért növekedés következik be egy saját szórásnyi hőmérsékletben bekövetkező növekedés esetén.

A Spearman-féle rangkorrelációs együttható magas értéke erős pozitív monoton kapcsolatot jelent (\(r_S=0,86\)). (Értelmezése nem egyszerű, mivel a rangokon végrehajtott Pearson-féle korrelációs együtthatót szolgáltatja.)

A Kendall-féle tau együttható magas értéke erős pozitív monoton kapcsolatot jelent (\(r_{\tau}=0,77\)). A mutató értelmezése szerint a hőmérsékletek értékei közötti nagyságrendi viszony, kb. 77%-os mértékben jelenik meg az elfogyasztott jégkrémek száma változó értékeiben. A konkordáns párok aránya is kiszámolható \(r_{\tau}\) ismeretében: \((1+r_{\tau})/2=0,89\). Tehát a mintában a 89%-11% a konkordáns-diszkordáns párok aránya.

Hipotézisvizsgálat a Pearson-féle korrelációs együtthatóra, a Spearman-féle rangkorrelációs együtthatóra és a Kendall-féle tau együtthatóra. A próbák végrehajtása.

# hipotézisvizsgálat a Pearson-féle korrelációs együtthatóra
cor.test(d$Ice.cream, d$Temperature, method = "pearson", use="complete.obs")
## 
##  Pearson's product-moment correlation
## 
## data:  d$Ice.cream and d$Temperature
## t = 8.4215, df = 18, p-value = 0.0000001171
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7449587 0.9572742
## sample estimates:
##       cor 
## 0.8930702
# hipotézisvizsgálat a Spearman-féle rangkorrelációs együtthatóra
cor.test(d$Ice.cream, d$Temperature, method = "spearman", use="complete.obs") 
## 
##  Spearman's rank correlation rho
## 
## data:  d$Ice.cream and d$Temperature
## S = 182.6, p-value = 0.0000009893
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##      rho 
## 0.862708
# hipotézisvizsgálat a Kendall-féle tau együtthatóra
cor.test(d$Ice.cream, d$Temperature, method = "kendall", use="complete.obs")
## 
##  Kendall's rank correlation tau
## 
## data:  d$Ice.cream and d$Temperature
## z = 4.5758, p-value = 0.000004743
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
##      tau 
## 0.774737

A fenti három próba outputjából kiderül, hogy az adott együtthatóra vonatkozó nullhipotézist visszautasítjuk, tehát a három együttható értéke szignifikánsan eltér nullától, ami a lineráis/monoton korrelációs kapcsolat jelenlétét bizonyítja a populációban (Pearson-féle korrelációs együtthatóra: \(r=0,89\); \(t(18)=8,4215\); \(p<0,0001\); Spearman-féle rangkorrelációs együtthatóra: \(r_S=0,86\); \(p<0,0001\); Kendall-féle tau együtthatóra: \(r_{\tau}=0,77\); \(z=4,5758\); \(p<0,0001\)).

Alternatívák a korrelációs együtthatókra. A lessR csomag Correlation() függvényével is elvégezhetjük a fenti hipotézisvizsgálatokat:

library(lessR)
# hipotézisvizsgálat a Pearson-féle korrelációs együtthatóra
Correlation(Ice.cream, Temperature, data = d, method = "pearson")
## Correlation Analysis for Variables Ice.cream and Temperature 
## ------------------------------------------------------------ 
##  
## >>> Pearson's product-moment correlation 
##  
## Number of paired values with neither missing, n = 20 
## Number of cases (rows of data) deleted: 0 
## 
## 
## Sample Covariance: s = 760.495 
##  
## Sample Correlation: r = 0.893 
## 
## 
## Alternative Hypothesis: True correlation is not equal to 0 
##   t-value: 8.421,  df: 18,  p-value: 0.000 
##  
## 95% Confidence Interval of Population Correlation 
##   Lower Bound: 0.745      Upper Bound: 0.957
# hipotézisvizsgálat a Spearman-féle rangkorrelációs együtthatóra
Correlation(Ice.cream, Temperature, data = d, method = "spearman")
## Correlation Analysis for Variables Ice.cream and Temperature 
## ------------------------------------------------------------ 
##  
## >>> Spearman's rank correlation rho 
##  
## Number of paired values with neither missing, n = 20 
## Number of cases (rows of data) deleted: 0 
## 
## 
## Sample Correlation: rho = 0.863 
## 
## 
## Alternative Hypothesis: True rho is not equal to 0 
##   S-value: 182.598,  p-value: 0.000
# hipotézisvizsgálat a Kendall-féle tau együtthatóra
Correlation(Ice.cream, Temperature, data = d, method = "kendall")  
## Correlation Analysis for Variables Ice.cream and Temperature 
## ------------------------------------------------------------ 
##  
## >>> Kendall's rank correlation tau 
##  
## Number of paired values with neither missing, n = 20 
## Number of cases (rows of data) deleted: 0 
## 
## 
## Sample Correlation: tau = 0.775 
## 
## 
## Alternative Hypothesis: True tau is not equal to 0 
##   z-value: 4.576,  p-value: 0.000

A DescTools csomag Assocs() függvényével egyéb asszociációs mutatókat is meghatározhatunk:

library(DescTools)
Assocs(table(d$Ice.cream, d$Temperature))
##                        estimate  lwr.ci  upr.ci
## Phi Coeff.               3.0000       -       -
## Contingency Coeff.       0.9487       -       -
## Cramer V                 0.9487  0.0000  0.6152
## Goodman Kruskal Gamma    0.8035  0.6042  1.0000
## Kendall Tau-b            0.7747  0.5779  0.9716
## Stuart Tau-c             0.7645  0.5717  0.9573
## Somers D C|R             0.7514  0.5510  0.9517
## Somers D R|C             0.7989  0.5890  1.0000
## Pearson Correlation      0.8488  0.6506  0.9387
## Spearman Correlation     0.8627  0.6797  0.9446
## Lambda C|R               0.9375  0.8189  1.0000
## Lambda R|C               0.6471  0.4199  0.8742
## Lambda sym               0.7879  0.6610  0.9148
## Uncertainty Coeff. C|R   0.9064  0.7386  1.0000
## Uncertainty Coeff. R|C   0.7448  0.5940  0.8956
## Uncertainty Coeff. sym   0.8177  0.6655  0.9699
## Mutual Information       3.0842       -       -

6.2 Parciális korrelációs együtthatók

6.2.1 Példa: a vizsgaeredmények, a felkészülési idő és a szorongás kapcsolata

Egy vizsgálatban rendelkezésre áll 103 tanuló vizsgaeredménye (Exam), a felkészülésre fordított idő (Revise) és a vizsgával kapcsolatos szorongás mértéke (Anxiety). Vizsgáljuk meg a három változó kapcsolatát!
Forrás: (A. Field, Miles, and Field 2012, 219)

Adatok beolvasása. Olvassuk be az adatokat egy d adattáblába!

d <- read.table(file = textConnection("
Code    Revise  Exam    Anxiety Gender
1   4   40  86.298  Male
2   11  65  88.716  Female
3   27  80  70.178  Male
4   53  80  61.312  Male
5   4   40  89.522  Male
6   22  70  60.506  Female
7   16  20  81.462  Female
8   21  55  75.82   Female
9   25  50  69.372  Female
10  18  40  82.268  Female
11  18  45  79.044  Male
12  16  85  80.656  Male
13  13  70  70.178  Male
14  18  50  75.014  Female
15  98  95  34.714  Male
16  1   70  95.164  Male
17  14  95  75.82   Male
18  29  95  79.044  Female
19  4   50  91.134  Female
20  23  60  64.536  Male
21  14  80  80.656  Male
22  12  75  77.432  Male
23  22  85  65.342  Female
24  84  90  .0560000000000116   Female
25  23  30  71.79   Female
26  26  60  81.462  Female
27  24  75  63.73   Male
28  72  75  27.46   Female
29  37  27  73.402  Female
30  10  20  89.522  Male
31  3   75  89.522  Female
32  36  90  75.014  Female
33  43  60  43.58   Male
34  19  30  82.268  Male
35  12  80  79.044  Male
36  9   10  79.044  Female
37  72  85  37.132  Male
38  10  7   81.462  Male
39  12  5   83.074  Female
40  30  85  50.834  Male
41  15  20  82.268  Male
42  8   45  78.238  Female
43  34  60  72.596  Male
44  22  70  74.208  Female
45  21  50  75.82   Female
46  27  25  70.984  Male
47  6   50  97.582  Male
48  18  40  67.76   Male
49  8   80  75.014  Male
50  19  50  73.402  Female
51  0   35  93.552  Female
52  52  80  58.894  Female
53  38  50  53.252  Female
54  19  49  84.686  Male
55  23  75  89.522  Female
56  11  25  71.79   Female
57  27  65  82.268  Male
58  17  80  69.372  Male
59  13  50  62.118  Male
60  42  70  68.566  Female
61  4   40  93.552  Male
62  8   80  84.686  Female
63  6   10  82.268  Male
64  11  20  81.462  Female
65  7   40  82.268  Male
66  15  40  91.134  Male
67  4   70  91.94   Female
68  28  52  86.298  Female
69  22  50  72.596  Male
70  29  60  63.73   Female
71  2   80  63.73   Male
72  16  60  71.79   Female
73  59  65  57.282  Male
74  10  15  84.686  Female
75  13  85  84.686  Male
76  8   20  77.432  Female
77  5   80  82.268  Female
78  2   100 10  Male
79  38  100 50.834  Female
80  4   80  87.91   Male
81  10  10  83.88   Male
82  6   70  84.686  Female
83  68  100 20.206  Female
84  8   70  87.104  Male
85  1   70  83.88   Female
86  14  65  67.76   Male
87  42  75  95.97   Female
88  13  85  62.118  Female
89  1   30  84.686  Male
90  3   5   92.746  Male
91  5   10  84.686  Female
92  12  90  83.074  Female
93  19  70  73.402  Male
94  2   20  87.91   Female
95  19  85  71.79   Male
96  11  35  86.298  Male
97  15  30  84.686  Female
98  23  70  75.82   Male
99  13  55  70.984  Female
100 14  75  78.238  Female
101 1   2   82.268  Male
102 9   40  79.044  Male
103 20  50  91.134  Female
"), header=T, sep="", dec = ".")
str(d)            # az adattábla szerkezete
## 'data.frame':    103 obs. of  5 variables:
##  $ Code   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Revise : int  4 11 27 53 4 22 16 21 25 18 ...
##  $ Exam   : int  40 65 80 80 40 70 20 55 50 40 ...
##  $ Anxiety: num  86.3 88.7 70.2 61.3 89.5 ...
##  $ Gender : Factor w/ 2 levels "Female","Male": 2 1 2 2 2 1 1 1 1 1 ...
d                 # a beolvasott adattábla
##     Code Revise Exam Anxiety Gender
## 1      1      4   40  86.298   Male
## 2      2     11   65  88.716 Female
## 3      3     27   80  70.178   Male
## 4      4     53   80  61.312   Male
## 5      5      4   40  89.522   Male
## 6      6     22   70  60.506 Female
## 7      7     16   20  81.462 Female
## 8      8     21   55  75.820 Female
## 9      9     25   50  69.372 Female
## 10    10     18   40  82.268 Female
## 11    11     18   45  79.044   Male
## 12    12     16   85  80.656   Male
## 13    13     13   70  70.178   Male
## 14    14     18   50  75.014 Female
## 15    15     98   95  34.714   Male
## 16    16      1   70  95.164   Male
## 17    17     14   95  75.820   Male
## 18    18     29   95  79.044 Female
## 19    19      4   50  91.134 Female
## 20    20     23   60  64.536   Male
## 21    21     14   80  80.656   Male
## 22    22     12   75  77.432   Male
## 23    23     22   85  65.342 Female
## 24    24     84   90   0.056 Female
## 25    25     23   30  71.790 Female
## 26    26     26   60  81.462 Female
## 27    27     24   75  63.730   Male
## 28    28     72   75  27.460 Female
## 29    29     37   27  73.402 Female
## 30    30     10   20  89.522   Male
## 31    31      3   75  89.522 Female
## 32    32     36   90  75.014 Female
## 33    33     43   60  43.580   Male
## 34    34     19   30  82.268   Male
## 35    35     12   80  79.044   Male
## 36    36      9   10  79.044 Female
## 37    37     72   85  37.132   Male
## 38    38     10    7  81.462   Male
## 39    39     12    5  83.074 Female
## 40    40     30   85  50.834   Male
## 41    41     15   20  82.268   Male
## 42    42      8   45  78.238 Female
## 43    43     34   60  72.596   Male
## 44    44     22   70  74.208 Female
## 45    45     21   50  75.820 Female
## 46    46     27   25  70.984   Male
## 47    47      6   50  97.582   Male
## 48    48     18   40  67.760   Male
## 49    49      8   80  75.014   Male
## 50    50     19   50  73.402 Female
## 51    51      0   35  93.552 Female
## 52    52     52   80  58.894 Female
## 53    53     38   50  53.252 Female
## 54    54     19   49  84.686   Male
## 55    55     23   75  89.522 Female
## 56    56     11   25  71.790 Female
## 57    57     27   65  82.268   Male
## 58    58     17   80  69.372   Male
## 59    59     13   50  62.118   Male
## 60    60     42   70  68.566 Female
## 61    61      4   40  93.552   Male
## 62    62      8   80  84.686 Female
## 63    63      6   10  82.268   Male
## 64    64     11   20  81.462 Female
## 65    65      7   40  82.268   Male
## 66    66     15   40  91.134   Male
## 67    67      4   70  91.940 Female
## 68    68     28   52  86.298 Female
## 69    69     22   50  72.596   Male
## 70    70     29   60  63.730 Female
## 71    71      2   80  63.730   Male
## 72    72     16   60  71.790 Female
## 73    73     59   65  57.282   Male
## 74    74     10   15  84.686 Female
## 75    75     13   85  84.686   Male
## 76    76      8   20  77.432 Female
## 77    77      5   80  82.268 Female
## 78    78      2  100  10.000   Male
## 79    79     38  100  50.834 Female
## 80    80      4   80  87.910   Male
## 81    81     10   10  83.880   Male
## 82    82      6   70  84.686 Female
## 83    83     68  100  20.206 Female
## 84    84      8   70  87.104   Male
## 85    85      1   70  83.880 Female
## 86    86     14   65  67.760   Male
## 87    87     42   75  95.970 Female
## 88    88     13   85  62.118 Female
## 89    89      1   30  84.686   Male
## 90    90      3    5  92.746   Male
## 91    91      5   10  84.686 Female
## 92    92     12   90  83.074 Female
## 93    93     19   70  73.402   Male
## 94    94      2   20  87.910 Female
## 95    95     19   85  71.790   Male
## 96    96     11   35  86.298   Male
## 97    97     15   30  84.686 Female
## 98    98     23   70  75.820   Male
## 99    99     13   55  70.984 Female
## 100  100     14   75  78.238 Female
## 101  101      1    2  82.268   Male
## 102  102      9   40  79.044   Male
## 103  103     20   50  91.134 Female

Pearson-féle korrelációs együtthatók meghatározása. A változók páronkénti kapcsolatát tárjuk fel a Pearson-féle korrelációs együttható segítségével. A cor() függvény alkalmas az ún. korrelációs mátrixot meghatározására, amely a páronként vett korrelációs együtthatókat szolgáltatja. A korrelációs mátrix grafikus szemléltetésére a corrplot csomag corrplot() függvényét használjuk. Az lsr csomag correlate() függvényével a hipotézisvizsgálatokat is elvégezhetjük.

korr <- cor(d[, c("Revise", "Exam", "Anxiety")], method = "pearson", use = "complete.obs")
korr
##             Revise       Exam    Anxiety
## Revise   1.0000000  0.3967207 -0.7092493
## Exam     0.3967207  1.0000000 -0.4409934
## Anxiety -0.7092493 -0.4409934  1.0000000
library(corrplot)
corrplot(korr, type="upper", tl.col="black", tl.srt=45, addCoef.col = "black", method = "ellipse")

library(lsr)
correlate(d[, c("Revise", "Exam", "Anxiety")], test = T, corr.method = "pearson")
## 
## CORRELATIONS
## ============
## - correlation type:  pearson 
## - correlations shown only when both variables are numeric
## 
##         Revise   Exam Anxiety
## Revise       .  0.397  -0.709
## Exam     0.397      .  -0.441
## Anxiety -0.709 -0.441       .
## 
## 
## p-VALUES
## ========
## - total number of tests run:  3 
## - correction for multiple testing:  holm 
## 
##         Revise  Exam Anxiety
## Revise       . 0.000   0.000
## Exam     0.000     .   0.000
## Anxiety  0.000 0.000       .
## 
## 
## SAMPLE SIZES
## ============
## 
##         Revise Exam Anxiety
## Revise     103  103     103
## Exam       103  103     103
## Anxiety    103  103     103

A fenti outputból kiolvasható, hogy a vizsgával kapcsolatos szorongás növekedésével, csökken a vizsgán nyújtott teljesítmény (\(r=-0,441\); \(p<0,0001\)). A felkészülésre fordított idő növekedésével, a vizsgány nyújtott teljesítmény is nő (\(r=0,397\); \(p<0,0001\)). A felküszlésre fordított idő növekedésével, a vizsgával kapcsolatos szorongás csökken (\(r=-0,709\); \(p<0,0001\)).

Parciális Pearson-féle korrelációs együtthatók meghatározása. A parciális korrelációs együtthatókat a corpcor csomag cor2pcor() függvényével is meghatározhatjuk. Argumentumként a korrelációs együtthatót kell megadni. A grafikus ábrázolást most is a corplot() függvénnyel végezzük el. A parciális korrelációs együtthatókra vonatkozó hipotézisvizsgálatokat az Rcmdr csomag partial.cor() függvényével hajthatjuk végre.

korr <- cor(d[,c("Revise", "Exam", "Anxiety")], method = "pearson", use = "complete.obs")
library(corpcor)
p.korr <- cor2pcor(m = korr)
p.korr
##            [,1]       [,2]       [,3]
## [1,]  1.0000000  0.1326783 -0.6485301
## [2,]  0.1326783  1.0000000 -0.2466658
## [3,] -0.6485301 -0.2466658  1.0000000
library(corrplot)
corrplot(p.korr, type="upper", tl.col="black", tl.srt=45, addCoef.col = "black", method = "ellipse")

library(Rcmdr)
partial.cor(d[,c("Revise", "Exam", "Anxiety")], use="complete.obs", test=T)
## 
##  Partial correlations:
##           Revise     Exam  Anxiety
## Revise   0.00000  0.13268 -0.64853
## Exam     0.13268  0.00000 -0.24667
## Anxiety -0.64853 -0.24667  0.00000
## 
##  Number of observations: 103 
## 
##  Pairwise two-sided p-values:
##         Revise Exam   Anxiety
## Revise         0.1837 <.0001 
## Exam    0.1837        0.0124 
## Anxiety <.0001 0.0124        
## 
##  Adjusted p-values (Holm's method)
##         Revise Exam   Anxiety
## Revise         0.1837 <.0001 
## Exam    0.1837        0.0249 
## Anxiety <.0001 0.0249

A parciális korrelációs együtthatók két változó kapcsolatának erősségét méri, miközben figyelembe veszünk egy harmadik változót is.

6.3 Korrelációs együtthatók összehasonlítása

6.3.1 Példa: a szorongás és a vizsgán nyújtott teljesítmény férfiak és nők körében

library(cocor)
cocor.indep.groups(r1.jk = -.506, r2.hm = -0.381, n1 = 52, n2 = 51)
## 
##   Results of a comparison of two correlations based on independent groups
## 
## Comparison between r1.jk = -0.506 and r2.hm = -0.381
## Difference: r1.jk - r2.hm = -0.125
## Group sizes: n1 = 52, n2 = 51
## Null hypothesis: r1.jk is equal to r2.hm
## Alternative hypothesis: r1.jk is not equal to r2.hm (two-sided)
## Alpha: 0.05
## 
## fisher1925: Fisher's z (1925)
##   z = -0.7687, p-value = 0.4421
##   Null hypothesis retained
## 
## zou2007: Zou's (2007) confidence interval
##   95% confidence interval for r1.jk - r2.hm: -0.4430 0.1927
##   Null hypothesis retained (Interval includes 0)
cocor.dep.groups.overlap(r.jk = -0.441, r.jh = 0.397, r.kh = -0.709, n = 103)
## 
##   Results of a comparison of two overlapping correlations based on dependent groups
## 
## Comparison between r.jk = -0.441 and r.jh = 0.397
## Difference: r.jk - r.jh = -0.838
## Related correlation: r.kh = -0.709
## Group size: n = 103
## Null hypothesis: r.jk is equal to r.jh
## Alternative hypothesis: r.jk is not equal to r.jh (two-sided)
## Alpha: 0.05
## 
## pearson1898: Pearson and Filon's z (1898)
##   z = -5.6676, p-value = 0.0000
##   Null hypothesis rejected
## 
## hotelling1940: Hotelling's t (1940)
##   t = -5.0958, df = 100, p-value = 0.0000
##   Null hypothesis rejected
## 
## williams1959: Williams' t (1959)
##   t = -5.0881, df = 100, p-value = 0.0000
##   Null hypothesis rejected
## 
## olkin1967: Olkin's z (1967)
##   z = -5.6676, p-value = 0.0000
##   Null hypothesis rejected
## 
## dunn1969: Dunn and Clark's z (1969)
##   z = -4.9066, p-value = 0.0000
##   Null hypothesis rejected
## 
## hendrickson1970: Hendrickson, Stanley, and Hills' (1970) modification of Williams' t (1959)
##   t = -5.0682, df = 100, p-value = 0.0000
##   Null hypothesis rejected
## 
## steiger1980: Steiger's (1980) modification of Dunn and Clark's z (1969) using average correlations
##   z = -4.8330, p-value = 0.0000
##   Null hypothesis rejected
## 
## meng1992: Meng, Rosenthal, and Rubin's z (1992)
##   z = -4.8332, p-value = 0.0000
##   Null hypothesis rejected
##   95% confidence interval for r.jk - r.jh: -1.2559 -0.5312
##   Null hypothesis rejected (Interval does not include 0)
## 
## hittner2003: Hittner, May, and Silver's (2003) modification of Dunn and Clark's z (1969) using a backtransformed average Fisher's (1921) Z procedure
##   z = -4.8330, p-value = 0.0000
##   Null hypothesis rejected
## 
## zou2007: Zou's (2007) confidence interval
##   95% confidence interval for r.jk - r.jh: -1.1067 -0.5220
##   Null hypothesis rejected (Interval does not include 0)

6.4 Asszociációs mértékek

  • Somers-féle monotonitási együtthatók
  • Kendall-féle tau-b monotonitási együttható
  • Goodman–Kruskal-féle gamma
  • Kontingencia-együttható
  • Cramer-féle \(V\)
  • Phi kontingencia együttható
  • Yule-féle Q
  • Yule-féle Y
  • Goodman–Kruskal-féle lambda (\(\lambda\))
  • Közös információhányad
m <- matrix(c(5, 9, 7, 1, 4, 8, 11, 15, 3, 7, 22, 8), ncol = 4, byrow = T)
dimnames(m) <- list(Hajszin=c("Szőke", "Barna", "Fekete"), Szemszin=c("Kék", "Zöld", "Barna", "Fekete"))
m
##         Szemszin
## Hajszin  Kék Zöld Barna Fekete
##   Szőke    5    9     7      1
##   Barna    4    8    11     15
##   Fekete   3    7    22      8
library(DescTools)
Assocs(m)
##                        estimate  lwr.ci  upr.ci
## Phi Coeff.               0.4198       -       -
## Contingency Coeff.       0.3871       -       -
## Cramer V                 0.2968  0.0845  0.3989
## Goodman Kruskal Gamma    0.2561  0.0389  0.4733
## Kendall Tau-b            0.1799  0.0245  0.3353
## Stuart Tau-c             0.1830  0.0229  0.3431
## Somers D C|R             0.1885  0.0268  0.3502
## Somers D R|C             0.1717  0.0259  0.3175
## Pearson Correlation      0.2379  0.0435  0.4149
## Spearman Correlation     0.2158  0.0203  0.3955
## Lambda C|R               0.1000  0.0000  0.3008
## Lambda R|C               0.1833  0.0000  0.3857
## Lambda sym               0.1417  0.0000  0.3215
## Uncertainty Coeff. C|R   0.0688  0.0092  0.1284
## Uncertainty Coeff. R|C   0.0842  0.0116  0.1568
## Uncertainty Coeff. sym   0.0757  0.0103  0.1412
## Mutual Information       0.1297       -       -
library(vcd)
assocstats(x = m)
##                     X^2 df  P(> X^2)
## Likelihood Ratio 17.975  6 0.0062947
## Pearson          17.622  6 0.0072499
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.387 
## Cramer's V        : 0.297