1.3.6 A modell érvényességének tesztelése: az F-statisztika
Többszörös lineáris regresszió esetén szeretnénk megbecsülni, hogy átlagosan milyen jól magyarázzák az
...
független változók az Y függő változót. Másképp fogalmazva, jobb becslést tudunk-e adni Y-ra a függő változók ismeretében, mint anélkül? Ebből következik, hogy a hipotézisek a regressziós együtthatókra a következőképpen néznek ki:
:
=
= ... =
= 0
: nem minden
nulla
Vagyis ha van két független változó, mint az 1.2. táblázat adatai esetében, akkor a hipotézisek a következőképpen néznek ki:
:
=
= 0
:
vagy
nem nulla
Ha a
hipotézis teljesül, akkor a modell semmilyen bejósló erővel nem bír. A hipotézis tesztelésére a variancia-analízis alkalmas. Az
arány jól mutatja, hogy a minta mennyire támogatja a
hipotézist. A pontos képlet a következőképpen fest:
(1.15. egyenlet)
Az R program a lineáris regresszió futtatásakor automatikusan számít F-statisztikát is. De áttekinthetőbb táblázatot kaphatunk, ha kérünk egy külön variancia-analízis számítást a lineáris regressziós modellre (1.30. R-forráskód). Az adatokat az 1.19. R-forráskód rögzítette.
modell<-lm(elegedettseg~eletkor+fizetes)
anova<-anova(modell)
print(anova, digits=3)
|
|
1.30. R-forráskód
|
Analysis of Variance Table
Response: elegedettseg
Df Sum Sq Mean Sq F value Pr(>F)
eletkor 1 153 153 237 0.00420 **
fizetes 1 2231 2231 3444 0.00029 ***
Residuals 2 1 1
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
|
|
1.30. R-eredmény. Anova táblázat.
|
Az 1.30. R-eredmény alapján látszik, hogy a regressziós modell tartható, hiszen az F-statisztika („F-value) értéke szignifikáns (p<0,05). Ugyanezen az R-eredményen még látható az egyes variancia-forrásokhoz tartozó értékek négyzetösszege („Sum Sq”), illetve ezek átlaga („Mean Sq”).
|