mvst

1.7.2 melléklet: Egyszerű lineáris regresszió (formális levezetés)

Az előzőekben láthattuk, hogy a legkisebb négyzetek elve lehetőséget a lineáris regressziós egyenlet együtthatóinak becslésére, ám semmit nem mond a becslés, a modell jóságáról. Éppen ezért szükség van egy másik megközelítésre is, amely ezt lehetővé teszi.

Mindenek előtt, ha az (X,Y) számpárral megadott Y függő változót X függvényeként becsüljük meg, akkor ezt a következőképpen modellezhetjük:

Y=f(X)+ε

ahol az ε random változó független X-től (gyakran hívják random zajnak, vagy hibának) és az átlaga nulla: ε ¯ =0. Egy fix X változó estén az Y függő változó ebben a modellben átlagosan f(X) -szel lesz egyenlő, mivel

E(Y|X)=E(f(X)+ε| X)=f(X)+E(ε| X)=f(X)+Eε=f(X)       (1.40. egyenlet)

és az f(X)=E(Y| X=x) -t a regressziós egyenletnek nevezzük.

A következőkben az egyszerű lineáris regressziós modellt fogjuk vizsgálni, amelyben a regressziós függvény lineáris, azaz   f(x)= b 0 + b 1 x , és az Y függő változót a következőképpen modellezhetjük (1.41. egyenlet):

Y=f(X)+ε= b 0 + b 1 X+ε       (1.41. egyenlet)

ahol ε hibáról (1.13. ábra) vagy random zajról feltételezzük, hogy normál eloszlású.

1.13. ábra.
1.13. ábra. A lineáris regressziós egyenlet hibája.

Tegyük fel, hogy adott egy   ( X 1 , Y 1 ),...,( X n , Y n ) sorozat, amelyet a fenti modell ír le:

Y i = b 0 + b 1 X i + ε i       (1.2. egyenlet)

és   ε 1 ,.., ε n azonos eloszlásúak   N(0, σ 2 ) . Van három ismeretlen paraméterünk b 0 b 1  és σ 2 - és szeretnénk egy becslést adni rájuk az adott minta alapján. Tekintsük úgy az   X 1 ,.., X n pontokra, mint amelyek fixek és nem véletlenszerűek, és foglalkozzunk a hibából ( ε i ) eredő véletlenséggel. Egy fix X i esetében az Y i eloszlása egyenlő   N(f( X i ), σ 2 ) -tel és a következő sűrűségfüggvény írja le:

f(y)= 1 2π σ e (yf (X) i ) ) 2 2 σ 2       (1.42. egyenlet)

és az    Y 1 ,.., Y n együttes valószínűségfüggvénye:

f( Y 1 ,..., Y n )= ( 1 2π σ ) n e 1 2 σ 2 i=1 n ( Y i f( X i ) ) 2 = ( 1 2π σ ) n e 1 2 σ 2 i=1 n ( Y i b 0 b 1 X i ) 2       (1.43. egyenlet)

Keressük meg a b 0 , b 1 , és σ 2 maximum valószínűségi becsléseit, amelyek maximalizálják ezt a valószínűségi függvényt. Először is, minden σ 2 -re minimalizálnunk kell a következő kifejezést

i=1 n ( Y i b 0 b 1 X i ) 2       (1.44. egyenlet)

b 0  és b 1 megfelelő megválasztásával, ami egyet jelent a legkisebb négyzetek egyenese megkeresésével, ezért a b 0  és b 1 maximum valószínűségi becslését a következő képlet mutatja:

b 0 = Y ¯ b 1 X ¯    és    b 1 = XY ¯ X ¯ Y ¯ X 2 ¯ X ¯ 2 .       (1.45 - 1.46. egyenlet)

Végül, hogy megkapjuk σ 2 maximum valószínűségi becslését, maximalizáljuk a valószínűséget σ 2 megfelelő megválasztásával és a következőket kapjuk (1.47. egyenlet):

σ 2 = 1 n i=1 n ( Y i b 0 b 1 X i ) 2 .       (1.47. egyenlet)

Az 1.1/B. táblázat értékeire már kiszámoltuk a paraméterbecsléseket, melyek a következők voltak:

b 0 =3,02   és    b 1 =0,63.
 
  b 0 + b 1 X i Y i b 0 b 1 X i ( Y i b 0 b 1 X i ) 2
  30,74 -0,74 0,55
  44,6 0,4 0,16
  59,09 0,91 0,83
  100,67 -0,67 0,45
  84,92 0,08 0
átlag: 64 0 0,4
 
  1.6. táblázat.  

Ezeket felhasználva kiszámolhatjuk   σ 2 -et. A hiányzó adatokat és a  értékét az 1.6. táblázat tartalmazza.  

σ 2 = 1 5 i=1 5 (elégedettség3,020,63*fizetés) 2 =0,4 .

Most számítsuk ki   b 0  és b 1   közös eloszlását. Mivel az X i -k fixek, ezért a becslések felírhatók az Y i -k lineáris kombinációiként. Mivel Y i -k normál eloszlásúak, így végeredményképpen   b 0  és b 1   is normál eloszlású lesz. Így csupán az átlagukat kell megkeresnünk. Először írjuk fel   b 1 -et az 1.48. egyenletben látható módon:

b 1 = XY ¯ X ¯ Y ¯ X 2 ¯ X ¯ 2 = 1 n ( X i X ¯ ) Y i X 2 ¯ X ¯ 2       (1.48. egyenlet)

Ekkor kiszámíthatjuk ennek a várható értékét (1.49. egyenlet):

E( b 1 )= ( X i X )E Y i n( X 2 ¯ X ¯ 2 ) = ( X i X ¯ )( b 0 + b 1 X i ) n( X 2 ¯ X ¯ 2 ) = b 0 ( X i X ¯ ) n( X 2 ¯ X ¯ 2 ) + b 1 X i ( X i X ¯ ) n( X 2 ¯ X ¯ 2 ) = b 1 n X 2 ¯ n X ¯ 2 n( X 2 ¯ X ¯ 2 ) = b 1       (1.49. egyenlet)

Ezért    b 1 torzítatlan becslése b 1 -nek.   Varianciáját a következőképpen számíthatjuk ki (1.50. egyenlet):

Var( b 1 )=Var( ( X i X ¯ ) Y i n( X 2 ¯ X ¯ 2 ) )= Var( ( X i X ¯ ) Y i n( X 2 ¯ X ¯ 2 ) ) = ( X i X ¯ n( X 2 ¯ X ¯ 2 ) ) 2 σ 2 = 1 n 2 ( X 2 ¯ X ¯ 2 ) 2 n( X 2 ¯ X ¯ 2 ) σ 2 = σ 2 n( X 2 ¯ X ¯ 2 )
      (1.50. egyenlet)

Ezért   b 1 ~N( b 1 , σ 2 n( X 2 ¯ X ¯ 2 ) . Ugyanezt az eljárást követve:

b 0 = Y b 1 X ¯ ~N( b 0 ,( 1 n + X ¯ 2 n( X 2 ¯ X ¯ 2 ) ) σ 2       (1.51. egyenlet)

és

Cov( b 0 , b 1 )= X ¯ σ 2 n( X 2 ¯ X ¯ 2 ) .      (1.52. egyenlet)

Mivel a szükséges adatokat már korábban kiszámoltuk (lásd 1.1/B, 1.4. és 1.5. táblázat), így esetünkben

Var( b 1 )= σ 2 n( X 2 ¯ X ¯ 2 ) = 0,4 5*(11027,6 96,8 2 ) =0,00005

Var( b 0 )= 1 n + X ¯ 2 n( X 2 ¯ X ¯ 2 ) = 1 5 + 96,8 2 5*(11027,6 96,8 2 ) =1,33

Cov( b 0 , b 1 )= X ¯ σ 2 n( X 2 ¯ X ¯ 2 ) = 96,8*0,4 5*(11027,6 96,8 2 ) =0,005

Ugyanezek a számítások az R segítségével a következőképpen néznek ki (1.45-1.47. R-forráskód, illetve R.eredmény).

0.4/(5*(11027.6-96.8^2))
1.45. R-forráskód

 [1] 4.826954e-05

1.45. R-ererdmény.

1/5+96.8^2/(5*(11027.6-96.8^2))
1.46. R-forráskód

 [1] 1.330743
1.46. R-ererdmény.

96.8*0.4/(5*(11027.6-96.8^2))
1.47. R-forráskód

 [1] 0.004672491
1.47. R-ererdmény.

Most vizsgáljuk meg a becslés sztenderd hibáját. Ahogy hiba van abban a becslésben, amikor X alapján Y-t becsüljük, ugyanúgy megjelennek a hibák akkor is, ha X-et becsüljük Y-ból. Hogy meghatározzuk ennek a hibának a nagyságát, a következő képletet alkalmazzuk:

σ X,Y = σ X 1 r XY 2       (1.53. egyenlet)

A    σ X,Y jelölés azt jelenti, hogy X-et becsüljük Y alapján. A fő különbség ezen képlet és az Y-t X alapján becsülő képlet között az, hogy   σ X helyett   σ Y szerepel benne:

σ Y,X = σ Y 1 r YX 2       (1.54. egyenlet)

Így a becslési hibákat az X skála variabilitásához igazítjuk.

A sztenderd hibát kiszámíthatjuk közvetlenül a nyers adatokból is:

σ Y,X = σ Y 1 r YX 2       (1.55. egyenlet)

ha a megfelelő adatokat behelyettesítjük, akkor a következő eredményt kapjuk:

σ X,Y = 1 5(52) *[ 5*55138 484 2 [5*36180484*320] 2 5*23750 320 2 ] =0,36

Ugyanez a számítás az R-rel elvégezve (1.48. R-forráskód, illetve R-eredmény):

((5*55138-484^2-(5*36180-484*320)^2/(5*23750-320^2))/15)^(-2)
1.48. R-forráskód

 [1] 0.365793
1.48. R-ererdmény.
   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.