1.7.2 melléklet: Egyszerű lineáris regresszió (formális levezetés)
Az előzőekben láthattuk, hogy a legkisebb négyzetek elve lehetőséget a lineáris regressziós egyenlet együtthatóinak becslésére, ám semmit nem mond a becslés, a modell jóságáról. Éppen ezért szükség van egy másik megközelítésre is, amely ezt lehetővé teszi.
Mindenek előtt, ha az (X,Y) számpárral megadott Y függő változót X függvényeként becsüljük meg, akkor ezt a következőképpen modellezhetjük:
ahol az ε random változó független X-től (gyakran hívják random zajnak, vagy hibának) és az átlaga nulla:
=0. Egy fix X változó estén az Y függő változó ebben a modellben átlagosan
-szel lesz egyenlő, mivel
(1.40. egyenlet)
és az
-t a regressziós egyenletnek nevezzük.
A következőkben az egyszerű lineáris regressziós modellt fogjuk vizsgálni, amelyben a regressziós függvény lineáris, azaz
, és az Y függő változót a következőképpen modellezhetjük (1.41. egyenlet):
(1.41. egyenlet)
ahol ε hibáról (1.13. ábra) vagy random zajról feltételezzük, hogy normál eloszlású.
|
1.13. ábra. A lineáris regressziós egyenlet hibája.
|
Tegyük fel, hogy adott egy
sorozat, amelyet a fenti modell ír le:
(1.2. egyenlet)
és
azonos eloszlásúak
. Van három ismeretlen paraméterünk
,
és
- és szeretnénk egy becslést adni rájuk az adott minta alapján. Tekintsük úgy az
pontokra, mint amelyek fixek és nem véletlenszerűek, és foglalkozzunk a hibából
() eredő véletlenséggel. Egy fix
esetében az
eloszlása egyenlő
-tel és a következő sűrűségfüggvény írja le:
(1.42. egyenlet)
és az
együttes valószínűségfüggvénye:
(1.43. egyenlet)
Keressük meg a
,
, és
maximum valószínűségi becsléseit, amelyek maximalizálják ezt a valószínűségi függvényt. Először is, minden
-re minimalizálnunk kell a következő kifejezést
(1.44. egyenlet)
és
megfelelő megválasztásával, ami egyet jelent a legkisebb négyzetek egyenese megkeresésével, ezért a
és
maximum valószínűségi becslését a következő képlet mutatja:
(1.45 - 1.46. egyenlet)
Végül, hogy megkapjuk
maximum valószínűségi becslését, maximalizáljuk a valószínűséget
megfelelő megválasztásával és a következőket kapjuk (1.47. egyenlet):
(1.47. egyenlet)
Az 1.1/B. táblázat értékeire már kiszámoltuk a paraméterbecsléseket, melyek a következők voltak:
|
|
|
30,74 |
-0,74 |
0,55 |
|
44,6 |
0,4 |
0,16 |
|
59,09 |
0,91 |
0,83 |
|
100,67 |
-0,67 |
0,45 |
|
84,92 |
0,08 |
0 |
64 |
0 |
0,4 |
|
|
|
1.6. táblázat. |
|
Ezeket felhasználva kiszámolhatjuk
-et. A hiányzó adatokat és a értékét az 1.6. táblázat tartalmazza.
Most számítsuk ki
és
közös eloszlását. Mivel az
-k fixek, ezért a becslések felírhatók az
-k lineáris kombinációiként. Mivel
-k normál eloszlásúak, így végeredményképpen
és
is normál eloszlású lesz. Így csupán az átlagukat kell megkeresnünk. Először írjuk fel
-et az 1.48. egyenletben látható módon:
(1.48. egyenlet)
Ekkor kiszámíthatjuk ennek a várható értékét (1.49. egyenlet):
(1.49. egyenlet)
Ezért
torzítatlan becslése
-nek. Varianciáját a következőképpen számíthatjuk ki (1.50. egyenlet):
(1.50. egyenlet)
Ezért
. Ugyanezt az eljárást követve:
(1.51. egyenlet)
és
. (1.52. egyenlet)
Mivel a szükséges adatokat már korábban kiszámoltuk (lásd 1.1/B, 1.4. és 1.5. táblázat), így esetünkben
Ugyanezek a számítások az R segítségével a következőképpen néznek ki (1.45-1.47. R-forráskód, illetve R.eredmény).
1/5+96.8^2/(5*(11027.6-96.8^2))
|
|
1.46. R-forráskód
|
96.8*0.4/(5*(11027.6-96.8^2))
|
|
1.47. R-forráskód
|
Most vizsgáljuk meg a becslés sztenderd hibáját. Ahogy hiba van abban a becslésben, amikor X alapján Y-t becsüljük, ugyanúgy megjelennek a hibák akkor is, ha X-et becsüljük Y-ból. Hogy meghatározzuk ennek a hibának a nagyságát, a következő képletet alkalmazzuk:
(1.53. egyenlet)
A
jelölés azt jelenti, hogy X-et becsüljük Y alapján. A fő különbség ezen képlet és az Y-t X alapján becsülő képlet között az, hogy
helyett
szerepel benne:
(1.54. egyenlet)
Így a becslési hibákat az X skála variabilitásához igazítjuk.
A sztenderd hibát kiszámíthatjuk közvetlenül a nyers adatokból is:
(1.55. egyenlet)
ha a megfelelő adatokat behelyettesítjük, akkor a következő eredményt kapjuk:
Ugyanez a számítás az R-rel elvégezve (1.48. R-forráskód, illetve R-eredmény):
((5*55138-484^2-(5*36180-484*320)^2/(5*23750-320^2))/15)^(-2)
|
|
1.48. R-forráskód
|
|