1.7 Mellékletek 1.7.1 melléklet. Legkisebb négyzetek elvén alapuló lineáris regresszió
Tegyük fel, hogy van egy sor megfigyelésünk
Ahol minden egyes megfigyelés egy valós számpár. Tegyük fel, hogy Y változót szeretnénk becsülni X függvényében, mert úgy véljük, hogy valamilyen kapcsolat van X és Y között. Például Y-t megközelíthetjük X egy függvényeként, azaz
. Tekintsük a legegyszerűbb esetet, amikor f(X) lineáris kombinációja X-nek:
(1.1. egyenlet)
Természetesen azt az egyenest szeretnénk megtalálni, amelyik a legjobban illeszkedik az adatainkra, és az illeszkedés minőségét több módon is meg lehet határozni. A legelterjedtebb megközelítés szerint azt mérjük, hogy hogyan közelíti meg
-t a négyzetes különbséggel mérve, ami azt jelenti, hogy a megközelítés minőségét globálisan, a veszteség-függvénnyel mérjük (1.30. egyenlet):
(1.30. egyenlet)
A függvényt minimalizálni szeretnénk a
és
paraméterek minden lehetséges értékeinek figyelembevételével. Az egyenest, ami minimalizálja ezt a veszteséget legkisebb négyzetek egyenesének hívjuk. A kritikus pontok megtaláláshoz a következőképpen írjuk fel (1.31. egyenlet):
(1.31. egyenlet)
(1.32. egyenlet)
Ha bevezetjük a következő jelöléseket (1.33. egyenlet):
(1.33. egyenlet)
akkor a kritikus pontot a követezőképpen írhatjuk át:
ebből
-t és
-et kifejezve:
(1.34 - 1.35. egyenlet)
Eddig csak egy függő és egy független változóval dolgoztunk, de ha több változót is bevonunk, és minden egyes
-t egy
k dimenziós vektornak tekintünk, akkor megkísérelhetjük
-t
koordinátáinak lineáris kombinációjaként megközelíteni (1.36. egyenlet):
(1.36. egyenlet)
Ebben az esetben a négyzetes különbségeket, veszteségeket is minimalizálhatjuk, ahogyan az az 1.37. egyenleten is látszik:
(1.37. egyenlet)
ha vesszük a deriváltjaikat és megoldjuk a lineáris egyenletrendszert, hogy megtaláljuk a
paramétereket.
Nézzük meg most mindezt egy konkrét példán, egy kisebb adatbázis segítségével Az adatokat az 1/B. táblázat tartalmazza.
A megfigyelésünkhöz tartozó számpárok most a következők:
(44;30) (66;45) (89;60) (155;100) (130;85)
És az
egyenlet együtthatóit szeretnénk kiszámolni. Tudjuk, hogy
(1.38 - 1.39. egyenlet)
Vagyis ki kell még számolnunk a hiányzó értékeket, melyeket az 1.5. táblázat foglal össze.
|
|
|
1320 |
1936 |
|
2970 |
4356 |
|
5340 |
7921 |
|
15500 |
24025 |
|
11050 |
16900 |
7236 |
11027,6 |
|
|
|
1.5. táblázat. |
|
Ekkor a megfelelő értékeket behelyettesítve a képletbe és kiszámíthatjuk értéküket az R-segítségével (1.43-1.44. R-forráskód, illetve R-eredmény):
(7236-96.8*64)/(11027.6-96.8^2)
|
|
1.43. R-forráskód
|
Vagyis a két együttható értéke
=0,628 és
=3,2.
|