mvst

1.7 Mellékletek
  1.7.1 melléklet. Legkisebb négyzetek elvén alapuló lineáris regresszió

Tegyük fel, hogy van egy sor megfigyelésünk

(X 1 , Y 1 ) , (X 2 , Y 2 )...,  (X n , Y n )

Ahol minden egyes megfigyelés egy valós számpár. Tegyük fel, hogy Y változót szeretnénk becsülni X függvényében, mert úgy véljük, hogy valamilyen kapcsolat van X és Y között. Például Y-t megközelíthetjük X egy függvényeként, azaz Yf(X) . Tekintsük a legegyszerűbb esetet, amikor f(X) lineáris kombinációja X-nek:

y= b 0 + b 1 x       (1.1. egyenlet)

Természetesen azt az egyenest szeretnénk megtalálni, amelyik a legjobban illeszkedik az adatainkra, és az illeszkedés minőségét több módon is meg lehet határozni. A legelterjedtebb megközelítés szerint azt mérjük, hogy  hogyan közelíti meg Y i -t a  négyzetes különbséggel mérve, ami azt jelenti, hogy a megközelítés minőségét globálisan, a veszteség-függvénnyel mérjük (1.30. egyenlet):

L= i=1 n ( Y i Ténylegesérték ( b 0 + b 1 X i Becsültérték ) ) 2 b 0 és b 1 megfelelőmegválasztásávalminimalizálhatjuk  (1.30. egyenlet)

A függvényt minimalizálni szeretnénk a b 0  és b 1 paraméterek minden lehetséges értékeinek figyelembevételével. Az egyenest, ami minimalizálja ezt a veszteséget legkisebb négyzetek egyenesének hívjuk. A kritikus pontok megtaláláshoz a következőképpen írjuk fel (1.31. egyenlet):

L b 0 = i=1 n 2( Y i ( b 0 + b 1 X i ))=0       (1.31. egyenlet)
L b 1 = i=1 n 2( Y i ( b 0 + b 1 X i )) X i =0       (1.32. egyenlet)

Ha bevezetjük a következő jelöléseket (1.33. egyenlet):

X ¯ = 1 n X i ,  Y ¯ = 1 n Y i ,  X 2 ¯ = 1 n X i 2 ,  XY ¯ = 1 n X i Y i       (1.33. egyenlet)

akkor a kritikus pontot a követezőképpen írhatjuk át:

b 0 + b 1 X ¯ = Y ¯   és   b 0 X ¯ + b 1 X 2 ¯ = XY ¯

ebből   b 0 -t és b 1 -et kifejezve:

b 1 = XY ¯ X ¯ Y ¯ X 2 ¯ X ¯ 2     és     b 0 = Y ¯ b 1 X ¯       (1.34 - 1.35. egyenlet)

Eddig csak egy függő és egy független változóval dolgoztunk, de ha több változót is bevonunk, és minden egyes   X i -t egy   X i =( X i1 ,..., X ik ) k dimenziós vektornak tekintünk, akkor megkísérelhetjük   Y i -t   X i koordinátáinak lineáris kombinációjaként megközelíteni (1.36. egyenlet):

Y i f( X i )= b 0 + b 1 X i1 +...+ b k X ik       (1.36. egyenlet)

Ebben az esetben a négyzetes különbségeket, veszteségeket is minimalizálhatjuk, ahogyan az az 1.37. egyenleten is látszik:

L= ( Y i ( b 0 + b 1 X i1 +...+ b k X ik ) ) 2 b 0 ,b 1 ,..., b k megfelelőmegválasztásávalminimalizálhatjuk (1.37. egyenlet)

ha vesszük a deriváltjaikat és megoldjuk a lineáris egyenletrendszert, hogy megtaláljuk a b 0   , b 1 ...  , b k paramétereket.

Nézzük meg most mindezt egy konkrét példán, egy kisebb adatbázis segítségével Az adatokat az 1/B. táblázat tartalmazza.

A megfigyelésünkhöz tartozó  (X i , Y i )  számpárok most a következők:

(44;30) (66;45) (89;60) (155;100) (130;85)

És az elégedettség= b 0 + b 1 fizetés    egyenlet együtthatóit szeretnénk kiszámolni. Tudjuk, hogy            

b 1 = XY ¯ X ¯ Y ¯ X 2 ¯ X ¯ 2    és    b 0 = Y ¯ b 1 X ¯       (1.38 - 1.39. egyenlet)

Vagyis ki kell még számolnunk a hiányzó értékeket, melyeket az 1.5. táblázat foglal össze.                     

 
  Xy X-négyzet
  1320 1936
  2970 4356
  5340 7921
  15500 24025
  11050 16900
átlag: 7236 11027,6
 
  1.5. táblázat.  

Ekkor a megfelelő értékeket behelyettesítve a képletbe és kiszámíthatjuk értéküket az R-segítségével (1.43-1.44. R-forráskód, illetve R-eredmény):

b 1 = 723696,8*64 11027,6 96,8 2 =0,628   és    b 0 =640,628*96,8=3,2

(7236-96.8*64)/(11027.6-96.8^2)
1.43. R-forráskód

 [1] 0.627986
1.43. R-ererdmény.

64-0.628*96.8
1.44. R-forráskód

 [1] 3.2096
1.44. R-ererdmény.

Vagyis a két együttható értéke b 1 =0,628 és b 0 =3,2.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.