mvst

1.5 Szegmentált regresszió-számítás

A szegmentált regressziós eljárást általában akkor használjuk, ha

  • egy folytonos függő és egy folytonos független változónk van;
  • tudjuk vagy feltételezzük, hogy a függő és a független változó közti kapcsolat karakterisztikája megváltozik, amikor a független változó egy bizonyos értéknél nagyobb értéket vesz fel.

Ezt a határértéket vagy szegmentáló értéket meghatározhatjuk valamilyen szakmai vagy logikai szempont szerint vagy éppen tapasztalat alapján. Tehát itt is, csakúgy, mint a kategorikus változóval végzett regressziónál, a minta két (vagy több) részre osztódik. Azonban a csoportosító elem nem egy külső - mondjuk úgy: újabb dimenziót képviselő - változó, mint előző példánkban a „nem”, sokkal inkább a független változó adataiban rejlő „töréspont”. Az eljárásnak akkor van értelme, ha a szegmentáló értékről van elképzelésünk, mivel ez az érték meghatározó szerepet játszik a regressziós egyenletben. A szegmentáló értékről információt adhat az adatok pontdiagramja. Ha a két változó közti összefüggés karakterisztikája többször változik jelentősen, több szegmentáló k érték lehet, melyek a független változót kettőnél több szegmensre osztják. Amikor szegmentált regresszió-számítást végzünk, feltételezzük, hogy a ponthalmazra több, egymásban folytatódó, eltérő meredekségű egyenes illeszthető.

Az eljárás abban hasonlít a csoportregresszióhoz, hogy itt is egymást metsző egyenesek közös egyenletét akarjuk felírni. Alapvetően az a cél, hogy megtudjuk, az egyenesek meredeksége mennyire tér el. Csakhogy előre meghatározzuk, k melyik értékénél, illetve értékeinél (ha kettőnél több szegmens van) kell lennie az egyenesek közös metszéspontjának úgy, hogy közben a lehető legjobban illeszkedjenek az adatok egy-egy szegmensére. Hogy célunkat elérjük, be kell csempésznünk a regressziós modellbe egy szegmentáló k értéket.

Nézzünk először egy olyan esetet, ahol több szegmentáló érték, így kettőnél több szegmens van. Ha minden szegmenst önálló egyenesként tekintünk, akkor külön-külön felírhatjuk az egyes szegmensek egyenletét. Ekkor az első szegmens egyenesének az egyenlete b 0  + b 1  * X i lesz, ahol b 0 az egyenes és az Y tengely metszéspontja, b 1 pedig az egyenes meredeksége. Ugyanígy a második szegmens egyenesének egyenlete b 2  + b 3  * X i lesz, a harmadik szegmens egyenesének egyenlete pedig b 4  + b 5  * X i   és így tovább. Így van több egyenesünk van - jelen esetben három -, amelyek metszik egymást, kivéve ha b 1  = b 3  = b 5 , ekkor ugyanis a három egyenes párhuzamos egymással; ám ebben az esetben nem beszélhetünk szegmensekről.

Ha az egyes szegmenseket önálló egyeneseknek tekintjük, akkor a szegmentáló értékeket ezen egyenesek metszéspontjai adják. Az első és a második szegmens egyeneseinek a metszéspontja az első szegmentáló érték, nevezzük k 1 -nek. A k 2 pedig a második szegmentáló érték, amely a második és a harmadik szegmens egyeneseinek metszéspontjánál található. Mindezeket a változókat az 1.10. ábra szemlélteti. Az első szegmens tehát az első szegmentáló érték előtti rész, vagyis ha X i   k 1 , a második szegmens a két szegmentáló érték közé esik, vagyis ha k 1  < X i    k 2 , a harmadik szegmens pedig a második szegmentáló értéken túl esik, vagyis ha X i  > k 2 .

1.10. ábra.
1.10. ábra. A szegmentált regressziós egyenes paraméterei és szegmentáló pontjai.

Megadtuk az egyes szegmensek egyenleteit és ezek metszéspontjait, vagyis a szegmentáló értékeket. Ezek után már csak azt kell meghatározni, mikor melyik szegmensről - vagy egyenesről - van szó, ezt pedig dummy változók segítségével tehetjük meg. Nevezzük el az első szegmens dummy változóját d 1 -nek, a második szegmensét d 2 -nek, a harmadik szegmensét pedig d 3 -nak. Ha d 1  = 1 , akkor az első szegmensről, ha d 2  = 1 , akkor a második szegmensről, és ha d 3  = 1 , akkor a harmadik szegmensről beszélünk. A három érték közül mindig pontosan egynek 1 az értéke, ez a szegmensek meghatározásából következik (a töréspontok természetesen két szegmenshez is tartoznak, hogy ezen értékeknél melyik - releváns - dummyt használjuk, az rajtunk múlik):

d 1  = 1 , ha X i   k 1
d 1  = 0 minden más esetben        

d 2  = 1 , ha k 1  < X i    k 2
d 2  = 0 minden más esetben    

d 3  = 1 , ha X i  > k 2
d 3  = 0 minden más esetben.

Mindezek után próbáljuk meg összeállítani a szegmentált regresszió egyenletét.

Az első szegmens egyenlete b 0  + b 1  * X i , dummy változója pedig d 1 , így az első egyenlete kibővítve a következő (1.19. egyenlet):

Y X i    k 1  = d 1  * (b 0  + b 1  * X i )       (1.19. egyenlet)

A második szegmens egyenlete b 2  + b 3  * X i , dummy változója pedig d 2 , így a második szakasz kibővített egyenlete (1.20. egyenlet):

Y k 1  < X i    k 2  = d 2  * (b 2  + b 3  * X i )       (1.20. egyenlet)

A regressziós egyenlet pedig az első két szakaszra így alakul (1.21. egyenlet):

Y X i    k 2  = d 1  * (b 0  + b 1  * X i ) + d 2  * (b 2  + b 3  * X i )       (1.21. egyenlet)

Végül a harmadik szakasz egyenlete b 4  + b 5  * X i , dummy változója pedig d 3 , tehát a harmadik szegmens kibővített egyenlete (1.22. egyenlet):

Y X i  > k 2  = d 3  * (b 4  + b 5  * X i )       (1.22. egyenlet)

A három szegmenssel rendelkező regressziós egyenlet teljes alakja (1.23. egyenlet):

Y = d 1  * (b 0  + b 1  * X i ) + d 2  * (b 2  + b 3  * X i ) + d 3  * (b 4  + b 5  * X i )       (1.23. egyenlet)

Ebben az egyenletben összesen hat paraméter szerepel. Eddig azonban még nem vettük figyelembe azt, hogy a szakaszok folytonosan következnek egymás után, vagyis a töréspontok két szegmenshez is tartoznak, azaz ha behelyettesítjük őket a megfelelő két szegmens egyenletébe, akkor mindkét egyenlet ugyanazt az értéket adja. Vizsgáljuk meg, az első töréspontra mindez miképpen alakul.

Az első töréspont ( k 1 ) az első és a második szegmenshez tartozik. Ezért ennél az értéknél a két egyenlet egyenlő egymással (1.24. egyenlet):

b 0  + b 1  * k 1  = b 2  + b 3  * k 1       (1.24. egyenlet)

Kissé átrendezve és összevonva (1.25. egyenlet):

b 2  = b 0  + (b 1  - b 3 ) * k 1       (1.25. egyenlet)

A második töréspont a második és a harmadik szegmenshez tartozik, ezért e két szegmens egyenlete k 2 -t behelyettesítve egyenlő egymással (1.26. egyenlet):

b 2  + b 3  * k 2  = b 4  + b 5  * k 2       (1.26. egyenlet)

Kissé átrendezve és összevonva (1.27. egyenlet):

b 4  = b 2  + (b 3  - b 5 ) * k 2       (1.27. egyenlet)

Majd b 2 -t behelyettesítve (1.28. egyenlet):

b 4  = b 0  + (b 1  - b 3 ) * k 1  + (b 3  - b 5 ) * k 2       (1.28. egyenlet)

Az egyenletet pedig kevesebb paraméterrel a következő módon írhatjuk fel (1.29. egyenlet):

Y = d 1  * (b 0  + b 1  * X i ) + d 2  * [b 0  + (b 1  - b 3 ) * k 1  + b 3  * X i ] + + d 3  * [b 0  + (b 1  - b 3 ) * k 1  + (b 3  - b 5 ) * k 2  + b 5  * X i ] = = b 0  * (d 1 + d 2  + d 3 ) + b 1  * (d 1 * X i  + d 2  * k 1  + d 3  * k 1 ) +  + b 3  * (-d 2  * k 1  + d 2  * X i  - d 3  * k 1  + d 3  * k 2 ) + b 5  * (-d 3  * k 2  + d 3  * X i )
      (1.29. egyenlet)

Ezzel megkaptuk a három szegmenssel rendelkező regresszió egyenletét. De ugyanezen elv alapján tetszőleges számú szegmensre felírható az egyenlet.

   
 
Münnich Á., Nagy Á., Abari K. (2006). Többváltozós statisztika pszichológus hallgatók számára. v1.1.