1.5 Szegmentált regresszió-számítás
A szegmentált regressziós eljárást általában akkor használjuk, ha
- egy folytonos függő és egy folytonos független változónk van;
- tudjuk vagy feltételezzük, hogy a függő és a független változó közti kapcsolat karakterisztikája megváltozik, amikor a független változó egy bizonyos értéknél nagyobb értéket vesz fel.
Ezt a határértéket vagy szegmentáló értéket meghatározhatjuk valamilyen szakmai vagy logikai szempont szerint vagy éppen tapasztalat alapján. Tehát itt is, csakúgy, mint a kategorikus változóval végzett regressziónál, a minta két (vagy több) részre osztódik. Azonban a csoportosító elem nem egy külső - mondjuk úgy: újabb dimenziót képviselő - változó, mint előző példánkban a „nem”, sokkal inkább a független változó adataiban rejlő „töréspont”. Az eljárásnak akkor van értelme, ha a szegmentáló értékről van elképzelésünk, mivel ez az érték meghatározó szerepet játszik a regressziós egyenletben. A szegmentáló értékről információt adhat az adatok pontdiagramja. Ha a két változó közti összefüggés karakterisztikája többször változik jelentősen, több szegmentáló k érték lehet, melyek a független változót kettőnél több szegmensre osztják. Amikor szegmentált regresszió-számítást végzünk, feltételezzük, hogy a ponthalmazra több, egymásban folytatódó, eltérő meredekségű egyenes illeszthető.
Az eljárás abban hasonlít a csoportregresszióhoz, hogy itt is egymást metsző egyenesek közös egyenletét akarjuk felírni. Alapvetően az a cél, hogy megtudjuk, az egyenesek meredeksége mennyire tér el. Csakhogy előre meghatározzuk, k melyik értékénél, illetve értékeinél (ha kettőnél több szegmens van) kell lennie az egyenesek közös metszéspontjának úgy, hogy közben a lehető legjobban illeszkedjenek az adatok egy-egy szegmensére. Hogy célunkat elérjük, be kell csempésznünk a regressziós modellbe egy szegmentáló k értéket.
Nézzünk először egy olyan esetet, ahol több szegmentáló érték, így kettőnél több szegmens van. Ha minden szegmenst önálló egyenesként tekintünk, akkor külön-külön felírhatjuk az egyes szegmensek egyenletét. Ekkor az első szegmens egyenesének az egyenlete
lesz, ahol
az egyenes és az Y tengely metszéspontja,
pedig az egyenes meredeksége. Ugyanígy a második szegmens egyenesének egyenlete
lesz, a harmadik szegmens egyenesének egyenlete pedig
és így tovább. Így van több egyenesünk van - jelen esetben három -, amelyek metszik egymást, kivéve ha
, ekkor ugyanis a három egyenes párhuzamos egymással; ám ebben az esetben nem beszélhetünk szegmensekről.
Ha az egyes szegmenseket önálló egyeneseknek tekintjük, akkor a szegmentáló értékeket ezen egyenesek metszéspontjai adják. Az első és a második szegmens egyeneseinek a metszéspontja az első szegmentáló érték, nevezzük
-nek. A
pedig a második szegmentáló érték, amely a második és a harmadik szegmens egyeneseinek metszéspontjánál található. Mindezeket a változókat az 1.10. ábra szemlélteti. Az első szegmens tehát az első szegmentáló érték előtti rész, vagyis ha
, a második szegmens a két szegmentáló érték közé esik, vagyis ha
, a harmadik szegmens pedig a második szegmentáló értéken túl esik, vagyis ha
.
|
1.10. ábra. A szegmentált regressziós egyenes paraméterei és szegmentáló pontjai.
|
Megadtuk az egyes szegmensek egyenleteit és ezek metszéspontjait, vagyis a szegmentáló értékeket. Ezek után már csak azt kell meghatározni, mikor melyik szegmensről - vagy egyenesről - van szó, ezt pedig dummy változók segítségével tehetjük meg. Nevezzük el az első szegmens dummy változóját
-nek, a második szegmensét
-nek, a harmadik szegmensét pedig
-nak. Ha
, akkor az első szegmensről, ha
, akkor a második szegmensről, és ha
, akkor a harmadik szegmensről beszélünk. A három érték közül mindig pontosan egynek 1 az értéke, ez a szegmensek meghatározásából következik (a töréspontok természetesen két szegmenshez is tartoznak, hogy ezen értékeknél melyik - releváns - dummyt használjuk, az rajtunk múlik):
, ha
minden más esetben
, ha
minden más esetben
, ha
minden más esetben.
Mindezek után próbáljuk meg összeállítani a szegmentált regresszió egyenletét.
Az első szegmens egyenlete
, dummy változója pedig
, így az első egyenlete kibővítve a következő (1.19. egyenlet):
(1.19. egyenlet)
A második szegmens egyenlete
, dummy változója pedig
, így a második szakasz kibővített egyenlete (1.20. egyenlet):
(1.20. egyenlet)
A regressziós egyenlet pedig az első két szakaszra így alakul (1.21. egyenlet):
(1.21. egyenlet)
Végül a harmadik szakasz egyenlete
, dummy változója pedig
, tehát a harmadik szegmens kibővített egyenlete (1.22. egyenlet):
(1.22. egyenlet)
A három szegmenssel rendelkező regressziós egyenlet teljes alakja (1.23. egyenlet):
(1.23. egyenlet)
Ebben az egyenletben összesen hat paraméter szerepel. Eddig azonban még nem vettük figyelembe azt, hogy a szakaszok folytonosan következnek egymás után, vagyis a töréspontok két szegmenshez is tartoznak, azaz ha behelyettesítjük őket a megfelelő két szegmens egyenletébe, akkor mindkét egyenlet ugyanazt az értéket adja. Vizsgáljuk meg, az első töréspontra mindez miképpen alakul.
Az első töréspont (
) az első és a második szegmenshez tartozik. Ezért ennél az értéknél a két egyenlet egyenlő egymással (1.24. egyenlet):
(1.24. egyenlet)
Kissé átrendezve és összevonva (1.25. egyenlet):
(1.25. egyenlet)
A második töréspont a második és a harmadik szegmenshez tartozik, ezért e két szegmens egyenlete
-t behelyettesítve egyenlő egymással (1.26. egyenlet):
(1.26. egyenlet)
Kissé átrendezve és összevonva (1.27. egyenlet):
(1.27. egyenlet)
Majd
-t behelyettesítve (1.28. egyenlet):
(1.28. egyenlet)
Az egyenletet pedig kevesebb paraméterrel a következő módon írhatjuk fel (1.29. egyenlet):
(1.29. egyenlet)
Ezzel megkaptuk a három szegmenssel rendelkező regresszió egyenletét. De ugyanezen elv alapján tetszőleges számú szegmensre felírható az egyenlet.
|