Statisztikai Modellépítés5 perc olvasás

Mikor statisztikai modelleket kezdünk építeni, számos tényezőre kell odafigyelnünk. Ezek közül az első és egyben az egyik legfontosabb az, hogy milyen magyarázó változókat teszünk a modellünkbe. Mikor egy összetett kérdésre keresünk választ, akkor a tervezés során gondosan meg kell válogatnunk, hogy milyen változók bevonásával szeretnénk mérni az adott jelenséget. Erre természetesen leginkább akkor van lehetőségünk, ha mi magunk készítünk elő egy mintavételt vagy felmérést. Amennyiben azonban egy adatbázisból kinyert táblákkal dolgozunk, akkor viszont adottak a rendelkezésünkre álló magyarázó változók és csupán szelektációra van lehetőségünk. Mi most azt fogjuk jobban áttekinteni, hogy milyen technikák segítségével tudjuk is ezeket a magyarázóváltozókat szelektálni.

Mi a célunk ezzel?

Modellünk magyarázóváltozóinak szelektációjának két jellemző oka van:
1. Megbízhatóság

Ha minden létező magyarázó változót beleveszünk a modellünkbe, akkor a végén egy olyan modellünk lesz, amely nem megbízható és nem mindig úgy fog viselkedni, ahogy azt mi szeretnénk vagy gondoltuk volna. Ugyanis, ha túl sok magyarázó változót vonunk be a modellünkbe, akkor gyakran előfordulhat az, hogy teljesen irreleváns dolgokkal probáljuk előrejelezni egy adott változó értékét. Emellett egyre nagyobb problémát jelenthet az egyes magyarázóváltozók között fellépő multikollinearitás is.
2. Közérthetőség

Bár lehet, hogy a modell építése során nagyon célszerűnek tűnik bizonyos ismérvek bevonása modellünkbe, azonban mindenképpen ügyelnünk kell arra is, hogy modellünket nagy valószínűséggel valamilyen formában tovább kell tudnunk kommunikálnunk egy másik félnek, így az, hogy modellünk könnyen átlátható maradjon egy másik fontos elvárás.

Modellépítési technikák

A gyakorlatban használt technikák:

  1. All-in
  2. Backward Elimination
  3. Forward Selection
  4. Bidirectional Elimination
  5. Összes lehetséges modell vizsgálata
1. All-in

Az all-in technika nem jelent mást, mint hogy az összes rendelkezésre álló vagy az összes előre meghatározott ismérvet bevesszük a modellbe és ezeket felhasználva becsüljük meg az eredményváltozó értékét. Ahogy említettem ez a technika nem éppen a leginkább célrevezető, mert számos nehézség adódhat a feleslgesen bevont ismérvek miatt. Általában akkor használatos, ha már pontosan tudjuk, hogy milyen ismérvek irják le megfelelően a modellünket vagy ha előre meghatározták nekünk, hogy milyen ismérvek bevonásával építsük modellt.

2. Backward Elimination

A folyamat alapvetően 4 különböző lépésre bontható szét:

  1. Kiválasztunk egy olyan szignifikancia szintet, amely alapján eldöntjük, hogy a magyarázóváltozó benne maradjon a modellünkben vagy ne.
  2. Felépítjük a modellünket az összes rendelkezésünkre álló ismérv bevonásával (All-in)
  3. Megvizsgáljuk a legmagasabb p-értékkel rendelkező magyarázó változót. Ha a p-érték nagyobb, mint a kiválasztott szignifikancia szint, akkor a magyarázó változót elhagyjuk a modellünkből, ha pedig kisebb akkor nem tudjuk elhagyni és készen van a modellünk.
  4. Építünk egy új modellt az adott magyarázó változó nélkül, majd visszalépünk a harmadik pontra.
3. Forward Selection

Ez a technika a backward elimination-nel ellentétben nem elhagyja a nem szignifikáns magyarázóváltozókat, hanem pont fordítva. Lépései pedig:

  1. Kiválasztunk egy szignifikancia szintet, amelytől az ismérv bekerülhet a modellünkbe.
  2. Minden egyes ismérvvel készítünk egy kétváltozós lineáris regressziót, majd ezeket p-érték szerint növekvő sorrendbe rakjuk.
  3. Kiválasztjuk a legkisebb p-értékkel rendelkezőt, majd újra elkészítjük a regressziókat úgy, hogy a kiválasztott ismérvet megtartjuk és többi ismérvet bevonjuk a magyarázóváltozók közé.
  4. Ismét megvizsgáljuk az egyes magyarázó változókat és p-értékük és a szignifikancia szint alapján döntést hozunk. Ha a legkisebb p-érték kisebb, mint a szignifikancia szint, akkor a hármas lépésre ugrunk vissza, ha viszont nagyobb, akkor vissza kell lépnünk az előző modellre és azt kell megtartanunk.
4. Bidirectional Elimination

Ez a technika az előző kettő ötvözése, lépései pedig ebből adódóan:

  1. Jelen esetben is ki kell választanunk egy szignifikancia szintet, hogy el tudjuk dönteni, hogy egy ismérvet bevonjunk vagy elhagyjunk a modellből.
  2. Hajtsuk végre a Forward Selection következő lépését
  3. Hajtsuk végre Backward Elimination összes lépését
  4. Ha nincs egyetlen olyan ismérv se, amit be tudnánk vonni modellbe vagy el tudnánk hagyni a modellből, akkor a modellünk kész van.
5. Az összes lehetséges modell megvizsgálása
  1. Válasszuk ki a modellünk teljesítménymérőjét. (R-négyzet, Akaike kritérium stb.
  2. Készítsük el az összel lehetséges modellt. 2n db modell.
  3. Válasszuk ki azt a modellt, amely legjobb teljesítményt érte el.

Bár ez módszer igencsak egyszerű, arra viszont figyelnünk kell, hogy ez a igényli a legtöbb számítástechnikai erőforrást részünkről.

 

Gulácsy Dominik

About Dominik Gulácsy

Sophomore at Corvinus University of Budapest studying International Business who is motivated to use relevant academic knowledge to solve problems through optimisation. Dedicated to fully support the development of new business solutions in close collaboration with team members by IoT and data science applications. Gained experience in SQL and VBA but looking forward to learning more. A keen supporter of the circular economy.

View all posts by Dominik Gulácsy →

Leave a Reply

Your email address will not be published. Required fields are marked *