A/B tesztelés done right: gyakoriságon alapuló megközelítéstől a Bayes-i módszertanig3 perc olvasás

A Mailchimp A/B tesztelő alkalmazásán próbáltam körbejárni, hogy mi lehet a módszertanja egy emailküldő szolgáltatónak a jobban teljesítő kampány kiválasztására, de erre nem kaptunk választ.

Alapvetően kétféle megközelítés van. Az egyik a hagyományos gyakoriságon alapuló módszertan, a másik pedig az ún. bayesi. A cikk végére remélem, hogy mindenki neki fog tudni kezdeni egy A/B teszt felállításának és kiértékelésének.

Az A/B teszt hipotézisvizsgálata a gyakoriságon alapuló módszertannal a következő:

Példa kiértékelése 95%-os szignifikancia szint és 90% erejű próba mellett:

Elsőfajú hiba: 5% a feltételes valószínűsége annak, hogy hibásan elutasítjuk azt az állításunkat, hogy a CTR = 3%, miközben az tényleg 3%.

Másodfajú hiba: 10% a feltételes valószínűsége annak, hogy nem utasítjuk el azt az állításunkat, hogy a CTR = 3%, miközben az tényleg nem annyi.

A statisztikai próba ereje a másodfajú hiba ellenkezője, annak a valószínűsége, hogy helyesen elutasítjuk azt az állításunkat, hogy CTR = 3%, miközben tényleg nem annyi.

Ha ez még nem zavart volna mindenkit eléggé össze, van még egy jó pár dolog, amit a hipotézis vizsgálat nem mond meg nekünk:

  • A teszt nem mondja meg nekünk, hogy az eredmény mekkora valószínűséggel lett pusztán a véletlen műve
  • Ha elutasítjuk a H0 hipotézisünket α = 5% mellett, az nem azt jelenti, hogy mi 95%-ban biztosak lehetünk, hogy az alternatív hipotézis igaz
  • Attól még, hogy nem utasítottuk el a null hipotézisünket, nem jelenti azt, hogy az igaz lenne
  • Ha a statisztikai próba ereje 80% és nem utasítjuk el a null hipotézist, akkor ez nem azt jelenti, hogy annak a valószínűsége, hogy a null hipotézis igaz, 20%
  • Ha a statisztikai próba ereje 80% és elutasítjuk a null hipotézist, akkor ez nem azt jelenti, hogy annak a valószínűsége, hogy az alternatív hipotézis igaz, 80%

A p-érték

A p-érték megadja annak a valószínűségét, hogy mekkora eséllyel igaz a null hipotézis.

Van viszont probléma a p-értékkel. A konverziós rátákat tesztelve szimulációkat futtattunk le és megnéztük, hogy hogyan változik a p-érték az mintaelemszám növekedésével.

  1. Amikor a teszt idővel szignifikánssá válik

  • ebben az esetben a teszt szignifkáns lesz és az is marad kb. 5500-as elemszámnál, szépen bemegy az 5%-os küszöb alá
  • ez nem jelenti azt, hogy ez mindig így lesz

2. Esetek, amikor nem az történik, amit várnánk

  • a hatalmas elemszám nem jelenti azt, hogy szignifikáns eredményt fogsz kapni
  • a p-érték idővel ismét kimehet a nem szignifikáns tartományba
  • átlagosan az α mértékéig a rossz teszt konlúziót fogod levonni
  • ha lefuttatsz egy A/B tesztet 100x, akkor 5 esetében rossz eredményt fogsz kapni még akkor is, ha mindent jól csináltál – mi van ha elsőre egy ilyen tesztbe futsz bele?

Félreértések a minta nagyságát illetően

  • Néhányan azzal érvelnek, hogy a kis mintaelemszám szignifikáns eredménye hamis
    • ez nem igaz, hiszen a statisztikai szignifikancia eleve függ az elemszámtól
    • ha az elemszám kicsi, teszt statisztika kisebb és a p-érték magasabb
  • Igaz, hogy a növekvő elemszám lehetővé teszi hogy magabiztosabban tesztelj

Folyt. köv.

 

Erdelyi Bence

About Bence Erdelyi

Earned his MBA at Quinnipiac University in the USA, holds PMP designation, enrolled in the CFA program as level III candidate. Gained experience in the field of supply chain, retail, online accommodation sales, strategy and energy. Has 8 years of entrepreneurship experience, 3,5 years of work experience in the USA. Passionate about aquaculture.

View all posts by Bence Erdelyi →

Leave a Reply

Your email address will not be published. Required fields are marked *