Sok adattudós (data scientist) ott követi el a hibát, hogy fekete öves SQL-ninja lesz, és álmából felkeltve is lekódol egy neurális hálót Pythonban, de elvérzik az alapokon. Mert hiába a csilli-villi modell, ha nem érted, mit jelent a statisztikai szignifikancia, vagy összekevered az ok-okozatot a korrelációval. A statisztika nem csak elmélet, ez a szűrő, ami megvédi a cégedet a drága tévedésektől.
A mivagyunk.hu-nál gyakran hangsúlyozzuk, az eszközök, mint a Pandas vagy a Scikit-Learn, változnak, de a gondolkodásmód örök. Ha nem érted az adatid természetét, a modelled „szemét be, szemét ki” elven fog működni. Összeszedtük azt a 7 kritikus fogalmat, amit minden magára valamit is adó szakembernek ismernie kell.
1. Statisztikai vs. gyakorlati szignifikancia
Ez a klasszikus csapda. Lefuttatsz egy A/B tesztet a weboldalon. A „B” verzió 0,5%-kal jobban teljesít. A p-érték 0,03, tehát statisztikailag szignifikáns!. A menedzsered pezsgőt bontana, de te szólsz neki: „Állj!”
Miért? Mert a statisztikai szignifikancia csak annyit jelent, hogy az eredmény valószínűleg nem a véletlen műve. A gyakorlati szignifikancia viszont azt kérdezi, megéri ez nekünk? Ha a 0,5%-os javulás évi 2500 dollár plusz bevételt hoz, de a fejlesztés 10 000 dollárba kerül, akkor hiába „szignifikáns” az eredmény, üzletileg bukás.
- Tanulság: Mindig számolj ROI-t, megtérülést, a p-érték mellé!
2. A láthatatlan ellenség: Mintavételi torzítás
A modelled csak annyira okos, amennyire az adataid reprezentatívak. Képzeld el, hogy meg akarod tudni az átlagos vásárlód életkorát. Kiküldesz egy online kérdőívet. Az eredmény 38 év. A valóság 45 év. Mi történt? Az idősebbek kevésbé töltenek ki online kérdőíveket. Ha erre tanítasz egy modellt, az szisztematikusan tévedni fog. Ez a torzítás.
- Tipp: Mindig kérdezd meg „Ki hiányzik ebből az adathalmazból?”
3. Konfidencia intervallum: A bizonytalanság mértéke
Soha ne mondd azt a vezetőségnek, hogy „Az átlagos kosárérték 310 dollár”. Ez hamis biztonságérzetet ad. Helyette mondd ezt, „Az átlagos kosárérték 290 és 330 dollár között van, 95%-os valószínűséggel.” Ez a konfidencia intervallum. Minél több adatod van, annál szűkebb ez a sáv. Ha túl széles a sáv, pl. 100 és 500 dollár között, akkor még nincs elég adatod a döntéshez.
4. A p-érték helyes értelmezése
A p-érték a statisztika legfélreértettebb száma.
- Amit NEM jelent: Annak az esélye, hogy a hipotézised igaz. Vagy hogy tévedsz.
- Amit JELENT: Mennyire lennének meglepőek az adataid, ha nem lenne semmilyen hatás? Ha p=0.02, az azt jelenti „Ha a módosításunknak semmi hatása nem lenne, ilyen eredményt csak az esetek 2%-ában látnánk véletlenül.” Ez ritka, tehát valószínűleg van hatás. De sosem 100% a bizonyosság.
5. Első és másodfajú hiba
Minden döntésnél kétféleképpen hibázhatsz:
- Első fajú hiba (false positive): Azt hiszed, találtál valamit, pedig nincs ott semmi. Pl. Bevezetsz egy funkciót, ami valójában nem növeli a bevételt, csak a teszten tűnt úgy.
- Másodfajú hiba (false negative): Nem veszel észre valamit, ami ott van. Pl. Kidobsz egy jó ötletet, mert a teszt nem mutatta ki a hasznát. A mintaméret növelése segít csökkenteni a másodfajú hibát. Ne spórolj a tesztelőkön!
6. Korreláció ≠ ok-okozat
Látsz egy grafikont, ahogy nő a fagylalteladás, úgy nő a cápatámadások száma. A fagyi vonzza a cápákat? Nem. Van egy harmadik tényező, a nyár. Meleg van, többen fagyiznak ÉS többen fürdenek a tengerben. Az üzleti életben ugyanez a helyzet „Aki többet kattint, többet vásárol.” Lehet, hogy nem a kattintás okozza a vásárlást, hanem egyszerűen a lojálisabb vevők, akik amúgy is vásárolnának, kattintgatnak többet.
- Megoldás: A/B tesztekkel (randomizált kísérletekkel) kizárhatod a zavaró tényezőket.
7. A dimenziók átka
Kezdő hiba: „Dobjunk be minél több adatot, oszlopot, a gép majd kiválogatja!” A valóságban minél több jellemzőt adsz meg, annál „ritkább” lesz az adatod a térben. 100 dimenziónál már minden adatpont messze van a másiktól, és a modell elkezd összefüggéseket látni ott is, ahol nincsenek, túlillesztés / overfitting.
- Szabály: A kevesebb néha több. Használj dimenziócsökkentést, pl. PCA, vagy szelektáld a változókat bátran!




