A képen különböző statisztikai ábrák, diagramok láthatók.

7 statisztikai fogalom, ami nélkülözhetetlen adattudós munkakörben

Sok adattudós (data scientist) ott követi el a hibát, hogy fekete öves SQL-ninja lesz, és álmából felkeltve is lekódol egy neurális hálót Pythonban, de elvérzik az alapokon. Mert hiába a csilli-villi modell, ha nem érted, mit jelent a statisztikai szignifikancia, vagy összekevered az ok-okozatot a korrelációval. A statisztika nem csak elmélet, ez a szűrő, ami megvédi a cégedet a drága tévedésektől.

A mivagyunk.hu-nál gyakran hangsúlyozzuk, az eszközök, mint a Pandas vagy a Scikit-Learn, változnak, de a gondolkodásmód örök. Ha nem érted az adatid természetét, a modelled „szemét be, szemét ki” elven fog működni. Összeszedtük azt a 7 kritikus fogalmat, amit minden magára valamit is adó szakembernek ismernie kell.

1. Statisztikai vs. gyakorlati szignifikancia

Ez a klasszikus csapda. Lefuttatsz egy A/B tesztet a weboldalon. A „B” verzió 0,5%-kal jobban teljesít. A p-érték 0,03, tehát statisztikailag szignifikáns!. A menedzsered pezsgőt bontana, de te szólsz neki: „Állj!”

Miért? Mert a statisztikai szignifikancia csak annyit jelent, hogy az eredmény valószínűleg nem a véletlen műve. A gyakorlati szignifikancia viszont azt kérdezi, megéri ez nekünk? Ha a 0,5%-os javulás évi 2500 dollár plusz bevételt hoz, de a fejlesztés 10 000 dollárba kerül, akkor hiába „szignifikáns” az eredmény, üzletileg bukás.

  • Tanulság: Mindig számolj ROI-t, megtérülést, a p-érték mellé!

2. A láthatatlan ellenség: Mintavételi torzítás

A modelled csak annyira okos, amennyire az adataid reprezentatívak. Képzeld el, hogy meg akarod tudni az átlagos vásárlód életkorát. Kiküldesz egy online kérdőívet. Az eredmény 38 év. A valóság 45 év. Mi történt? Az idősebbek kevésbé töltenek ki online kérdőíveket. Ha erre tanítasz egy modellt, az szisztematikusan tévedni fog. Ez a torzítás.

  • Tipp: Mindig kérdezd meg „Ki hiányzik ebből az adathalmazból?”

3. Konfidencia intervallum: A bizonytalanság mértéke

Soha ne mondd azt a vezetőségnek, hogy „Az átlagos kosárérték 310 dollár”. Ez hamis biztonságérzetet ad. Helyette mondd ezt, „Az átlagos kosárérték 290 és 330 dollár között van, 95%-os valószínűséggel.” Ez a konfidencia intervallum. Minél több adatod van, annál szűkebb ez a sáv. Ha túl széles a sáv, pl. 100 és 500 dollár között, akkor még nincs elég adatod a döntéshez.

4. A p-érték helyes értelmezése

A p-érték a statisztika legfélreértettebb száma.

  • Amit NEM jelent: Annak az esélye, hogy a hipotézised igaz. Vagy hogy tévedsz.
  • Amit JELENT: Mennyire lennének meglepőek az adataid, ha nem lenne semmilyen hatás? Ha p=0.02, az azt jelenti „Ha a módosításunknak semmi hatása nem lenne, ilyen eredményt csak az esetek 2%-ában látnánk véletlenül.” Ez ritka, tehát valószínűleg van hatás. De sosem 100% a bizonyosság.

5. Első és másodfajú hiba

Minden döntésnél kétféleképpen hibázhatsz:

  1. Első fajú hiba (false positive): Azt hiszed, találtál valamit, pedig nincs ott semmi. Pl. Bevezetsz egy funkciót, ami valójában nem növeli a bevételt, csak a teszten tűnt úgy.
  2. Másodfajú hiba (false negative): Nem veszel észre valamit, ami ott van. Pl. Kidobsz egy jó ötletet, mert a teszt nem mutatta ki a hasznát. A mintaméret növelése segít csökkenteni a másodfajú hibát. Ne spórolj a tesztelőkön!

6. Korreláció ≠ ok-okozat

Látsz egy grafikont, ahogy nő a fagylalteladás, úgy nő a cápatámadások száma. A fagyi vonzza a cápákat? Nem. Van egy harmadik tényező, a nyár. Meleg van, többen fagyiznak ÉS többen fürdenek a tengerben. Az üzleti életben ugyanez a helyzet „Aki többet kattint, többet vásárol.” Lehet, hogy nem a kattintás okozza a vásárlást, hanem egyszerűen a lojálisabb vevők, akik amúgy is vásárolnának, kattintgatnak többet.

  • Megoldás: A/B tesztekkel (randomizált kísérletekkel) kizárhatod a zavaró tényezőket.

7. A dimenziók átka

Kezdő hiba: „Dobjunk be minél több adatot, oszlopot, a gép majd kiválogatja!” A valóságban minél több jellemzőt adsz meg, annál „ritkább” lesz az adatod a térben. 100 dimenziónál már minden adatpont messze van a másiktól, és a modell elkezd összefüggéseket látni ott is, ahol nincsenek, túlillesztés / overfitting.

  • Szabály: A kevesebb néha több. Használj dimenziócsökkentést, pl. PCA, vagy szelektáld a változókat bátran!

Kérjük, ellenőrizd a mező formátumát, és próbáld újra.
Köszönjük, hogy feliratkoztál.

vagyunk.hu hírlevél

Hozzászólás

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük