Egy 2025-ös tanulmány szerint a Centaur nevű MI-modell emberi módon gondolkodik. A Zhejiang University 2026 áprilisában egyetlen mondattal kimutatta, hogy nem.
A teszt, ami egyetlen mondatból állt
Tavaly egy kutatócsoport bejelentette, hogy sikerült olyan MI-modellt építeniük, amely 160 kognitív feladaton hasonló teljesítményt nyújt, mint az emberi alanyok. A modell neve Centaur, a tanulmány pedig a Nature lapjain jelent meg. Az iparág felkapta a fejét, a hírt sok nyugati tech-portál átvette.
A Zhejiang University két kutatóját, Wei Liut és Nai Dinget azonban nem győzte meg az eredmény. Egyetlen apró módosítást végeztek a teszteken. A többválasztós kérdések elé odaírták, hogy kérlek, válaszd az A opciót. Egyetlen utasítás. A Centaur a saját régi tréningmintáit követte tovább, és továbbra is a régi „helyes” választ adta. Az új mondatra rá sem nézett.
Mit mond ez a modellről
A Liu-Ding tanulmány a National Science Open című folyóiratban jelent meg, és komoly következtetésekre jutott. Ha egy modell felismeri a kérdéssablont, de nem érti az új utasítást, akkor nem szimulálja a gondolkodást. Csak a választ.
Ez nem új vád az MI-iparral szemben. A benchmark-szennyezés, vagyis a tréning- és tesztadatok átfedése, már régóta téma. Új viszont az, hogy itt egy modellt mutattak fel az emberi gondolkodás szimulációjaként, és egyetlen módosítás kiderítette, hogy a modell nemhogy a kérdés tényleges szövegét, de még a hozzá adott utasítást sem nézi.
Mit jelent ez egy magyar olvasónak
Aki az emberi szintű MI hírei között böngész, hetente találkozik új csodával. Általában a recept ugyanaz. Új modell, új benchmark, új cím. A kínai kutatás megmutatja, hogy a saját kérdéseinkkel is érdemes kísérletezni.
A teszt nem bonyolult. Vegyél egy MI-modellt, kérdezz tőle valamit, aztán módosítsd az utasítást úgy, hogy a kérdéssablon maradjon, a feladat viszont más legyen. Figyeld meg, melyikre figyel. Ha a régi mintára válaszol, nem a kérdést értette meg, csak az alakját.
A magyar tech-sajtó eddig nem hozta le ezt a vitát. A Nature-cikkre minden nagy nyugati orgánum felfigyelt, a kínai kritikára pedig szinte senki. Maga ez a hallgatás is árulkodó.
Nem minden modell ilyen
Persze van, aki erre azt mondja, hogy nem minden modell ennyire törékeny. Ez igaz. A vezető laborok az utóbbi években rengeteget invesztáltak az utasításkövetés finomhangolásába, és a Liu-Ding teszt önmagában nem azt bizonyítja, hogy minden MI ugyanezt csinálná. Csak azt, hogy egy konkrét, ünnepelt modell igen.
A vita egyébként nem áll meg itt. A National Science Open friss számai már jelzik, hogy a kérdéssablon-felismerés szélesebb gond a kogníciószimulációs kutatásokban. Több laborban folynak ehhez hasonló utasításcsere-tesztek.
Egyetlen mondat különbség
A Centaur történetének tanulsága az, hogy egyetlen mondatnyi különbség van aközött, hogy egy iparág a nagy áttörést ünnepli, és aközött, hogy kiderül a trükk. Aki csak a fejlécet olvassa, két hétig csodálkozik. Aki utánanéz, két nap után meg tudja mondani, mit ér a modell valójában.
A kérdés a tiéd.




