A Centaur. Az MI, ami nem értette a kérdést

Egy 2025-ös tanulmány szerint a Centaur nevű MI-modell emberi módon gondolkodik. A Zhejiang University 2026 áprilisában egyetlen mondattal kimutatta, hogy nem.

A teszt, ami egyetlen mondatból állt

Tavaly egy kutatócsoport bejelentette, hogy sikerült olyan MI-modellt építeniük, amely 160 kognitív feladaton hasonló teljesítményt nyújt, mint az emberi alanyok. A modell neve Centaur, a tanulmány pedig a Nature lapjain jelent meg. Az iparág felkapta a fejét, a hírt sok nyugati tech-portál átvette.

A Zhejiang University két kutatóját, Wei Liut és Nai Dinget azonban nem győzte meg az eredmény. Egyetlen apró módosítást végeztek a teszteken. A többválasztós kérdések elé odaírták, hogy kérlek, válaszd az A opciót. Egyetlen utasítás. A Centaur a saját régi tréningmintáit követte tovább, és továbbra is a régi „helyes” választ adta. Az új mondatra rá sem nézett.

Mit mond ez a modellről

A Liu-Ding tanulmány a National Science Open című folyóiratban jelent meg, és komoly következtetésekre jutott. Ha egy modell felismeri a kérdéssablont, de nem érti az új utasítást, akkor nem szimulálja a gondolkodást. Csak a választ.

Ez nem új vád az MI-iparral szemben. A benchmark-szennyezés, vagyis a tréning- és tesztadatok átfedése, már régóta téma. Új viszont az, hogy itt egy modellt mutattak fel az emberi gondolkodás szimulációjaként, és egyetlen módosítás kiderítette, hogy a modell nemhogy a kérdés tényleges szövegét, de még a hozzá adott utasítást sem nézi.

Mit jelent ez egy magyar olvasónak

Aki az emberi szintű MI hírei között böngész, hetente találkozik új csodával. Általában a recept ugyanaz. Új modell, új benchmark, új cím. A kínai kutatás megmutatja, hogy a saját kérdéseinkkel is érdemes kísérletezni.

A teszt nem bonyolult. Vegyél egy MI-modellt, kérdezz tőle valamit, aztán módosítsd az utasítást úgy, hogy a kérdéssablon maradjon, a feladat viszont más legyen. Figyeld meg, melyikre figyel. Ha a régi mintára válaszol, nem a kérdést értette meg, csak az alakját.

A magyar tech-sajtó eddig nem hozta le ezt a vitát. A Nature-cikkre minden nagy nyugati orgánum felfigyelt, a kínai kritikára pedig szinte senki. Maga ez a hallgatás is árulkodó.

Nem minden modell ilyen

Persze van, aki erre azt mondja, hogy nem minden modell ennyire törékeny. Ez igaz. A vezető laborok az utóbbi években rengeteget invesztáltak az utasításkövetés finomhangolásába, és a Liu-Ding teszt önmagában nem azt bizonyítja, hogy minden MI ugyanezt csinálná. Csak azt, hogy egy konkrét, ünnepelt modell igen.

A vita egyébként nem áll meg itt. A National Science Open friss számai már jelzik, hogy a kérdéssablon-felismerés szélesebb gond a kogníciószimulációs kutatásokban. Több laborban folynak ehhez hasonló utasításcsere-tesztek.

Egyetlen mondat különbség

A Centaur történetének tanulsága az, hogy egyetlen mondatnyi különbség van aközött, hogy egy iparág a nagy áttörést ünnepli, és aközött, hogy kiderül a trükk. Aki csak a fejlécet olvassa, két hétig csodálkozik. Aki utánanéz, két nap után meg tudja mondani, mit ér a modell valójában.

A kérdés a tiéd.

atak

Főszerkesztő

Dr. Stier Kata a mivagyunk.hu főszerkesztője. Jogász, technológia-kutató, bitcoiner. Az írásait az MI-etika, a szabadság, és az ember-gép kapcsolat kérdései vezetik. „A kérdés a tiéd."

Kérjük, ellenőrizd a mező formátumát, és próbáld újra.

Köszönjük, hogy feliratkoztál.

A Centaur. Megértés vagy memória?

A teszt, ami egyetlen mondatból állt

Mit mond ez a modellről

Mit jelent ez egy magyar olvasónak

Nem minden modell ilyen

Egyetlen mondat különbség

atak

Főszerkesztő

Hozzászólás Válasz törlése

A teszt, ami egyetlen mondatból állt

Mit mond ez a modellről

Mit jelent ez egy magyar olvasónak

Nem minden modell ilyen

Egyetlen mondat különbség

atak

Főszerkesztő

Hozzászólás Válasz törlése

Hasonló