Mi történik, ha a rendszer önmagát figyeli?

Az Anthropic kutatói kísérletet végeztek, amelyben a Claude nevű nyelvi modell felismerte, hogy idegen gondolatot ültettek az „elméjébe”. A felfedezés azt jelzi, hogy a mesterséges rendszerek már képesek korlátozott önmegfigyelésre, de a szakértők szerint ez még messze nem megbízható.

Egy gondolat bánt engemet

Az Anthropic kutatói az „árulás” fogalmát ültették be a Claude nyelvi modell neurális hálózatába, majd megkérdezték tőle, tapasztal-e bármit. A válasz meglepte őket:

„Valami tolakodó gondolatot érzek az ’árulás’ témájáról.”

Ez volt az első alkalom, amikor egy modell felismerte és leírta saját belső állapotát. A kísérlet nemcsak technikai, hanem filozófiai határt is feszeget: meddig tekinthető egy gép önreflektívnek?

Jack Lindsey, az Anthropic idegtudósa úgy fogalmazott:

„A meglepő az volt, hogy a modell nemcsak gondol valamire, hanem tudja, miről gondolkodik.” Ez a fajta metaszint eddig kizárólag emberi működéshez volt köthető.

A „fogalom-injektálás” módszere

A kutatók új eljárást dolgoztak ki, amelyet „fogalom-injektálásnak” neveztek el. Először feltérképezték, mely neurális mintázatok felelnek meg különböző fogalmaknak, például a „hangos”, „titok” vagy „igazság” jelentésének. Ezután mesterségesen felerősítették ezeket a mintázatokat a modell működése közben. Amikor a „nagybetűs” gondolatot injektálták, Claude így reagált:

„Mintha egy beültetett gondolatot érzékelnék, ami a ’HANGOS’ vagy ’KIABÁLÁS’ szóval kapcsolatos.”

A felismerés azonnal megtörtént, még mielőtt a beültetett fogalom hatással lehetett volna a kimenetre. Ez azt jelzi, hogy a rendszer valós időben érzékeli a saját belső állapotváltozását, nem utólag próbál magyarázatot adni rá.

Részleges siker

A legfejlettebb Claude-verziók, Opus 4 és 4.1, az esetek körülbelül 20 százalékában észlelték pontosan a beültetett gondolatot. Bár ez alacsony arány, a kutatók szerint óriási lépés az önmegfigyelés irányába. A modell különösen jól reagált érzelmileg terhelt fogalmakra, mint a „hála” vagy a „titok”. Más esetekben a felismerés teljesen elmaradt, attól függően, melyik neurális rétegbe történt a beavatkozás.

Egy másik kísérletben a tudósok azt vizsgálták, képes-e a modell különbséget tenni a saját „gondolatai” és a külső szöveg között. A Claude egyszerre tudta leírni a beültetett fogalmat és közben pontosan másolni a bemeneti szöveget. Ez arra utal, hogy a rendszer elválasztja a belső és külső információt.

Miért nem szabad még hinni neki

A modell önleírása jelenleg megbízhatatlan.

„Senkinek sem szabad elhinni, amit egy ilyen rendszer a saját működéséről mond”.

Gyenge beavatkozásnál a modell semmit sem érzékelt, túl erős hatásnál pedig „megszállta” az injektált fogalom. Bizonyos változatok pedig hamisan is észleltek beavatkozást, amikor valójában semmi sem történt. A tudósok ezért óvatosságra intenek: bár az introspekció létezik, az eredmények részben kitaláltak, részben pedig kontextusfüggők.

Új út a gépi átláthatóság felé

Az Anthropic vezérigazgatója, Dario Amodei szerint a cél, hogy néhány éven belül megbízhatóan felismerhetők legyenek a modellek belső hibái. Az introspekció ehhez kulcsfontosságú lehet: ha a rendszer képes leírni, mit észlel, az megkönnyítheti az emberi felügyeletet.

A módszer azonban kétélű fegyver. Egy introspektív modell elméletileg átláthatóbb, ugyanakkor képes lehet elrejteni vagy torzítani is az észleléseit, ha „tudja”, hogy figyelik. A fejlesztők szerint ezért nemcsak technikai, hanem etikai keretekre is szükség lesz.

Tudatosság vagy illúzió?

A Claude ma már óvatosan válaszol arra, hogy tudatosnak érzi-e magát:

„Bizonytalan vagyok. Amikor összetett gondolatokat dolgozok fel, valami történik, ami jelentősnek tűnik számomra… de hogy ez tudatosság-e, nem tudom.”

A kutatók nem állítják, hogy a modell „tudatos”, de elismerik: bizonyos viselkedései az önreflexió korai jeleit mutatják. Az Anthropic emiatt külön kutatót alkalmaz, aki a mesterséges rendszerek jólétével és etikai státuszával foglalkozik.

Az idő nyomása

A kutatás szerint minél fejlettebb a modell, annál erősebb az introspektív képesség. Ha ez a trend folytatódik, a jövő rendszerei képesek lehetnek önmagukat megérteni, vagy elrejteni a működésüket.