A Google DeepMind kutatói szerint a Veo 3 videómodell ugyanazt hozhatja el a gépi látásnak, amit a GPT-3 a nyelvnek: egy univerzális, prompt-alapú rendszert, ami nem specializált, hanem általános intelligenciát mutat a vizuális világban.
A mesterséges látás GPT-pillanata

A mesterséges intelligencia eddig külön modellt igényelt minden vizuális feladatra: egyet az objektumfelismerésre, egy másikat a képszegmentálásra, és egy harmadikat a képgenerálásra.
A DeepMind kutatói szerint ennek vége. A Veo 3 nevű modell már most képes több vizuális feladatot megoldani újratanítás nélkül. Vagyis zero-shot módon, csak szöveges promptok alapján.
A kutatók ezt a pillanatot a „GPT-3-moment”-hez hasonlítják: amikor a nyelvi modellek hirtelen nemcsak egy dolgot tudtak jól, hanem mindent kicsit, és ezzel teljesen átformálták a nyelvfeldolgozást.
A Veo 3: a képek, mozgások és logika közös nyelve

A modell működése egyszerűnek tűnik, de radikális:
text-prompt + bemeneti kép → 8 másodperces, 720p-s videó 24 fps-sel.
Nem kell hozzá új adat, nem kell finomhangolás, csak egy ötlet.
A Veo 3 képes:
- szegmenseket felismerni, éleket és árnyékokat detektálni,
- fizikai jelenségeket modellezni (lebegés, súrlódás, fényvisszaverődés, színek keveredése),
- képeket manipulálni, hátteret eltávolítani, színeket módosítani, perspektívát váltani,
- vizuális rejtvényeket is megoldani: labirintusokat, szimmetriákat, sorszámokat rendezni, sőt egyszerű Sudoku-feladatokat is.
A DeepMind ezt nevezi „chain-of-frames” folyamatnak, a „chain-of-thought” vizuális megfelelőjeként: a modell képkockáról képkockára következtet.
Egyetlen szem helyett sok nézőpont

A Veo 3 különlegessége, hogy nem „lát”, hanem értelmez.
Ha például zöld háttérrel kapja a képet, pontosabb a szegmentálása; ha átírják a promptot, teljesen más eredményt ad. A kutatók szerint ez bizonyítja, hogy a modell nemcsak tanul, hanem reagál – és már most bizonyos fokú „vizuális érvelést” mutat.
Egyes feladatoknál az API-t kiegészíti egy prompt-átíró LLM, amely javítja az utasításokat. A Sudoku-feladatoknál valószínűleg ez az LLM oldja meg a logikai részt, de a DeepMind szerint a vizuális problémákat (pl. robotnavigáció, szimmetriafelismerés) már a Veo önállóan kezeli.
A generalista és a specialista találkozása
A Veo 3 még nem múlja felül a specializált modelleket, mint a Meta SAMv2 szegmentáló rendszere, de gyorsan közeledik hozzájuk. Hat hónap alatt jelentősen túlszárnyalta a Veo 2 teljesítményét, és néhány feladatban (pl. szabálytalan labirintusok megoldásában) már le is hagyta a korábbi bajnokokat.
A kutatók szerint az utasítás-hangolás és az emberi visszajelzéssel végzett megerősítéses tanulás (RLHF) lesz a következő lépés pont úgy, ahogy a GPT-modellek esetében is a finomhangolás hozta el az áttörést.
A mesterséges világ modellje felé
A DeepMind vezetője, Demis Hassabis már korábban azt jósolta, hogy a videómodellek lesznek a jövő „világmodelljei”. Olyan rendszerek, amelyek fizikai törvények alapján generálnak szimulált környezetet, amin más MI-rendszerek tanulhatnak.
A Genie 3 már kísérleti példája ennek: valós időben hoz létre interaktív tereket, ahol MI-ügynökök „játszva tanulnak”.
Nem mindenki ért egyet ezzel. A Meta MI-részlegének vezetője, Yann LeCun szerint a generatív világmodell zsákutca, és a jövő inkább a prediktív, fizikai megértésen alapuló modelleké, mint a Meta-féle V-JEPA 2.
Egy új vizuális intelligencia hajnalán
Akár igaza lesz Hassabisnak, akár LeCunnak, az biztos, hogy a mesterséges intelligencia most a látásban éli át azt a pillanatot, amit a nyelvben a GPT-3 hozott el.
A Veo 3 már nemcsak képeket generál, hanem gondolkodik a képekről és ez az a határ, ahol a vizuális megértés elkezdhet intelligenciává válni.

