A kínai DeepSeek kutatói szerint az MI jobban tudna „emlékezni”, ha a szöveget nem szavakra, hanem képekre bontanánk. Itt az új MI-modell.
Az MI, ami képeken gondolkodik
A DeepSeek legújabb OCR-modellje nem a szokásos úton fejleszt: nem a felismerést csiszolja, hanem a memóriát. A rendszer nem tokenekre bontja a szöveget, hanem képként tárolja, mintha az MI „fotókat” készítene az információról.
A tokenrendszer zsákutcája
A mai nagy nyelvi modellek (LLM-ek) apró egységekre, úgynevezett tokenekre darabolják a szöveget, és ezeken keresztül tanulnak. Csakhogy a hosszú kontextus gyorsan drága mulatság. Több számítás, több energia, és egyre gyakoribb az „emlékezetkiesés”.
Képes memória, kevesebb energia
A DeepSeek új rendszere képi formában tömöríti az információt, így kevesebb tokenre van szükség, és kevesebb erőforrásra is. A módszer nemcsak hatékonyabb, hanem környezetbarátabb is: kevesebb karbonlábnyom, több adatmegőrzés.
Emlékezni, mint az ember
A modell többrétegű tárolást alkalmaz: a régi, kevésbé fontos adatok „elmosódnak”, de megmaradnak a háttérben. Ez hasonlít az emberi memóriához, ahol a jelentéktelen részletek idővel halványulnak, de a lényeg elérhető marad.
A kutatók szerint forradalmi irány
Andrej Karpathy szerint a szöveg mint input „pazarló és szerencsétlen megoldás”, míg a képi tokenizálás természetesebb lehet az MI számára. A Northwestern Egyetem kutatói úgy látják: ez a módszer új korszakot nyithat a mesterséges emlékezetben.
DeepSeek: a csendes kínai kihívó
A Hangzhou-i cég idén már felkavarta a piacot a DeepSeek-R1 modellel, amely kevesebb számítási erővel is hozta a nyugati szintet. Most pedig a memóriát reformálják és ha igazuk lesz, az MI többé nemcsak „tanulni”, hanem valóban emlékezni is tud majd.
