Kódolt középkori titkokat fejt meg az MI

A világ levéltáraiban és könyvtáraiban rengeteg olyan kézirat lapul, amelyet ma sem tudunk rendesen elolvasni. A mesterséges intelligencia most segíthet feltörni régi kódokat, amelyek mögött gyógymódok, szerelmes üzenetek, háborús félelmek és diplomáciai titkok rejtőznek. A történet magyar olvasóknak különösen érdekes, mert az egyik kulcsszereplő Beáta Megyesi, a Stockholmi Egyetem számítógépes nyelvész professzora.

Állítsd be a mivagyunk.hu-t kedvenc forrásként a Google-ben

A vatikáni könyv, amely négyszáz évig hallgatott

A Vatikáni Könyvtár mélyén több mint négyszáz évig lapult egy különös, kézzel írt könyv. A lapjait furcsa jelek borították, a borító belső oldalán pedig egy bejegyzés arra utalt, hogy a szöveg az emberi test bajaira kínált titkos gyógymódokat.

A Borg-kód feltehetően körülbelül 400 éves, és 408 oldalon keresztül különös titkosírásos szimbólumok, valamint néhány latin betű keveréke látható.
Kép forrása: Biblioteca Apostolica Vaticana

Ez volt a Borg-kód néven ismert kézirat. A 408 oldalas könyv nagy része olvashatatlan volt, mert 34 ismeretlen szimbólummal írták, néhány római betűvel keverve. Az első oldal arab nyelvű volt, a szöveg megfejtéséhez pedig nem maradt fenn kulcs. A lapok egy része megsérült az évszázadok alatt, ami még nehezebbé tette a munkát.

A korszakban az ilyen gyógymódokat nem mindig volt biztonságos nyíltan terjeszteni. Egy furcsa recept, egy gyógyító praktika vagy egy titkos tudás könnyen gyanút kelthetett. Akár boszorkányság vádja is kapcsolódhatott hozzá.

Gépi tanulással végül sikerült feltörni a kódot. A kutatók bizarr kezeléseket találtak a kéziratban, például jó minőségű vörösbor fogyasztását vagy tésztában erjesztett szerecsendiót vérhas ellen. A történet ettől válik igazán emberivé. Nem steril történelmi adatokról van szó, hanem félelemről, betegségről, titkos tudásról és túlélési kísérletekről.

Mit keres az MI a régi titkosírásokban

A történelmi titkosírások megfejtése türelmes mintázatkeresés. Egy jel gyakorisága, egy ismétlődő forma, egy szokatlan betűkapcsolat vagy egy sérült sor is nyom lehet. A kutató ilyenkor egyszerre dolgozik nyelvészként, történészként, kriptológusként és detektívként.

A mesterséges intelligencia ebben a folyamatban skálázást és sebességet biztosít. Gyorsan felismerhet ismétlődéseket, összevethet jelcsoportokat, képes kézírásos dokumentumokat digitális formába alakítani, majd javaslatokat adni arra, milyen nyelvi megfelelések állhatnak a kód mögött.

A történelmi MI-fejtés lényege, hogy a gép régi kéziratok vizuális és nyelvi mintázataiból próbál olvasható szöveget előállítani, miközben az ember ellenőrzi, hogy az eredmény történetileg értelmes-e.

Ez a határ nagyon fontos. Egy régi kód megfejtése nem lehet puszta technológiai bravúr. A gép adhat valószínű megoldást, de a jelentést, a kontextust és a történelmi súlyt továbbra is embereknek kell megérteniük.

Szerelmes levelek, politikai félelmek és háborús üzenetek

A kódolt dokumentumok azért izgalmasak, mert gyakran éppen azt rejtik, amit az emberek a saját korukban sem akartak nyilvánosságra hozni. Diplomáciai hírszerzés, titkos társaságok rítusai, orvosi tudás, szerelmi viszonyok és hétköznapi aggodalmak is előkerülhetnek belőlük.

Egy megfejtett szöveg néha egész történelmi képet módosít. Erre példa Mary Stuart skót királynő kódolt leveleinek esete. A kutatók olyan iratokat azonosítottak, amelyeket hosszú angliai fogsága alatt írt. A levelek feltárták, hogyan kapcsolódott trónja visszaszerzését célzó terveihez, és milyen feszült volt a viszonya fiával, a későbbi VI. Jakab skót és I. Jakab angol királlyal.

Máskor a megfejtés egy hatalmas uralkodót mutat meg kiszolgáltatott emberként. Egy 500 éves, V. Károly német-római császárhoz és spanyol királyhoz kapcsolódó levél megfejtése hat hónapig tartott. A háromoldalas szöveg 120 különböző titkosjelet használt. A tartalma egy merénylet lehetőségétől rettegő uralkodót mutatott, aki attól félt, hogy egy francia szolgálatban álló itáliai zsoldosvezér megöli.

A titkosírás itt nem díszlet. A hatalom, a háború és a magánélet gyakorlati eszköze volt.

A kézírás sokszor nagyobb akadály, mint maga a kód

Mielőtt egy titkos szöveget meg lehetne fejteni, először digitális formába kell hozni. Ez külön munkafolyamat. Régi tinta, rossz kézírás, sérült lap, szokatlan számok, asztrológiai jelek vagy kitalált szimbólumok mind megakaszthatják a feldolgozást.

Cecile Pierrot francia kriptológus szerint akár egy napig is eltarthat egy kétoldalas, ismeretlen jelekkel teli levél átírása. A megfejtés ilyenkor még el sem kezdődött; a kutató csak előkészíti az anyagot.

Ezen a ponton jelennek meg az MI-alapú átíró rendszerek. Michelle Waldispühl, az Oslói Egyetem német nyelvész professzora és kollégái például a Transkribus nevű online MI-platformmal dolgoztak egy 1637-es titkos levélen. A levelet Sigismund Heusner von Wandersleben nemes írta Axel Oxenstierna svéd főkancellárnak a harmincéves háború idején.

A dokumentum csak részben volt titkosítva. A kódolt részek pontokkal elválasztott számokat használtak, a többi szakasz 17. századi német kézírással készült. A rendszer felismerte a szövegblokkokat és sorokat, majd karakterenként digitális formába alakította a dokumentumot. Kézi javításokra így is szükség volt.

A megfejtés során kiderült, hogy Wandersleben a svéd protestáns szövetségesek egyes frakciói miatt aggódott. Üzenete szerint stratégiai visszavonulásokra kényszerült, mert összeesküvésről értesült a saját oldalán álló szereplők körében.

Amikor egy betűnek nyolc jele van

A régi kódok néha egyszerűnek tűnnek, de gyorsan bonyolulttá válnak. A Borg-kézirat például alapvetően helyettesítő titkosítást használt, vagyis egy szimbólum egy betűt takart. Más rendszerek ennél ravaszabbak.

Előfordulhat, hogy a kutató nem ismeri az eredeti nyelvet. Máskor értelmetlen jeleket szórtak a szövegbe, hogy félrevezessék az olvasót. Vannak olyan kódok is, ahol ugyanazt a betűt több különböző szimbólum jelöli.

Wandersleben levelében az E betűt akár nyolc különböző jel is képviselhette. Ilyenkor a gyakoriságelemzés önmagában kevés. A gép javasol, a kutató ellenőriz, majd újraindul a kör. A munka oda-vissza mozgás a rendszer és az emberi szakértelem között.

Ezért fontos, hogy az MI-eszközök ne csak eredményt adjanak, hanem magyarázatot is. Ha egy rendszer azt állítja, hogy megfejtett egy kódot, látnunk kell, milyen lépéseken keresztül jutott oda. A történelmi kutatásban a magabiztos tévedés különösen veszélyes.

A Copiale-kód és a titkos társaságok világa

Megyesi Beáta és kutatócsoportja most azon dolgozik, hogy az MI bizonyos esetekben kihagyhassa a külön átírási fázist. A cél az, hogy a rendszer közvetlenül a kézirat fotójából próbáljon megfejtést adni.

Megyesi Beáta
Számítógépes nyelvészet professzora az Uppsala Egyetem Nyelvészeti és Filológiai Tanszékén
forrás: Uppsala Egyetem honlapja

Ezt a megközelítést egy korábban már megfejtett, 105 oldalas kéziraton tesztelték. A Copiale-kód egy 18. századi német titkos társaság szabályait, rituáléit és eszméit tartalmazza. A kutatók általános kézíráson, majd a konkrét kód soraiból és azok megfejtett német szövegéből álló párokon tanították a rendszert. Az MI ezután olyan részeket is pontosan megfejtett, amelyeket korábban nem látott.

Ez különösen fontos lehet olyan esetekben, amikor az alapnyelv sem ismert. Ilyenkor a kutatónak nemcsak a jeleket kell megfejtenie, hanem azt is ki kell találnia, milyen nyelvi világban mozog.

A szerelmes képeslapoktól az ókori korongig

A Descrypt-projekt kutatói régi levéltárakban keresnek titkosírásos dokumentumokat, hogy adatbázist építsenek belőlük. Erre azért van szükség, mert a modern nagy nyelvi modelleket óriási szövegmennyiségen tanítják, történelmi kódokból viszont nagyon kevés jól előkészített adat áll rendelkezésre.

A gyűjtött anyagok között van 400 rejtélyes képeslap is a 19. század végéről és a 20. század elejéről. A részben megfejtett darabok alapján ezek közül több német nyelvű szerelmes levél lehetett.

A kutatók hosszabb távon egy olyan MI-chatbot jellegű eszközön dolgoznak, amely egy lépésben végzi az átírást és a megfejtést. Az eszköz képfelismerést, titkosítási algoritmusokat és történelmi szövegeken tanított nyelvi modelleket kapcsol össze. A szakértői javításokat később beépíti a saját működésébe.

A Borg-kódon végzett teszt látványos eredményt hozott. A rendszer valamivel több mint 29 perc alatt dekódolt és angolra fordított egy 500 szimbólumos részletet. Ennél is fontosabb, hogy dokumentálta a lépéseit, és megindokolta, miért tartja valószínűnek a megfejtést. Ez segít csökkenteni annak kockázatát, hogy az MI kitalált értelmezést adjon.

A módszer egyszer talán olyan régi írásrendszerekhez is közelebb vihet, amelyeket ma még nem tudunk olvasni. A 4000 éves krétai Phaisztoszi korong szimbólumai és a Linear A írás továbbra is megfejtetlenek. Egyelőre nem arról van szó, hogy ezek holnap reggelre világos szöveggé válnak. A lényeg inkább az, hogy új eszközeink lesznek a makacs történelmi rejtélyek vizsgálatához.

*A 4000 éves Phaisztoszi korong szimbólumai, amelyet egy minószi palota romjai között találtak Kréta szigetén, nagyrészt máig megfejtetlenek.*
Kép forrása: Getty Images

A magyar vonatkozás miatt ez közelebb van hozzánk

A történet egyik legfontosabb szereplője Beáta Megyesi, aki a Stockholmi Egyetem számítógépes nyelvész professzoraként dolgozik ezen a területen. Magyar olvasóként ez különösen érdekes kapcsolódási pont. Egy olyan kutatási irányban jelenik meg magyar név, amely egyszerre érinti a mesterséges intelligenciát, a nyelvészetet, a történelmet és a kulturális örökséget.

Magyarországon is rengeteg levéltári anyag, családi irat, régi kézirat, egyházi dokumentum és helytörténeti forrás vár feldolgozásra. Nem mind titkosírás, de sok közülük nehezen olvasható, töredékes vagy csak szakértők szűk köre számára hozzáférhető. Az MI itt nem látványos trükk, hanem kulturális hozzáférési eszköz lehet.

Érdekes és fontos, hogy milyen rétegeket tudunk végre láthatóvá tenni a múltból, ha a kutatók jobb eszközöket kapnak.

A régi kódok megfejtése emlékeztet arra, hogy a mesterséges intelligencia legérdekesebb használatai gyakran nem a jövőről szólnak. Néha éppen a múltat teszik olvashatóbbá. És ha jól használjuk őket, nem elveszik az emberi értelmezés helyét, hanem több anyagot adnak hozzá.

atak

Főszerkesztő

Dr. Stier Kata a mivagyunk.hu főszerkesztője. Jogász, technológia-kutató, bitcoiner. Az írásait az MI-etika, a szabadság, és az ember-gép kapcsolat kérdései vezetik. „A kérdés a tiéd."

Kérjük, ellenőrizd a mező formátumát, és próbáld újra.

Köszönjük, hogy feliratkoztál.