Arany János hivatali iratainak AI-alapú feldolgozásáért kapott innovációs díjat egy új fejlesztés
A Digitális Örökség Nemzeti Laboratórium (DH-LAB) munkájának egyik első és legjelentősebb eredménye annak a kézírásfelismerő modellnek a kifejlesztése, amellyel kereshetővé váltak Arany János hivatali iratai. A fejlesztésért Társadalmi Innovációs Díjat kapott a projektcsoport a Kulturális és Innovációs Minisztériumtól.
A rendezvényen Zsigó Róbert miniszterhelyettestől a HUN-REN Bölcsészettudományi Kutatóközpont (HUN-REN BTK) részéről Balogh Balázs főigazgató vette át a díjat. A nyertes fejlesztésben a HUN-REN BTK munkatársai közül Palkó Gábor, Fellegi Zsófia és Bobák Barbara, a Laboratórium részéről Fekete Norbert és Szekrényes István vett részt. A DH-LAB projektje mellett a másik idei díjazott a Szabadtéri Néprajzi Múzeum demenciaprogramja volt.
A DH-LAB a HUN-REN BTK Irodalomtudományi Intézetének, a Miskolci Egyetemnek, valamint az ELTE BTK TI Digitális Bölcsészet Tanszék szakértőinek közreműködésével, az ELTE IK Mesterséges Intelligencia Tanszék hallgatóival közösen alakítja ki a magyar nyelvre optimalizált AI eszközök alkalmazásának módszertanát a közgyűjteményekben, a nyílt tudományosság elveinek megfelelően, saját hardware környezetben. Közös munkájuk egyik első és legjelentősebb eredménye volt az innovációs díjjal elismert kézírásfelismerő modell kifejlesztése.
A kézírást felismerő projekt eredményei és hatása
A fejlesztés azért egyedi és innovatív, mert hazánkban még nem történt ilyen nagyságrendű, AI-alapú kézírásfelismerés magyar digitális bölcsészek és AI szakértők közreműködésével, magyar szakemberek és számítástechnikai eszközök használatával. A projekt során egy olyan általános kézírás-felismerő modell jött létre, amelyet a közgyűjtemények szabadon felhasználhatnak. Így a jövőben szinte korlátlan mennyiségű magyar nyelvű 19. századi kéziratoldalt dolgozhatnak fel, amely szövegek eddig nem képezték a kulturális örökség integráns részét.
A kifejlesztett módszertan olyan piaci területen is újabb innovációk kiindulópontja lehet, mint például a céges dokumentumok AI-alapú feldolgozása. A technológiát olyan NKFIH minősítéssel rendelkező kiváló kutatási infrastruktúrák integrálják munkameneteikbe, mint a DH-LAB-QULTO közös kutatási infrastruktúra, vagy a HUN-REN BTK EtnoLab projektje.
Palkó Gábor projektvezető, a HUN-REN BTK Irodalomtudományi Intézetének tudományos főmunkatársa az elismerés kapcsán elmondta, „a 21. század első évtizedeiben két egymással szorosan összefüggő és párhuzamos trend figyelhető meg a kultúra és a tudomány területén. Egyrészt a mesterséges intelligencia (angol rövidítésével: AI) olyan mértékben alakítja át és helyettesíti a megszokott kulturális gyakorlatokat, ami korábban elképzelhetetlen volt, másrészt, részben a kulturális örökség digitalizálása, részben pedig a digitálisan keletkező anyagok hatalmas mennyisége miatt korábban elképzelhetetlen nagyságrendben jönnek létre adatbázisok és adathálózatok”.
Hozzátette, „a digitális örökség diskurzusában a könnyen feldolgozható és közzétehető nyomtatott vagy digitálisan keletkező anyagok mellett az igazi – azaz kézzel írt – kéziratok háttérbe szorulnak, mivel nem tehetők kereshetővé olyan általános modellekkel, amelyek nem veszik figyelembe az adott dokumentumcsoport sajátos jellemzőit. Különösen problémás, hogy az AI eszközök jobban működnek a nagy világnyelvek esetében, amelyeket több százmillióan beszélnek. Ezért a magyar kézzel írt dokumentumok különösen alulreprezentáltak a digitális kulturális örökség egészében”. Kiemelte, „a Digitális Örökség Nemzeti Laboratórium projekt egyik elsődleges feladata ezeknek a problémáknak a megoldása”.
A díjazott projektet a november 21. és 23. között a Szépművészeti Múzeumban megrendezendő Science Expo nevű magyar tudományos tárlaton is bemutatják a nagyközönségnek.
Arany hivatali iratai és azok jelentősége
Kiváló írónk és költőnk, Arany János 1859-től a Magyar Tudományos Akadémia (MTA) rendes tagja volt, ahol főtitkárként is dolgozott. Utóbbi poszton végzett adminisztratív munkája óriási jelentőséggel bírt: meghatározta és kialakította az MTA működési kereteit, ezzel pedig az egyik legfontosabb magyar tudományos intézménnyé tette azt. A hivatali iratok korpuszának teljes mérete jelentősen nagyobb a korábbi ismereteinknél, mintegy 9200 dokumentum, amely nagyjából 30.000 kéziratfotónak felel meg.
A saját HTR (Handwritten Text Recognition) modell tanításához 200 lapnyi Arany-kézírás mellett Arany titkárának, Ring Adorjánnak a kezétől származó, valamint további, csaknem 30 kéz írását tartalmazó korpuszt készítettek a szakértők. A modellt összesen 874 átírt kéziratlapon tanították, amely után a pontossága nem haladta meg az 5%-os betű szintű hibaarányt. A hivatali iratok publikálása jelenleg folyamatban van az MTA Könyvtár repozitóriumában, kereshető PDF-ek formájában.