A Digitális Örökség Nemzeti Laboratórium (DH-LAB) munkájának egyik első és legjelentősebb eredménye annak a kézírásfelismerő modellnek a kifejlesztése, amellyel kereshetővé váltak Arany János hivatali iratai. A fejlesztésért Társadalmi Innovációs Díjat kapott a projektcsoport a Kulturális és Innovációs Minisztériumtól (KIM).
A Magyar Tudományos Akadémia Könyvtárában őrzött Arany János hivatali iratok kereshetővé tételét segíti az a fejlesztés, amelyért Társadalmi Innovációs Díjat kapott a DH-LAB. A laboratórium fejlesztésének köszönhetően egy rendkívül értékes anyag válik hozzáférhetővé úgy a kutatók, mint a nagyközönség számára. A KIM elismerését november 13-án vehették át projektben részt vevők.
A DH-LAB a BTK Irodalomtudományi Intézetének, a Miskolci Egyetemnek, valamint az Eötvös Loránd Tudományegyetem (ELTE) BTK TI Digitális Bölcsészet Tanszék szakértőinek közreműködésével, az ELTE IK Mesterséges Intelligencia Tanszék hallgatóival közösen alakítja ki a magyar nyelvre optimalizált AI eszközök alkalmazásának módszertanát a közgyűjteményekben, a nyílt tudományosság elveinek megfelelően, saját hardware környezetben. Közös munkájuk egyik első és legjelentősebb eredménye volt az innovációs díjjal elismert kézírásfelismerő modell kifejlesztése.
Magyarok a bölcsészek, az AI szakértők, a szakemberek, és a számítástechnikai eszközök is
A fejlesztés azért egyedi és innovatív, mert hazánkban még nem történt ilyen nagyságrendű, AI-alapú kézírásfelismerés magyar digitális bölcsészek és AI szakértők közreműködésével, magyar szakemberek és számítástechnikai eszközök használatával. A projekt során egy olyan általános kézírás-felismerő modell jött létre, amelyet a közgyűjtemények szabadon felhasználhatnak. Így a jövőben szinte korlátlan mennyiségű magyar nyelvű XIX. századi kéziratoldalt dolgozhatnak fel, amely szövegek eddig nem képezték a kulturális örökség integráns részét.
A kifejlesztett módszertan olyan piaci területen is újabb innovációk kiindulópontja lehet, mint például a céges dokumentumok AI-alapú feldolgozása. A technológiát olyan NKFIH minősítéssel rendelkező kiváló kutatási infrastruktúrák integrálják munkameneteikbe, mint a DH-LAB-QULTO közös kutatási infrastruktúra, vagy a BTK EtnoLab projektje. A kifejlesztett HTR (Handwritten Text Recognition) modell tanításához kétszáz lapnyi Arany-kézírás mellett Arany titkárának, Ring Adorjánnak a kezétől származó, valamint további, csaknem harminc kéz írását tartalmazó korpuszt készítettek a szakértők. A modellt összesen 874 átírt kéziratlapon tanították, amely után a pontossága nem haladta meg az öt százalékos betű szintű hibaarányt. A hivatali iratok publikálása jelenleg folyamatban van az MTA Könyvtár repozitóriumában, kereshető PDF-ek formájában.
A kézzel írt kéziratok háttérbe szorulnak
„A XXI. század első évtizedeiben két egymással szorosan összefüggő és párhuzamos trend figyelhető meg a kultúra és a tudomány területén. Egyrészt a mesterséges intelligencia (AI) olyan mértékben alakítja át és helyettesíti a megszokott kulturális gyakorlatokat, ami korábban elképzelhetetlen volt, másrészt, részben a kulturális örökség digitalizálása, részben pedig a digitálisan keletkező anyagok hatalmas mennyisége miatt korábban elképzelhetetlen nagyságrendben jönnek létre adatbázisok és adathálózatok. A digitális örökség diskurzusában a könnyen feldolgozható és közzétehető nyomtatott vagy digitálisan keletkező anyagok mellett az igazi – azaz kézzel írt – kéziratok háttérbe szorulnak, mivel nem tehetők kereshetővé olyan általános modellekkel, amelyek nem veszik figyelembe az adott dokumentumcsoport sajátos jellemzőit.
Különösen problémás, hogy az AI eszközök jobban működnek a nagy világnyelvek esetében, amelyeket több százmillióan beszélnek. Ezért a magyar kézzel írt dokumentumok különösen alulreprezentáltak a digitális kulturális örökség egészében”. A Digitális Örökség Nemzeti Laboratórium projekt egyik elsődleges feladata ezeknek a problémáknak a megoldása” — mondta Palkó Gábor projektvezető, a BTK Irodalomtudományi Intézetének tudományos főmunkatársa.
A díjazott projektet a november 21. és 23. között a Szépművészeti Múzeumban megrendezendő Science Expo nevű magyar tudományos tárlaton is bemutatják a nagyközönségnek.
Arany János 1859-től a Magyar Tudományos Akadémia (MTA) rendes tagja volt, ahol főtitkárként is dolgozott. Utóbbi poszton végzett adminisztratív munkája óriási jelentőséggel bírt: meghatározta és kialakította az MTA működési kereteit, ezzel pedig az egyik legfontosabb magyar tudományos intézménnyé tette azt. A hivatali iratok korpuszának teljes mérete jelentősen nagyobb a korábbi ismereteinknél, mintegy 9200 dokumentum, amely nagyjából harmincezer kéziratfotónak felel meg. |