„Aranyat” ér a DH-LAB AI-alapú kézírásfelismerő rendszere

Arany JánosA Digitális Örökség Nemzeti Laboratórium (DH-LAB) munkájának egyik első és legjelentősebb eredménye annak a kézírásfelismerő modellnek a kifejlesztése, amellyel kereshetővé váltak Arany János hivatali iratai. A fejlesztésért Társadalmi Innovációs Díjat kapott a projektcsoport a Kulturális és Innovációs Minisztériumtól (KIM).

A Magyar Tudományos Akadémia Könyvtárában őrzött Arany János hivatali iratok kereshetővé tételét segíti az a fejlesztés, amelyért Társadalmi Innovációs Díjat kapott a DH-LAB. A laboratórium fejlesztésének köszönhetően egy rendkívül értékes anyag válik hozzáférhetővé úgy a kutatók, mint a nagyközönség számára. A KIM elismerését november 13-án vehették át projektben részt vevők.

A DH-LAB a BTK Irodalomtudományi Intézetének, a Miskolci Egyetemnek, valamint az Eötvös Loránd Tudományegyetem (ELTE) BTK TI Digitális Bölcsészet Tanszék szakértőinek közreműködésével, az ELTE IK Mesterséges Intelligencia Tanszék hallgatóival közösen alakítja ki a magyar nyelvre optimalizált AI eszközök alkalmazásának módszertanát a közgyűjteményekben, a nyílt tudományosság elveinek megfelelően, saját hardware környezetben. Közös munkájuk egyik első és legjelentősebb eredménye volt az innovációs díjjal elismert kézírásfelismerő modell kifejlesztése.

Magyarok a bölcsészek, az AI szakértők, a szakemberek, és a számítástechnikai eszközök is  

A fejlesztés azért egyedi és innovatív, mert hazánkban még nem történt ilyen nagyságrendű, AI-alapú kézírásfelismerés magyar digitális bölcsészek és AI szakértők közreműködésével, magyar szakemberek és számítástechnikai eszközök használatával. A projekt során egy olyan általános kézírás-felismerő modell jött létre, amelyet a közgyűjtemények szabadon felhasználhatnak. Így a jövőben szinte korlátlan mennyiségű magyar nyelvű XIX. századi kéziratoldalt dolgozhatnak fel, amely szövegek eddig nem képezték a kulturális örökség integráns részét.

A kifejlesztett módszertan olyan piaci területen is újabb innovációk kiindulópontja lehet, mint például a céges dokumentumok AI-alapú feldolgozása. A technológiát olyan NKFIH minősítéssel rendelkező kiváló kutatási infrastruktúrák integrálják munkameneteikbe, mint a DH-LAB-QULTO közös kutatási infrastruktúra, vagy a BTK EtnoLab projektje. A kifejlesztett HTR (Handwritten Text Recognition) modell tanításához kétszáz lapnyi Arany-kézírás mellett Arany titkárának, Ring Adorjánnak a kezétől származó, valamint további, csaknem harminc kéz írását tartalmazó korpuszt készítettek a szakértők. A modellt összesen 874 átírt kéziratlapon tanították, amely után a pontossága nem haladta meg az öt százalékos betű szintű hibaarányt. A hivatali iratok publikálása jelenleg folyamatban van az MTA Könyvtár repozitóriumában, kereshető PDF-ek formájában.

A kézzel írt kéziratok háttérbe szorulnak

„A XXI. század első évtizedeiben két egymással szorosan összefüggő és párhuzamos trend figyelhető meg a kultúra és a tudomány területén. Egyrészt a mesterséges intelligencia (AI) olyan mértékben alakítja át és helyettesíti a megszokott kulturális gyakorlatokat, ami korábban elképzelhetetlen volt, másrészt, részben a kulturális örökség digitalizálása, részben pedig a digitálisan keletkező anyagok hatalmas mennyisége miatt korábban elképzelhetetlen nagyságrendben jönnek létre adatbázisok és adathálózatok. A digitális örökség diskurzusában a könnyen feldolgozható és közzétehető nyomtatott vagy digitálisan keletkező anyagok mellett az igazi – azaz kézzel írt – kéziratok háttérbe szorulnak, mivel nem tehetők kereshetővé olyan általános modellekkel, amelyek nem veszik figyelembe az adott dokumentumcsoport sajátos jellemzőit.

Különösen problémás, hogy az AI eszközök jobban működnek a nagy világnyelvek esetében, amelyeket több százmillióan beszélnek. Ezért a magyar kézzel írt dokumentumok különösen alulreprezentáltak a digitális kulturális örökség egészében”. A Digitális Örökség Nemzeti Laboratórium projekt egyik elsődleges feladata ezeknek a problémáknak a megoldása” — mondta Palkó Gábor projektvezető, a BTK Irodalomtudományi Intézetének tudományos főmunkatársa.

A díjazott projektet a november 21. és 23. között a Szépművészeti Múzeumban megrendezendő Science Expo nevű magyar tudományos tárlaton is bemutatják a nagyközönségnek.

Arany János 1859-től a Magyar Tudományos Akadémia (MTA) rendes tagja volt, ahol főtitkárként is dolgozott. Utóbbi poszton végzett adminisztratív munkája óriási jelentőséggel bírt: meghatározta és kialakította az MTA működési kereteit, ezzel pedig az egyik legfontosabb magyar tudományos intézménnyé tette azt. A hivatali iratok korpuszának teljes mérete jelentősen nagyobb a korábbi ismereteinknél, mintegy 9200 dokumentum, amely nagyjából harmincezer kéziratfotónak felel meg.

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

Next Post

Samsung és a Technogym partneri megállapodást kötött

szo nov 16 , 2024
A Samsung Electronics Co., Ltd. bejelentette, hogy partnerségre lép a csúcskategóriás fitneszmegoldásokat gyártó Technogymmel annak érdekében, hogy a Samsung eszközöket választók számára elérhető legyen az otthoni edzés prémium élménye. A szolgáltatás a Samsung Daily+ platformon jelenik meg, amely a dél-koreai gyártó okostelevízióin érhető el, tovább bővítve ezáltal a Samsung tévéken […]
fitnessz

És még ez is...