MI-t fejleszt az OSZK és a NYTK

11 hónap ago

Az Országos Széchényi Könyvtár (OSZK) és a Nyelvtudományi Kutatóközpont (NYTK) mesterséges intelligencia fejlesztését célzó innovációs együttműködést indít, amely nagy nyelvi modellek építését és nyelvfeldolgozó eszközök létrehozását állítja a középpontba.

A megállapodás értelmében az OSZK a NYTK-nak átadja a Magyar Elektronikus Könyvtárban és az Elektronikus Periodika Archívum és Adatbázisban elérhető szöveges dokumentumokat, a webarchívumok szöveges állományait, valamint a Digitális bölcsészeti platform adatbázisban szereplő anyagokat. A kutatóközpont ezeket a szövegeket felhasználva nagy nyelvi modelleket épít, amelyek finomhangolásával számos nyelvfeldolgozó eszközt lehet fejleszteni – mutatnak rá a közleményben. Hozzátették, hogy a kutatóközpontnak már van tapasztalata a nyelvi modellek fejlesztése terén: a nevéhez fűződik a Puli-GPT, amely csak magyar nyelvű szöveges anyagokon tanult, és a ChatGPT-hez hasonló funkcionalitással bír.

Az együttműködés központjában nagy nyelvi modellek építése és nyelvfeldolgozó eszközök létrehozása van

Az NYTK a nemzeti könyvtár szövegei alapján létrehozott eszközöket az OSZK számára is hozzáférhetővé teszi. A nyelvfeldolgozó eszközök segítségével egyebek mellett a nyelvfelismerés és a webarchiválási tevékenység keretében keletkezett hatalmas mennyiségű tartalom feldolgozása is automatizálhatóvá válik. Emellett a nemzeti könyvtár és az NYTK kooperációban dolgozza fel és teszi elérhetővé a Magyar Nagylexikon tizenkilenc kötetének anyagát. A terjedelmes dokumentum egyrészt olvasható és kereshető lesz egy webes lekérdező-felületen a felhasználók számára, másrészt származtatott erőforrások készülnek belőle, amelyeket a mesterségesintelligencia-kutatással foglalkozó szakemberek kiválóan tudnak majd hasznosítani egyéb eszközök fejlesztéséhez – olvasható a közleményben.