Nyelvtechnológiai kutatócsoport

A Nyelvtechnológiai kutatócsoport jogelődje a Korpusznyelvészeti Osztály 1997-ben alakult, az akkor már néhány éve zajló nyelvtechnológiai kutató-fejlesztő munka formális elismeréseként. A kutatócsoport azóta jelentős kutatási és fejlesztési tapasztalatot halmozott fel a nyelvtechnológia számos területén: kiemelkedő eredményeket ért el nyelvi erőforrások építésében, nyelvtechnológiai eszközök fejlesztésében és újabban nyelvmodellek tanításában is.

A nyelvi erőforrások tekintetében ki kell emelnünk a Magyar Nemzeti Szövegtár első változatát: a 2005-ben elkészülő 187,6 millió szavas, reprezentatív, határon túli nyelvváltozatokat is tartalmazó annotált szövegkorpusz volt az első nagyobb ilyen jellegű adatbázis a magyarra. A 2014-ben közre adott MNSZ2, az MNSZ továbbfejlesztett változata, nemcsak majdnem tízszer több szövegszót tartalmaz (1.5 Mrd), hanem új, fontos szövegtípusokat is lefed, mint például a közösségi média. Továbbá a nyelvi elemzés minősége is sokat javult elődjéhez képest.

A kutatócsoport munkatársai az évek során számos eszközt is kifejlesztettek. Ezek közül az egyik legjelentősebb a helyesírás.mta.hu – Helyesírási tanácsadó portál, amely azért jött létre, hogy a magyar helyesírás bizonyos területein automatikus eszközökkel segítse az írásukra igényes érdeklődőket. De meg kell említeni az e-magyar nyelvi elemzőláncot illetve ennek továbbfejlesztett, modularizált utódját, az emtsv-t is, amelyek természetes nyelvi szövegek széleskörű elemzését teszik lehetővé.

A WordNet lexikai adatbázis magyar változata a másik fontos erőforrás, amely a kutatócsoport közreműködésével jött létre. A HuWordNet három éves munka eredményeként készült el, és a magyar szóállományt térképezi fel jelentéstani szempontból: a szinonim szavakat és a köztük lévő relációkat egyaránt tartalmazza.

A 2013-ban majd 2018-ban bekövetkező tudományági paradigmaváltások komoly hatással voltak a kutatócsoportban folyó munkálatokra is. A meghatározó nemzetközi kutatásokat követve létrehoztuk az elsősorban angolra kifejlesztett neurális nyelvmodellek magyar változatát. Ez kezdetben statikus szóbeágyazásokat jelentett, ám mostanra már rendelkezünk számos transzformer-alapú kontextuális nyelvmodellel is. Ilyen többek között például a HILBERT, amely egy BERT-Large nyelvmodell, valamint a GPT-3 magyar verziója. A kutatócsoport jelenlegi tevékenységének egyik fontos eleme a nyelvmodellekhez kapcsolódó új tanítási paradigmák feltérképezése, mint például a zero-shot és a few-shot learning vagy a prompt programming. További kitüntetett kutatási irány a gépi fordítás minőségének javítása transzformer-alapú neurális hálókkal.

Másik kiemelt törekvésünk, hogy olyan magyar nyelvű teszt-adatbázisokat illetve tesztelő környezetet hozzunk létre, amelyek együttesen lehetővé teszik a neurális háló alapú technológiák egyszerű ugyanakkor többszempontú kiértékelését, valamint ezen eredmények összehasonlítását. Ebből a célből elkészült a Hungarian Language Understanding Evaluation Benchmark Kit (HuLU), az angol nyelvre kidolgozott GLUE és SuperGLUE teszt-adatbázis infrastruktúra mintájára. A teszt-adatbázis egy webszolgáltatás keretében elérhető a hulu.nytud.hu linken.

Az itt folyó kutatások

Neurális nyelvmodellek és alkalmazások fejlesztése

Az utóbbi évtizedben uralkodóvá vált transzformer-alapú neurális nyelvi modellek paradigmaváltást hoztak a nyelvtechnológia egészében. Ezen általános célú nyelvmodellek kifejlesztéséhez azonban rendkívüli számítástechnikai kapacitás és óriási adatmennyiség szükséges. Fő feladatunk, hogy a világszínvonalat jelentő nyelvmodelleket rövid követéssel a magyar nyelvre is rendszeresen kidolgozzuk, és elérhetővé tegyük a magyar nyelvtechnológiai szakma számára. Az legújabb típusú, nagymennyiségű adaton tanított, hatalmas méretű neurális hálók már egy jelentős lépést tettek meg a feladat-agnosztikus mesterséges intelligencia irányába, vagyis már sok esetben feladat-specifikus utótanítás nélkül is elérik az addig legjobbnak számító nyelvmodellek eredményeit. Ez azt jelenti, hogy “finomhangolás”, azaz nagyobb mennyiségű (több ezer- vagy akár több százezer) címkézett feladat-specifikus tanító adat helyett már pár példa is elég lehet hagyományosabb, finomhangolásos módszertannal készülő nyelvmodellekével összemérhető eredmények eléréséhez. Ez a pár példán alapuló tanítási eljárás az ún. few-shot learning. A few-shot learning és egyéb meta-learning technikák (zero-shot learning, prompt programming) gyakorlati és elméleti szempontból egyaránt kiemelt szereppel bírnak. Így különös figyelmet kell szentelnünk annak, hogy ezek az újfajta tanítási mechanizmusok pontosan milyen módon és milyen feladatokra alkalmazhatóak.

A NYTK demóoldalán kipróbálhatók a következők:

PULI-GPT-3SX: Magyar nyelvű GPT3 NEOX (7 millárd paraméter)
Fordító: NYTK angol-magyar gépi fordítás
Kivonatolás: Absztraktív összefoglaló generálás / kivonatolás
Szentimentelemző: NYTK mondatalapú és aspektalapú (entitásorientált) szentimentelemzés
Névelemfelismerő: Névelemfelismerés és anonimizálás
Címkéző: Szövegosztályozó, kategorizáló és címkéző
Ékezet-visszaállító: NYTK ékezet nélküli szövegek ékezetesítése
GPT-2: NYTK Megatron GPT-2

Gépi fordítás

A nyelvtechnológia egyik fontos szakterülete a gépi fordítás. Napjaink piacvezető technológiájának számító transzformer-alapú nyelvi reprezentációt elsőként a gépi fordítás területén hozták létre, amely innen kiindulva vált nem csak az NLP legmeghatározóbb, de a beszédfeldolgozás vagy akár a képfelismerés tudományának meghatározó eszközévé. A kutatás célja a saját angol-magyar nyelvpárra létrehozott transzformer-alapú gépi fordító rendszer továbbfejlesztése többnyelvű irányba, hogy az ne csak két nyelv közötti fordítás elvégzésére legyen alkalmas, hanem több bemeneti nyelvről fordítson egy vagy akár több nyelvre. A piacon elérhető rendszerek elsősorban angol központúak, így a legjobb minőségét az angolra, mint célnyelv éri el a rendszer. Sőt, ezek a rendszerek kifejezetten alacsony minőséget produkálnak az angolt nem tartalmazó nyelvpárok közötti fordítás esetén. Így kutatásunk célja a meglévő rendszerek magyar központú fordítási minőségének javítása.

Adatkészlet és tesztadat-állomány építés

Az élvonalbeli nyelvtechnológia követésének egyik előfeltétele a magyar nyelvű fejlesztési eredmények szabványos mérése. Ehhez a szigorú módszertan szerint készített teszt-adatbázisok, úgynevezett benchmark korpuszok egész sora szükséges, amelyek referenciaként szolgálnak az új technológiák és eszközök fejlettségi szintjének megállapításához. A benchmark adatbázisok azonban nemcsak azt a célt szolgálják, hogy a különböző nyelvmodellek teljesítményét összemérjék. Fontos új szerepük annak feltérképezése, hogy egy-egy nyelvmodell mire képes. A benchmark adatbázisok ezen új szerepe annak köszönhető, hogy a legújabb generációs nyelvmodellek egyre kevésbé feladat-specifikusak, vagyis minimális erőfeszítéssel egymástól jelentősen eltérő feladatok elvégzésére illetve megoldására alkalmazhatóak. Így a nyelvi jelenségek sokaságát lefedő teszt-adatbázisok kiemelt szerepe, hogy segítségükkel feltárjuk, hogy az egyre inkább feladat-agnosztikus modellek (pl. GPT-3) mi mindenre képesek. A fenti célokat szolgálja az a kutatási irány, amely a magyar nyelvű tesztadatbázis-bank létrehozását tűzi ki célul az angol nyelvre kidolgozott GLUE és SuperGLUE infrastruktúra mintájára. Fontos hangsúlyozni, hogy az angol benchmark korpuszok adaptálása a magyarra korántsem triviális feladat. Számos nyelvészeti és esetenként módszertani kérdést is meg kell válaszolnunk, hogy ezen korpuszok magyar változatait elkészíthessük. .A nyelvmodellek kiértékeléséhez kapcsolódóan további kutatási feladatunk a kiértékelési metrikák pontosítása is.

Adatinfrastruktúra építése gondozott szövegek OCR-hibáinak javításával

A nyelvmodellek előállításához sokmilliárd szavas szöveges korpusz szükséges, melynek legkézenfekvőbb forrása az Internet. Az itt elérhető szövegek zöme azonban bizonytalan eredetűek és minőségűek és kevés metaadat áll róluk rendelkezésre. A legtöbb ilyen szövegeket magyar nyelven az Arcanum Adatbázis Kiadó könyvgyűjteménye tartalmazza. A kiadóval folyó együttműködés keretében rendelkezésünkre áll egy kilencmilliárd szavas korpusz, amely a kiadó több éves OCR szkennelő (Optical Character Recognition) tevékenységének eredménye. A OCR technológia azonban nem 100%-os pontossággal találja ki a szkennelt dokumentum karaktereit, így van ez az Arcanum anyag esetében is, karakter hibák kerülnek a digitalizált szövegbe.

A probléma megoldása a post-OCR eljárás, ami – a probléma generalitását mutatja – világszerte a számítógépes nyelvészeti műhelyek egyik kurrens kutatási iránya. A mi célunk tehát az, hogy a nemzetközi kutatások eredményeit magyarra implementálva, azok eredményeit lehetőség szerint reprodukálva megtisztítsuk az OCR-hibáktól ezt az óriási szövegkorpuszt.

Ahhoz, hogy a nyomtatott dokumentumokból származó digitális szövegekből nyelvmodellek tanítására alkalmas tanítóanyag váljon, az OCR-hibákon kívül az úgynevezett koherencia hibákat is orvosolni kell. Ilyen hibák például az oldalszámok, lábjegyzetek, fejlécek valamint az elválasztások, amik beékelődnek az összetartozó szövegek közé és ezzel eltérítik a nyelvmodelleket. Ez egy szükséges ámde nem triviális feladat.

Reményeink szerint a poszt-OCR eljárás fejlesztésében szerzett tapasztalataink megkönnyítik majd a probléma jellegében hasonló, pdf konverziós karakter-hiba javító eljárás fejlesztését is.

Munkatársak


Prószéky Gábor
főigazgató, tudományos tanácsadó


Váradi Tamás
főigazgató-helyettes, igazgató, tudományos főmunkatárs


Héja Enikő
kutatócsoport-vezető, tudományos munkatárs


Dodé Réka
tudományos segédmunkatárs


Ferenczi Gergő
informatikai vezető


Jelencsik-Mátyus Kinga
tudományos munkatárs


Laki László János
tudományos munkatárs


Ligeti-Nagy Noémi
tudományos munkatárs


Vadász Noémi
tudományos segédmunkatárs


Yang Zijian Győző
tudományos munkatárs