
A beszédfelismerésnek komoly szerepe lehet az internet jövőjében, hiszen így a hangfájlokban is lehet keresni
A szóban forgó program, azaz a Hunspell Németh László fejlesztése, és amellett, hogy a leggyorsabban frissülő szótárral rendelkező magyar helyesírás-ellenőrző - már ismeri a zrt.-t és az nyrt.-t. is -, keretprogramját világszerte használják: a Firefoxban, az OpenOffice.org-ban, de sok magyar szoftvertermékben is megtalálható. Készítőjét munkájáért nemrég Pekingben tüntették ki.
Hiába tartozik a magyar nyelv toldalékoló jellege miatt a nehezebb nyelvek közé, minden alkalmazási területen - például szótárak vagy beszédfelismerés - a magyar felhasználó nagy múltú programok közül válogathat. Az iparág résztvevői Nyelv- és Beszédtechnológiai Platform néven szervezetet hoztak létre, hogy a kutatás-fejlesztési forrásokra közösen pályázhassanak. A szervezet konferenciáján ki is lehetett próbálni a már kész termékeket.
Az AITIA Rt. beszédfelismerő programját például egy parlamenti beszéden mutatták be, az elkészült felirat nagyrészt hang nélkül is értelmezhető volt. Ezt az eredményt az élő adáshoz képest 1-2 perc késleltetéssel tudják elérni. A cég a holokauszt-túlélők történeteit tartalmazó Malach-gyűjteményen is dolgozott, ám mivel itt idősebb emberek, érzelemmel telített hangon beszélnek, a beszédfelismerés már háromszor annyi időt vesz igénybe. A beszédfelismerésnek komoly szerepe lehet az internet jövőjében, hiszen a most még nem kereshető iszonyú mennyiségű online videoanyagban is tudunk majd kutakodni.
Ezek a programok nem működhetnek egy alaposan, nyelvtani szempontból osztályozott nyelvi gyűjtemény nélkül. A beszélők hangjának, hangulatának, a környezet akusztikájának különbségei miatt valószínűleg sohasem tudunk majd olyan hangfelismerőt elkészíteni, amely a 100 százalékot megközelítő pontossággal tud működni. Ezért aztán a programoknak jól kell ismerniük a beszélő nyelvét, hogy kikövetkeztethessék, a legnagyobb valószínűség szerint melyik szót mondták a mikrofonba.
A felismerők által használt nyelvi készleteket a cégek legtöbbször a különböző egyetemi kutatócsoportoktól veszik át, akik egész más célokra is használhatják azokat. A BME Média Oktatási és Kutató Központja csoportja az internetes szövegek elemzésével is próbálkozik: például azzal, hogy megállapítsák a fórumbejegyzésekről, hogy a szerző hogyan viszonyul egy kérdéshez (például népszavazás), vagy hogy megmutassák, hogy egy tudományterület konferenciáinak szövegei alapján mely fogalmak kerültek előtérbe és szorultak háttérbe az idők során.
A nyelvi programok legklasszikusabb területe természetesen a fordítástámogatás. A Sztaki.hu közösségi fejlesztésű szótáraival biztosan mindenki találkozott már, de megjelent a Webforditas.hu is, amely egész honlapokat tud lefordítani 34 nyelvről magyarra a Morphologic egyedülálló megoldása révén. Persze az ilyen szolgáltatásoktól nem várhatunk nyomdakész munkákat, de ha épp egy honlap hozzávetőleges tartalmára vagyunk kíváncsiak, vagy csak navigálni szeretnénk rajta, nagy segítséget jelenthet.
|