2010. október 26.

Az adatok tudománya és nyelvészet - ismét

Napjainkban az adatok korát éljük. Ennek megfelelően kialakulóban van egy új alkalmazott tudományág, az adatok tudománya (data science) melyet itt már bemutattunk és a nyelvészeti adatok természetéről is ejtettünk pár szót, azoknak pedig akik szeretnének jobban elmélyedni a témában egy kis összafoglalót is közöltünk. Most Bender és Good nyomán arra szeretnénk kitérni hogy mit tud hasznosítani a nyelvtudomány az adatok tudományának eszköztárából és mit tud adni ezért cserébe.



Az adatok tudományának egyik legnépszerűbb bemutatása szerint ez az új megközelítés nem más mint megtalálni a választ arra hogy miképp kezelhetjük azt az iradtalan és egyre csak növekvő adatmennyiséget ami ránkszakadt. Nem egy statikus változással állunk szemben, hiszen az adatokra fordított More törvénye szerint az adatok kitöltik a rendelkezésükre álló tárolókapacitást és nem szabad elfelejtenünk hogy ami ma nagy kapacitásnak számít hamarosan átlagossá válik. Ez a folyamatosan változó környezet viszont meglepő módon nem csak új technológiákat generált, hanem visszanyúlt a számítástudomány alapjaihoz mint például a különböző unix eszközök használata gyors adatfeldolgozásra (sed, grep, awk, gnuplot) illetve a funkcionális paradigma elveinke, de akár nyelveinek újrafelfedezése (a mapreduce alapötlete, az R nyelv vagy a Clojure nyelv és a népszerű Incanter csomag használata).

Bender és Good A Grand Challenge for Linguistics: Scaling Up and Integrating Models (link fent) írása arra hívja fela a figyelmet hogy fel kell vennünk a ritmust és válatozatnunk kell eddigi módszereinken. Van mire építenünk, hiszen a nyelvészek eszköztárába a fent felsorolt eszközök közül jó esetben legalább pár megtalálható, viszont a jelenlegi adatbázisok mérete és skálázhatósága kérdéses. Sokan ezért fordulnak az internet felé és egyre jobban teret nyer a "net as a corpus" felfogás, ám ezzel az a baj hogy nem felel meg a tudományos munkához szükséges reprezentatív és kiegyensúlyozott mintavételezésnek. Ezért szükséges hogy standardizált módon gyűjtsünk nagymennyiségű adatot, ehhez azonban meg kell teremteni ezen törekvések koordinációját. Jelenleg ugyanis a net mint korpusz torzít, az angol nyelv és bizonyos regiszterek (technikai írások, hírek, felnőtt tartalmak stb) felülreprezentáltak, nem beszélve arról hogy kor és társadalmi státus szerint sem egyenletes a korpusz, továbbá a beszélt nyelv szinte teljesen kiesik belőle. Persze ezek nélkül is sok hasznos dolgot alkottak már, de ha sikerül ezen a korláton túllépni, akkor pontosabb képet alkothatunk elméleteink helytállóságáról is. Ezzel párhuzamosan ha jól tervezett korpuszokkal dolgozhat az ipar, akkor jobb és használhatóbb alkalmazások születhetnek. Ezért fontos hogy a jövőben megszülető nyelvészeti adatbázisok szabadon hozzáférhetőek legyenek mindenki számára. Így nagyobb teret kaphatnak a komparatív vizsgálatok is, ami ismét visszahathat a gyakorlati felhasználásra (pl a gépi fordítás területén). Nem szabad elfeledkeznünk a veszélyeztett és kis nyelvekről sem. Ezen a téren nekünk is sok tennivalónk akad!  A magyar nyelv az üzleti élet számára kicsi, ha sikerülne egységes és jól megszerkeztett nyelvi adatbázist létrehozni megnőne az érdeklődés az akadémiai körökben és megkönnyítené az üzleti alapon működő projektek honosítását is, de akár hazai alkalmazások is szárbaszökkenhetnének az adatbázis alapjain, további magyar tartalmakat generálva. Az alapok adottak, jó nyelvészeink és nyelvtechnológiai szakembereink vannak idehaza, a szükséges infrastruktúra is megvan (a technikai még nem, de az ma már nem túl drága,  az adatgyűjtéshez szükséges humánerőforrás és know-how pedig adott a hazai egyetemeken), reméljük egyszer valaki elindít egy hasonló projektet, hiszen ez az igazi nyelvművelés és nyelvvédelem.

Nincsenek megjegyzések: