2011. január 29.

Írástudók hajnala: innováció a médiában I. - Wordnik, a 21. század szótára

Sokan temetik a Guttenberg-galaxist, pedig nagy a mozgolódás ezen a téren. Az újmédia telis-tele van innovációval, persze még nem látszik hogy a sok újdonságból mikor marad meg és válik általánosan elfogadottá, azonban vannak olyan irányzatok melyek kijelölik az utat. Sajnos ezekről felénk keveset olvashatunk itthon, az iPad/Kindle és mobil eszközökkel kapcsolatos híreken túl. Sorozatunkban megpróbálunk túllépni ezen és bemutatni pár olyan irányt ami utat mutathat. Az első részben a szavakra fókuszálunk és a szótárra, ami sokak szerint unalmas téma, sokan nagyon egyszerű dolognak tartják az online szótárakat, azonban a kérdés ennél sokkal összetettebb.




A kiadók gyakran elfelejtkeznek a legegyszerűbb építőkövekről, a szavakról. A szavak ott vannak a szótárban, a szerkesztőségek pedig kialakult hagyományok alapján választottak már maguknak egyet, a nagyok írtak saját stílus kézikönyveket és azokban az országokban ahol nincs központosítva a helyesírás még azt is meghatározzák hogy a kérdéses változatok közül melyiket válasszák (a kicsik pedig általában követik valamelyik nagyot, ami nem szimpla utánzás, hanem pl hagyománykövetés). Aki olvas az általában szembetalálja magát egy-egy ismeretlen szóval (különösen igaz ez ha nem anyanyelvén olvas valaki) és ekkor nyúl a szótárhoz. Azonban a hagyományos szótárak korlátozott eszközök és nem felelnek meg teljesen korunk kihívásainak (tehát nem úgy általában elavultak, hanem nem tudjuk őket alkalmazni bizonyos új területeken).  Ezt Erin McKean nagyon szépen kifejtette TED előadásában, akinek van egy kis ideje nézze meg a videót.



Akinek pedig akad egy órája, az nézz meg Google előadását.




Hogyan is néz ki modern szótár? A McKean által alapított Wordnik erre ad választ. Hatalmas adathalmazból merítve közöl információt egy-egy szóról, de ennél tovább megy és az ún. wildcard használatát is támogatja. API-ja pedig fantasztikus! Definíción kívül hasonló szavakat, ellentéteket, de bigrammokat is lekérdezhetünk. A Wordnik még ennél is tovább ment egy lépéssel és a Smart Words nyílt szabvány megteremtésén fáradozik partnereivel (és az arra nyitottakkal).



A Smart Words alapvetően lexikális egységeket szeretne rendszerezni és kereshetővé tenni, azonban ezzel egyben nyitnak is a a szemantikus web (és a linked data mozgalom) felé. Alulról építkezve olyan "minimális" (a minimális itt nem az adatok mennyiségére, hanem az elemzési szintre vonatkozik) tudásbázist építenek fel mely alapul szolgálhat a manapság divatos lexikális grammatikáknak (és egyben a ma népszerű ún. lánc grammatikáknak melyek szemantikai elemzés során képesek természetes nyelvi mondatokat elemezni egyszerű tripletek formájában). A Smart Words-höz csatlakozott többek között az adatújságírás egyik éllovasa, a New York Times is. Az sem mellékes hogy az NYT hatalmas taggelt korpusszal és know-how-val rendelkezik linked data publikálás terén. Az olvasás élményét pedig mindenképpen átalakíthatja a kontextus ismeretében történő keresés (pl. ha nem tudjuk hogy mi Galicia egy szövegben, a kontextus ismeretében a kereső eldöntheti hogy minket a spanyol vagy a volt osztrák tartomány érdekel).

Azt hogy nem csak egyszerű szótárról van szó, jelzi a Wordnik Blekko együttműködés is. A \define slashtaget a San Mateo-i cég biztosítja az új (és ígéretes) keresőnek (aki nem ismeri a Blekko-t, annak ajánlom a Kereső Világ Blekko, a hű vadászkutya posztját), de ennél többről van szó. Mark Wong-VanHaren személyében a K+F részleg élére egy olyan ember érkezett aki pl az első sikeres kereső (Excite) születésénél bábáskodott, és nagyon szép karriert tudhat maga mögött eddigis. Az új alkalmazottak pedig a legjobb helyekről kerültek ki, Wong-vanHarlen a legendás Symbolic Systems program alumnija, a kutatási igazgató Jeremy Kahn pedig a szintén nagy hagyományokkal rendelkező University of Washington-ról érkezett a csapatba és egészen biztos hogy nem csak lexikográfiát akarnak művelni ezek a fiúk.

Nincsenek megjegyzések: