2012. október 30.

Egy másik metaforamasina

Draaisma Metaforamasina c. könyve nagyszerűen mutatja be mennyire meghatározó egy-egy metafora a tudományban. A DARPA Metaphor Program nevű kutatási programja azonban a hétköznapi nyelvben használt metaforákra összpontosít:

The Metaphor Program will exploit the fact that metaphors are pervasive in everyday talk and reveal the underlying beliefs and worldviews of members of a culture. In the first phase of the two-phase program, performers will develop automated tools and techniques for recognizing, defining and categorizing linguistic metaphors associated with target concepts and found in large amounts of native-language text. The resulting conceptual metaphors will be validated using empirical social science methods. In the second phase, the program will characterize differing cultural perspectives associated with case studies of the types of interest to the Intelligence Community. Performers will apply the methodology established in the first phase and will identify the conceptual metaphors used by the various protagonists, organizing and structuring them to reveal the contrastive stances. [forrás]

Számomra nagyon érdekes, mennyire empirikusan nyúlnak a dologhoz, magyarán empirikus tesztet végeztek egy korpusz segítségével a jelentkezők szoftvereivel. Ez 2011-ben történt és vicces volt hogy egy ilyen nemzet biztonsági program kapcsán mennyi blogposzt és tweet született. Valahogy most mindenki hallgat, lehet hogy a második fázisban az Intelligence Community első kérése volt a titoktartás...

Akármennyire menő most a sentiment analysis és mindenféle szövegelemzés, a metaforák központi szerepet játszanak a nyelvben, a program pedig erre világít rá. Vessünk egy pillantást a példa esettanulmányok elkészítéséhez ajánlott irodalom listájára. Ott virít Lakoff egyik könyve (ha nem is a legjobb) és pár tartalomelemzéssel foglalkozó politikatudományi tanulmány. Számomra ez azt jelenti, hogy ha túl akarunk lépni a most rendelkezésünkre álló korlátozott módszereken, akkor bizony vissza kell térnünk a "klasszikus" nyelvészethez. Ennek oka egyszerű, a megoldásra váró problémák fogalmi elemzését és a sikeresség kritériumait ezekből az elméletekből vezethetjük le, jó esetben még a megoldáshoz is inspirációt adnak. Szóval elkezdem olvasni Kövecses Metafora című könyvét iziben.

2012. október 29.

Six Provocations for Big Data

Idén történt egy konferencián, hogy két számítástudós lelkesen adta elő "forradalmi" eredményeit egy konferencián és a közönség soraiból többen is mocorogtunk, vártuk a kérdések idejét. Maga az előadás rendben volt, az izgalmat az okozta hogy a bemutatott eredmények nem voltak forradalmiak, tkp. Mark Granovetter elméletét ismételték el az előadók és nem értették miért tesszük szóvá nekik ezt. A big data, data science és business intelligence hármasa egyre többször fut bele ilyen helyzetekbe, hiszen olyan témákról próbál szólni, melyeket más tudományok már régóta vizsgálnak. danah boyd és Kate Crawford Six provocations for big data című tanulmánya arra hívja fel a figyelmet hogy bizony vannak határai és buktatói a nagy adathalmazoknak is. A metodológiai kérdések mellett (pl. jobb-e a több adat, mennyire reprezentatív a Twitter és egyéb közösségi oldalak által szolgáltatott publikus adathalmaz stb.) legalább annyira izgalmasak az etikai kérdések (mennyire egyezik bele a mezei felhasználó abba hogy kutatásokra használjuk adatait, ki férhet hozzá az adatbázisokhoz) is. Érdemes elolvasni a tanulmányt, vagy legalább megnézni az  alábbi videót.


2012. október 19.

Megújult a Google Ngram Viewer

A szimpla frekvenciákon túl immár minden korpusznyelvész szívét megmelengető képességekkel bővült a Google Books Ngram Viewer. A Google Research Blog bejelentése szerint:
Two features of the Ngram Viewer may appeal to users who want to dig a little deeper into phrase usage: part-of-speech tags and ngram compositions.
Az alábbi tag set (azaz POS tagek, magyarán szófaj címkék) áll rendelkezésünkre:



A tagek egy része önmagában is állhat ill. a egy adott szót pontosíthatunk vele, másrészük pedig önmagában áll (stand alone). Egy példa arra hogy mire jó ez:



Lehetőségünk van immár összetett kifejezések keresésére is, ezt fedi az ngram compositions. Az összetételeket a reguláris kifejezések nyelvéhez hasonló operátorokkal építhetjük fel.



Az operátorokkal ilyen összetett query-ket építhetünk fel:



Ben Zimmer posztja a Language Log-on részletesen bemutatja az Ngram Viewer hátterét és linkel két tanulmányt ami a projekt technikai részletei iránt érdeklődőknek ajánlott.


2012. október 17.

Könyvismertető: Understanding Search Engines: Mathematical Modeling and Text Retrieval

Sokan kérdezték hogy akad-e valami ami Widdows könyvénél komolyabb, de nem annyira mint van Rijsbergen munkája. Habár vannak hibái és egy kicsit már érződik raja az idő, Michael W. Berry Understanding Search Engines: Mathematical Modeling and Text Retrieval című könyve remekül betöltheti a híd szerepét.

Understanding Search Engines: Mathematical Modeling and Text RetrievalUnderstanding Search Engines: Mathematical Modeling and Text Retrieval

Nem szabad megfeledkeznünk arról hogy a kötet kiadója a Society for Industrial and Applied Mathematics. Így ne várjunk olyan szép narratívát mint amit a CSLI gondozásában megjelent Meaning and Geometry nyújt! 117 oldalon a keresés legalapvetőbb elméleti és technikai problémáit tekinti át a szerző, ami valljuk be nem eredményezhet egy kalandregényt. A könyv nyelvezete egy kicsit nehezen követhető, hullámzó színvonalon tárgyalja a matematikai vonatkozásokat (ezen a Google sokat segíthet olvasás közben), a technikai részek pedig kifejezetten gyengék. Ellenben nagyon logikusan építkezik a szerző, minden alapfogalom bevezetésre kerül és valamennyire a formális hátteret is megismerhetjük.

A bevezető fejezet tisztességesen kontextusba helyezi a témát, a második feladat áttekinti az előfeldolgozást valamennyire, de tényleg ne várjunk tőle túl sokat és vegyük figyelembe hogy technikai értelemben egy 2005-ben megjelent könyv már tkp. használhatatlannak tekinthető. A harmadik fejezet a vektortereket, a negyedik pedig a mátrix dekompozíciót taglalja, jó példákkal és akár komolyabb előismeretek nélkül is érthetően, de ne tekintsük egy lineáris algebra kurzus helyettesítőinek őket. Az ötödik fejezet a query-kről szerintem a kötet legjobb része, tömör és világos és máshol eddig még nem találkoztam ilyen jó leírással. A hatodik fejezet a ranking és a relevancia kérdésével foglalkozik röviden, a precision és recall fogalmait bemutatva. A hetedik fejezet sajnos vázlatosra sikeredett, de a HITS és a PageRank algoritmusok lényegét megismerhetjük belőle. A nyolcadik fejezet az interfészekkel foglalkozik és színvonala remekül mutatja hogy ehhez nem igazán értenek a matematikusok. Az utolsó fejezet további olvasmányokat ajánl, ezekből érdemes szemezgetni.

2012. október 14.

NLP matiné okt. 26-án (UPDATED)

Közeledik októberi meetupunk! Kicsit rendhagyó módon most rövid, ötperces intézmény/céges bemutatkozókat várunk - jelentkezni a zoltan.varju(kukac)gmail.com címen lehet. A meetup célja hogy a számítógépes nyelvészettel foglalkozó, ill. a nyelvtechnológiai megoldások iránt (potenciális) felhasználóként érdeklődő cégek és intézmények bemutatkozhassanak egymásnak és a közönségnek. Ez az az alakalom amikor nyugodtan hozhatsz magaddal céges ismertetőket, egy raklapnyi névjegyet, sőt nyugodtan megemlítheted ha munkatársat vagy éppen partnert keresel. A részvétel ingyenes (mint midig), létszámkorlát nincs, de arra kérünk mindenkit hogy a rendezvény oldalán regisztráljon és jelezze hogy jön-e vagy nem. Köszönet főszponzorunknak a Weblib Kft.-nek és médiapartnerünknek a nyest.hu-nak. A még nem végleges program:

Rövid (ötperces) céges/intézményi bemutatkozók. Jelentkezni lehet a zoltan.varju(kukac)gmail.com címen.
Előadóink:

2012. október 13.

Álláslehetőség: junior Python programozó @ CEU CNS

A Közép-európai Egyetem NETWORKS kutatócsoportja Python programozót keres november 1-től egy kutatási projektre. A programozó feladata, hogy egy Python-fejlesztő team tagjaként olyan programokat írjon, amelyek szöveges adatokból strukturált adatokat állítanak elő. A pozíció megállapodás szerinti, de várhatóan heti 20 munkaórával jár, rugalmas időbeosztásban. A munkavégzés helye az Egyetem V. kerület, Nádor u. 11. szám alatti épülete.

Feltételek:
  •     Python 2.x-ben szerzett tapasztalat
  •     Linux felhasználói szintű ismerete


Előnyt jelent:
  •     angolnyelv-ismeret
  •     szövegfeldolgozásban szerzett tapasztalat


Versenyképes fizetést ajánlunk. Az Egyetem nem diszkriminál.

Ha érdekel, küldd el a CV-det és, ha van, egy Pythonban írt munkádat Koren Miklósnak, korenm@ceu.hu

Digitális bölcsészet MA a Pázmányon

Az országban egyedül a PPKE BTK-n szeptemberben ismét indul MA szintű számítógépes nyelvész képzés 'digitális bölcsészet: számítógépes szakirány' néven. Az nyelvészeti órákat a PPKE BTK-n tartják , az informatikai órákat pedig a PPKE ITK-n. A szakirányfelelősök: Prószéky Gábor egy. tanár és Surányi Balázs egy. tanár okt. 16-án du. 5-6 között szaktájékoztatót tartanak.


Helyszín: PPKE BTK, Piliscsaba, Egyetem u. 1. Ambrosianum épület, 220-as terem.


További információk: http://www.btk.ppke.hu/karunkrol/intezetek-tanszekek/angol-amerikai-intezet/elmeleti-nyelveszet-tanszek/hirek/digitalis-bolcseszet-ma-4.html

2012. október 12.

Könyvismertető: The Geometry of Information Retrieval

C.J. "Keith" van Rijsbergen az IR egyik élő legendája, 1979-ben megjelent Information Retrieval c. könyve (mely szabadon elérhető a neten) igazi mérföldkő volt a területen. A The Geometry of Information Retrieval majd harminc évvel a klasszikus után jelent meg, és alig 185 oldalba sűrítve írja le a terület mai állását és ad betekintést a kvantumlogikán alapuló jövőbe.


The Geometry of Information Retrieval

A kötet rövid, de ez ne tévesszen meg senkit, mert nem könnyű olvasmány. Témáját tekintve Widdows Geometry and Meaningjével tkp. egybe vág, csak amíg Widdows célja hogy egy álltalános műveltséggel rendelkező érdeklődőt szinte kézen fogva vezessen be a területre, addig van Rijsbergen könyve azoknak íródott akit már bírnak kellő matematikai előismeretekkel és rendelkeznek alapos előismeretekkel az IR terén. A kor hülye divatja miatt a könyv megpróbál "self-contained" lenni, de 185 oldalban képtelenség eljutni a halmazoktól a kvantumelmélet felvázolásáig és mindeközben kitérni az IR vonatkozásokra, de evvel együtt is csak ajánlani tudom.

A kötet egy, a matematikai berkeken belül valamiért divatos fromátummal, prológussal indít, melynek akkor van értelme ha a következő hat fejezetet már vágja az olvasó, így érdemes utoljára olvasni. A függelékekkel is jobb megismerkedni hamar, a tényleges olvasás előtt, vagy ha valakinek jobban fekszik, akkor lehet egy-egy fejezet olvasása során konzultálni a vonatkozó résszel. Fizikusok előnyben vannak, hiszen nekik a lineáris algebra, a kavntummechanika és a valószínűségszámítás általában menni szokott, én kifénymásoltam magamnak a kvantumelméletről szóló függeléket és magamnál tartottam olvasás közben.

A prológus és a függelékek el is visznek úgy hatvan oldalt az amúgy sem túl hosszú könyvből, ami marad az így nagy sűrűre sikeredett. A bevezetés és a halmazelméleti második fejezet még nem annyira meredek. A harmadik fejezet kilenc oldala a Hilbert terekről és vektorokról már mókásabb, figyelembe véve hogy központi jelentősségű a téma, talán jobb lett volna több teret engedni neki. A többi fejezet logikusan építkezik, lineáris algebra, kondícionális logika és kvantumlogika szép sorban.

Kezdőknek nem ajánloma könyvet, haladóknak is csak akkor ha minimum olvasták már Widdows és valami egyszerűbb bevezető tankönyvet (pl. a népszerű IR könyvet, ami szabadon elérhető). Kifejezetten ajánlom hogy Widdows könyvével párhuzamosan haladjon az olvasó, akkor is ha már rég túl van a Geometry and Meaning szintjén, jó először összefüggéseiben, informálisan tárgyalva látni az adott anyagot, s csak ezután nekiesni a mélyebb, formális leírásnak.

2012. október 9.

Könyvismertető: Guide to Advanced Empirical Software Engineering

Az ún. empirical software engineering irányzat számomra nagyon szimpatikusan a Manifesto for Agile Software Development-re hajazva a szoftvert emberi alkotásnak tekinti s úgy gondolja hogy a szoftverfejlesztés tanulmányozása során ezt a tényt figyelembe kell vennünk. Ezért a társadalom- és viselkedéstudományok módszertanára nagyon hasonlító metodológia van kibontakozóban mind az ipari, mind az akadémiai kutatók köreiben egyre gyakrabban merülnek fel metodológiai kérdések és egyre markánsabban látható az empirikus szoftverfejlesztési tanulmányok citátumaiban is ez. Kifejezetten érdekes hogy nagyon gyakran csap át egy ilyen vizsgálódás meta-elméletté, rengeteg "literature review" jelenik meg, nem ritka a kifejezetten tudományfilozófiai kérdésekkel foglalkozó írás sem (valamiért nagyon szeretik Poppert, de éppen Kuhnról felejtkeznek el, aki az ilyen zavarodottságot és meta irányultságot a kialakulóban vagy éppen hanyatlóban lévő paradigmák tünetének tartja). A Guide to Advanced Empirical Software Engineering egy alapos iparosmunka ezen a területen.

Guide to Advanced Empirical Software EngineeringGuide to Advanced Empirical Software Engineering
Vegyes érzelmekkel rágtam át magam a köteten. Egyrészt a 14 tanulmány tényleg lefedi az alapvető metodológiai kérdéseket és a kérdőívek szerkesztésének problémájától az adatgyűjtés és -gondozás etikai kérdésein át a statisztikai elemzésig minden terítékre kerül benne. Másrészt azonban ez az egyik legunalmasabb könyv amit olvastam. Minden szerző megpróbálja rendkívül tömören összefoglalni, hogy mit kellene tudnunk egy-egy területről. Ez gondolom annak erény, aki még nem találkozott ilyen kérdésekkel, de semmiképpen sem illethető az "advanced" jelzővel az, amivel egy alapszakos szociológus vagy egyéb társadalomtudomány szakos hallgató egész korán találkozik tanulmányai során. Unalmassága és esetlensége ellenére a kifejezetten szoftverfejlesztéssel foglalkozó nyúlfarkak miatt tekinthetjük hiánypótló műnek a könyvet, azoknak aki eddig nem találkoztak kutatásmódszertannal pedig akár kézikönyvként is szolgálhat. Aki szereti a szellemi kalandokat és szeretne átfogóbb képet kapni a területről, annak ajánlom a University of Toronto Empirical Research Methods in Software Engineering kuruzusának oldalát, a legtöbb hivatkozott cikk szabadon elérhető és tényleg "advanced" szinten tárgyal egy-egy kérdést.

2012. október 8.

Filmajánló: Wittgenstein

Wittgenstein egymaga végigment azon a folyamaton amin a számítógépes nyelvészet. A Tractatus és a Filozófiai vizsgálódások párhuzamba állíthatóak a kezdeti szabályalapú módszerekkel és kilencvenes évektől felfele ívelő statisztikai megközelítéssel. A múlt század egyik legzseniálisabb gondolkodója szerencsére nem redukálja a racionalizmus vs. empirizmus vitára ezt a kérdést, hiszen nála jobban senki sem tudja hogy ez bizony nagyon is húsbavágó probléma. Jarman filmje remekül mutatja be Wittgenstein világát, leegyszerűsítve, de mégis érthetően adja át a filozófiai gondolatok esszenciáját miközben a filozófus életének főbb állomásai szolgáltatják a hátteret. Nem mellesleg olyan "mellékszereplőkkel" találkozhatunk mint Russel és Keynes. Szerencsére a youtube-on megtekinthető a film, az élményen kicsit ront, hogy hét részre lett bontva, de szépen egymás után beágyaztam minden videót a posztba.


2012. október 2.

HVG Jövő 2.0 - ajánljuk magunkat

Megjelent a HVG Extra, Jövő 2.0 kiadványa! Papíron, fizetős kontent formában, de 890 HUF nem olyan sok érte.



Ha már megvetted, akkor irány a 48. oldal, ahol elolvashatod Jóföldi Endrével írt cikkünket. Külön köszönet Molnár Tünde munkatársunknak aki ráncbaszedte mondatainkat és Marinov Ivánnak a HVG-től, aki elvégezte a végső simításokat. Egy kis ízelítő lent :-)

A kép direkt homályos!

Októberi konferenciák

Október 4-én az Open Source BI Fórum 2012 konferencián adok elő, Adatbányászat az R nyelv alkalmazásával címen.

 

Október 20-án a Magyarországi Web Konferencia 2012 következik, ahol Sok a szöveg - avagy miben segíthet a nyelvtechnológia mint szolgáltatás címen adok elő. A konferencia ingyenes, de a részvétel regisztrációhoz kötött. (Le a kalappal a szervezők és a szponzorok előtt!)