2013. március 29.

Probabilisztikus programozás

Az utóbbi napokban a Twitter a DARPA Probabilistic Programming for Advanced Machine Learning (PPAML) Proposers' Day-től hangos. De miért? Rob Zinkov Why Probabilistic Programming Matters posztjában így válaszolja meg a kérdést

Probabilistic programming is a newer way of posing machine learning problems. As the models we want to create become more complex it will be necessary to embrace more generic tools for capturing dependencies. I wish to argue that probabilistic programming languages should be the dominant way we perform this modeling, and will demonstrate it by showing the variety of problems that can be trivially modeled with such a language.
Probabilistic programming also has the potential to give machine learning to the masses by making it very easy to specify realistic models for frequently heterogenous data. Too often, simple models are used because they are popular and implementations are freely available. By shifting focus to a language we remove these artificial constraints.


2013. március 27.

NLP meetup programváltozás

Figyelem! Tempfli Péter Social media monitoring előadását sajnos el kell halasztanunk a májusi meetupra. Ez a mai Textplore előadást nem érinti, továbbra is várunk mindenkit 18:00-tól a Colabs-ben http://bit.ly/W9HmEJ

2013. március 26.

Hírek - másképp

Egytlen igazán népszerű "szolgáltatásunk"  a Számítógépes nyelvészeten a különböző neveken futó linkajánló "rovatunk" volt. A Computational Linguistics Light célja betölteni ezt az űrt. Minden általam érdekesnek talált angol nyelvű cikket, tanulmányt, honlapot és egyéb forrást ezen a helyen osztok meg a továbbiakban, néha minimálisan kommentelem is ezeket (angolul).

2013. március 25.

Arab tavasz és nlp

Mostanában nagyon rákattantam a "computational social science" témára, mivel úgy látom nagyon gazdag terület, amiben az nlp-nek is sok szép szerep jut(hat). Trey Causey a University of Washington PhD hallgatója az autoriter államok médiáit vizsgálja empirikus alapon, ehhez pedig nagyban támaszkodik a látens dirichlet allokációra (latent dirichlet allocation - LDA) a korpuszelemzésben. Disszertációjának összegzése szerint:
I model these meaning contests using Latent Dirichlet Allocation, a Bayesian method for discovering the latent topic structure of text corpora. Using an original dataset of more than 25,000 Egyptian and international news articles in both Arabic and English from November 2010 to March 2011, I build a model of regime-friendly, semi-independent, and independent media content before, during, and after the so-called Arab Spring uprisings in Tunisia, Egypt, Libya, and Bahrain. In the months leading up to the uprisings, while Egyptian state media focused on economic development projects and minimized attention to rising discontent int he region, non-state media offered extensive coverage of investigations of businessmen linked to the regime and fraudulent elections. When events in Tunisia ignited political imaginations in the region, state media consistently downplayed these events relative to their independent counterparts and employed conspiracy, foreign interference, and instability themes in their coverage. However, as the fall of the Mubarak regime drew closer, media coverage converged distinctly toward the language of independent media. I argue that this divergence and subsequent convergence around highly salient issues provides important information to potential collective actors about the ability and likely success of pro- and anti-regime groups to exert influence.
The Battle for Bystanders: Information, Meaning Contest, and Collective Action in the Egyptian Uprising of 2011 című tanulmányában a disszertációnál tömörebben foglalja össze Causey téziseit és módszertanát - érdemes elolvasni, hiába "draft", van benne valami. Úgy gondolom, hamarosan sok hasonló vizsgálódás lát majd napvilágot és bizonyosan az ipar is rákap az ilyen kutatások ízére.

2013. március 22.

Dzsihád és nlp

Tegnap futottam bele a Mancs honlapján egy interjúba Miklósi Lászlóval a Történelemtanárok Egyletének elnökével. Engem is meglep, hogy pont a fiatal bölcsészek tolódnak egyre inkább jobbra, de rögtön beugrott két tanulmány. Jeskó József, Bakó Judit és Tóth Zoltán A radikális jobboldal webes hálózatai című írása nagyon szépen összefoglalja, miképp formálódott a radikális jobb webes jelenléte, ami kulcsfontosságú a fiatalok elérésében (érdemes elolvasni, már csak azért is, mert eddig ez az egyetlen általam is ismert hazai adatvezérelt társadalomtudományi cikk). Ugyanakkor hiányzik még annak megértése, miképp válnak radikálissá pont humán beállítottságú emberek. Itt kerül képbe a dzsihád.  Rich Nielsen a Harvard Department of Goverment PhD hallgatója azt vizsgálja miért válnak radikálissá egyes muszlim vallás- és jogtudósok (ulema). Még nem publikált, de már elérhető tanulmánya a Jihadi Radicalization of Muslim Clerics remek példa arra, hogyan alkalmazható a számítógépes nyelvészet a társadalomtudományi tartalomelemzésben. Az absztrakt remekül összefoglalja a tanulmányt (elvégre ez a dolga):

This paper explains why some Muslim clerics adopt the ideology of militant Jihad while others do not. I argue that clerics strategically adopt or reject Jihadi ideology because of career incentives generated by the structure of cleric educational networks. Well-connected clerics enjoy substantial success at pursuing comfortable careers within state-run religious institutions and they reject Jihadi ideology in exchange for continued material support from the state. Clerics with poor educational networks cannot rely on connections to advance through the state-run institutions, so many pursue careers outside of the system by appealing directly to lay audiences for support. These clerics are more likely to adopt Jihadi ideology because it helps them demonstrate to potential supporters that they have not been theologically coopted by political elites. I provide evidence of these dynamics by collecting and analyzing 29,430 fatwas, articles, and books written by 91 contemporary clerics. Using statistical natural language processing, I measure the extent to which each cleric adopts Jihadi ideology in their writing. I combine this with biographical and network information about each cleric to trace the process by which poorly-connected clerics become more likely to adopt Jihadi ideology.


A The Economist cikke röviden és érthetően összegzi Nielsen eredményeit.  A mi szempontunkból legalább annyira érdekes a kutatás módszertana.

There is no way to determine the population of Muslim clerics, so randomly sampling clerics for analysis is not a possibility. Instead, I focus the analysis on contemporary Sunni clerics writing in Arabic. In order to compare Jihadi clerics to the those that were most likely to become Jihadi but ultimately did not, I intentionally over-sample two key groups of clerics: (1) Jihad clerics and (2) conservative Salafi clerics who share similar beliefs to Jihadis but reject the ideology of militant Jihad. Practically, this means the analysis is focused on conservative clerics primarily from Saudi Arabia (58 percent) and Egypt (22 percent) who are currently living or lived in the last century. [...] To measure the ideology of these clerics, I collect their books, articles, and fatwas with special emphasis on the latter.

Nielsen célja az volt, hogy beazonosítsa a radikális és nem-radikális ulemákat elérhető szövegeik alapján. Ehhez a gépi tanulást hívta segítségül:

In principle, identifying Jihadi ideology is often as simple as distinguishing between these two texts. However, with 29,430 texts from 91 clerics, close reading of each is infeasible. Instead, I measure cleric ideology by applying supervised learning methods from the statistical machine learning literature (Hastie, Tibshirani and Friedman, 2009) to the documents. Most of the previous work on measuring the ideology of political actors has used roll-call votes to estimate actor ideal points (Poole and Rosenthal, 1985; Martin and Quinn, 2002). This is not possible for Muslim clerics (because they do not vote on a common set of proposals), so instead, I directly scale the texts to estimate cleric support for militant Jihadi ideology. My method uses two sets of training documents, one of which is assumed to be Jihadi and the other of which is assumed to be non-Jihadi. The Jihadi corpus consists of 765 texts of various genres that are available on Jihadi web forums as the “Mujahid’s bookbag” (ﺎﻫﺪĐا ﺣﻘﻴﺒﺔ).13 These documents are specifically selected by Jihadis themselves as sources of spiritual instruction and advice, as well as mixed political and religious commentary.14 By using a set of known Jihadi documents as my training data, I avoid the difficult task of deciding which texts are most authentically “Jihadi”. Instead, I let Jihadis themselves identify the texts that are most representative of Jihadi ideology.

Lehet erőltetett párhuzamot látni egy radikális ulema és egy radikális bölcsész között, de úgy gondolom érdemes lenne Nielsen vizsgálatához hasonló módon elemezni a radikális jobboldal netes szövegeit és elkezdhetnénk empirikusan közelíteni ahhoz, hogy miért és hogyan radikalizálódnak a fiatalok a bölcsészkarokon.

2013. március 21.

Funkcionális programozás és big data

Paco Nathan (Concurrent data science director) egy olyan slide-ot csinált, ami önmagában is érthetővé teszi, miért nyer egyre nagyobb teret a funkcionális programozás big data körökben.

 

2013. március 19.

Mit mond az internet - NLP meetup március 27-én

Március 27-én tartjuk e havi meetupunkat. A rendezvény ingyenes, de arra kérünk mindenkit, hogy regisztráljon oldalunkon és jelezze részvételi szándékát.

 

meetuplogo.jpeg

 

A program:

Textplore https://www.textplore.org/

 

Előadásunkban bemutatjuk a Gazdaság- és Vállalkozáskutató Intézet által fejlesztett Textplore szövegelemző szoftver funkcióit és elemzési lehetőségeit, majd egy folyamatban levő kutatás előzetes eredményeit. Ennek során egy magyar és egy angol hírportálon megjelent, korrupcióval kapcsolatos cikkek jellegzetességeit vizsgáljuk. A cikkek szóhasználati sajátosságai segíthetnek feltárni, hogy az online média hogyan viszonyul a korrupcióhoz, mennyire tölti be azt a lehetséges szerepét, hogy a nyilvánosság erejével akadályozza a korrupció terjedését.

 

Az előadók

Tóth István János Közgazdász-szociológus, az MTA Közgazdaságtudományi Intézetének tudományos főmunkatársa, a Gazdaság- és Vállalkozáskutató Intézet ügyvezető igazgatója, a BCE Korrupciókutató-központjának társigazgatója. Fő érdeklődési területe a rejtett gazdasággal és a korrupcióval kapcsolatos jelenségek vizsgálata és a konjunktúrakutatás, továbbá szívesen foglalkozik a kvantitatív tartalomelemzés módszerével vizsgálható kérdésekkel.

 

Czibik Ágnes közgazdász, a Gazdaság- és Vállalkozáskutató Intézet elemzője, a Budapesti Corvinus Egyetem Korrupciókutató Központjának munkatársa. Főként munkaerő-piaci kutatásokkal, a GVI által fejlesztett Textplore szövegelemző szoftver fejlesztésének irányításával, valamint a szoftver segítségével elemzések készítésével foglalkozik

 

Social media monitoring - Replise http://replise.com

Az prezentáció bemutat néhány, a közösségi média figyelés napi gyakorlatában felmerülő problémát. Szólok az adatok megkereséséről és begyüjtéséről, a releváns kérdések megfogalmazásáról és az eredmények bemutatásáról. Szó fog esni arról, mit lehet és mit nem lehet mérni, illetve arról is, mikor érdemes mérni, mikor pedig más technikát választani. Végül, röviden bemutatom a Replise rendszert.

Tempfli Péter az ELTE BTK orosz szakán végzett, jelenleg a Budapest Corvinus Egyetem gazdasági informatika szakos hallgatója. Szociális méda elemző a Replise-nél, magyar, lengyel és orosz piacokkal foglalkozik.

2013. március 18.

Egy kép többet ér ezer szónál?

Nem könnyű dolog szöveges információt képpé alakítani. Egyre inkább úgy gondolom, nem is muszáj  mindent vizualizálni. Persze értékelem a The Economist próbálkozását, ami a palagázról szóló vitát próbálta vizuálisan összefoglalni.


De tényleg kell ez nekünk? Én mostanában hajlok arra, hogy ha nagyon kell szöveget vizualizálni, akkor az valami olyan legyen, mint Ted Underwood vagy Scott Weingart topic model-eken végzett munkái. 

2013. március 13.

Könyvismertető: A valószínűség interpretációi

Manapság nagyon divatosak a big data-ról és prediktív analitkáról írott ismeretterjesztő könyvek. A négy legsikeresebb ezek közül Gleick: The Information,  Silver: The Signal and the Noise,  McGrayne: The Theory That Would Not Die és Mlodinow Részeg bolyongása. Mindegyik kötet foglalkozik valamennyire a valószínűség interpretációival, de nem jut túl a frekventista vs szubjektivista értelmezés rövid bemutatásán. A valószínűség értelmezése egyre központibb problémát jelent a mai analitka-vezérelt korban, ezt világosan jelzik olyan döntéshozóknak szánt címek mint a Managin Uncertainty. Szabó Gábor kiválló munkája remekül összefoglalja a valószínűség értelmezésével kapcsolatos kérdéseket, méghozzá világos és érthető módon, habár az ismeretterjesztő könyvekkel ellentétben feltételezi, hogy olvasója rendelkezik alapos matematikai előismeretekkel.

 

Hofer-Szabó Gábor a magyar tudományfilozófia egy jeles képviselője. Az ELTE HPS és Logika Tanszékei és a BME Filozófia és Tudománytörténet Tanszéke szakmai körökben világhírű (és nem csak itthon világhírű), rendszeresen kerülnek ki jelentős publikációk az oktatóktól és hosszú évek kitartó munkája árán építettek fel egy nagyon termékeny közösséget, aminek legkézzelfoghatóbb produktuma a Theoretical Philosophy Forum. Így nem meglepő, hogy A valószínűség interpretációi egy nagyon alapos munka, ami kiemelkedik a hasonló művek közül (pl. Mellor Probability: A Philosophical Introduction vagy Gillies Philosophical Theories of Probability). Fontos megjegyezni, hogy ez a könyv nem ismeretterjesztő munka, feltételezi, hogy olvasója nem-triviális matematikai előismeretekkel rendelkezik. A formalizmusok ellenére nagyon gördülékeny a szöveg (már amennyire egy ilyen mű az lehet) és szépen építkezik az anyag menet közben. Ahogy egyre jobban átszövi a prediktív analitika az életünket, érdemes elgondolkodni a valószínűség természetén és ehhez nagyon jó alapot nyújt ez a könyv. Kedvcsinálónak az előszóból (a kiadó oldaláról átvéve):

 

Mit jelent az, hogy egy szabályos dobókockával a hatos dobás valószínűsége egyhatod? A kérdésre az alábbi paradigmatikus válaszok adhatók:

 

Klasszikus válasz: Mivel szabályos kocka esetén mindegyik oldal előfordulása egyenlően lehetséges, és az esetek közül nekünk csak az egyik kedvez, ezért a kedvező esetek és az egyenlően lehetséges esetek számának aránya egyhatod lesz, és ez a hatos dobás valószínűsége. 

Logikai válasz: A hatos dobás valószínűsége azért egyhatod, mert az a kijelentés, hogy az eredmény hatos lesz, egyhatod mértékben következik abból a kijelentésből, hogy a kockát eldobtuk, egy mindkét kijelentést tartalmazó nyelvben.

Szubjektivista válasz: Az, hogy a hatos dobás valószínűsége egyhatod, azt jelenti, hogy egyhatod mértékben hiszünk a hatos dobás eseményében.

Frekventista válasz: A hatos dobás egyhatod valószínűsége semmi mást nem jelent, mint hogy a hatos relatív gyakorisága közel egyhatod lesz a kockadobások egy elegendően hosszú sorozatában.

Propensity válasz: A hatos dobásnak azért egyhatod a valószínűsége, mert a kocka fizikai környezetével együtt rendelkezik azzal az egyhatod mértékű kauzális hajlammal, hogy egy adott dobás során hatos legyen.

 

A fenti válaszok a valószínűség öt legfontosabb filozófiai interpretációjának jegyében születtek. A könyv ezeket az interpretációkat igyekszik bemutatni és értékelni. Ismerteti továbbá a valószínűség fogalmának történeti kialakulását, illetve legjelentősebb paradoxonait, valamint rövid bevezetőt nyújt a filozófiai elemzés számára nélkülözhetetlen matematikai fogalmakba. A könyvet elsősorban a matematika és a fizika filozófiai alapjai iránt érdeklődő olvasóknak ajánljuk.

2013. március 12.

miért, most az underground a trendi?

Nem tudom mi számít innovatívnak ma. Pont tegnap került a kezembe - vagy inkább a képernyőmre - a Google kutatási kultúrájáról egy tanulmány. Maga az írás nem olyan nagy szám szerintem, nyilván van benne egy nagy adag önfényezés és hát a tudomány- és tudásszociológia közhelye szerint magunkat nem tudjuk objektíven megítélni, de nagyon megfogott az, miképp látják az alkalmazott/ipari kutatás lényegét.

2013. március 8.

Szövegvizualizáció térképen

A maphugger.com egy remek oldal, ami tele van igen ötletes térképekkel. A Laconic History of the World minden országot egy szóval jelenít meg. A térkép az angol Wikipedia "History of X" - ahol az X egy adott ország - szócikkeit dolgozta fel és a legjellemzőbb (azaz leggyakoribb) szóval helyttesítette az adott országot. Érdekes, hogy hazánk így a "Party", még Szlovákia a "Hungary" szóval került megjelenítésre. A "War" túlburjánzása mutatja milyen szomorú is a történelem, a volt gyarmatok pedig rendre a gyarmattartók nevével jelentek meg.

 

2013. március 6.

inkLink 2013


Alakul az inkLink programja és már kijelenthetjük, igazi nemzetközi esemény résztvevői lehetünk április 6-án. Az előadói teremben (Discussion Room) érdekes előadásokat hallgathatunk az adatújságírás és a modern digitális média kérdéseiről, a Hack Room ad teret a fejlesztőknek, az IdeaShop-on pedig kötetlen formában lehet megismerkedni mindenki által könnyen használható eszközökkel. A továbbiakban a programmal kapcsolatos információkat az inkLink blogján és a Nyelv és Tudományon találjátok majd meg. A hackday-re továbbra is várjuk az érdeklődő fejlesztőket egyénileg és csapatban is, a zoltan.varju(kukac)gmail.com címre. Amennyiben szeretnéd támogatni a rendezvényt, Kincse Szabolccsal vedd fel a kapcsolatot a kincse(kukac)nyest.hu e-mail címen.
Előadók 
IdeaShop résztvevők

2013. március 4.

A Logicomix ingyen olvasható

Akik szeretik a logikát és/vagy a tudománytörténetet, azok minden bizonnyal örömmel fogadják hogy a kultikus Logicomix ingyenesen olvasható online. Aki offline is szeretné bújni a kötet, az megvásárolhatja elektronikus formában, ami még mindig olcsóbb és gyorsabb megoldás mint a papír verzió beszerzése. A Logicomixról régebben már írtunk egy kis ismertetőt. Jó olvasgatást!

 

 

Bertrand Russell Logicomix by MLSBU11