2011. december 30.

Könyvismertető: Clojure in Action

Az elmúlt pár évben egyértelműen megnőtt az érdeklődés a funkcionális programozási nyelvek iránt és ez összekapcsolódott a JVM nyelvek körüli felhajtással is. Míg a Marin Odersky vezetésével az EPFL-en kifejlesztett Scala egy alapvetően objektum orientált nyelv ami magába olvasztja a funkcionális paradigma javát, a Clojure visszatért a második legöregebb nyelv, a Lisp, által követett nem tisztán funkcionális stílushoz. Habár a Scala olyan nagy ágyúknál van használatban mint a Twitter, a Wordnik vagy az Uberblic, a FlightCaster (és Bradford Cross legendás, már megszűnt Measuring Measures blogja) és a Factual sikerei bebizonyították hogy a Clojure kifejezetten alkalmas a napjainkban meghatározó vonalat képviselő ún. research driven data startupok problémáinak megoldására. A kiadók persze próbálják meglovagolni a fokozódó érdeklődést több-kevesebb sikerrel, azonban ez nem könnyű egy JVM nyelv esetében sem. A Clojure közelébe kétféle ember kerül általában, Java vagy Lisp (vagy más funkcionális nyelv iránt érdeklődő) programozó. Vitathatatlan tény hogy a Java háttérrel rendelkezők vannak többségben, őket remekül ki is szolgálják az eddig megjelent könyvek, ellenben Rathore olyan könyvvel ajándékozta meg a közönséget amit a Lisperek is haszonnal forgathatnak.


2011. december 28.

Kispénzű önképző a Stanfordra menne?

A Stanford Engineering Everywhere program már régóta elérhetővé teszi a világ egyik legjobb (sőt, szerintem a legjobb) egyetemének kurzusait (a kínálat megtekinthető itt). Ez a rendszer nagyon hasonlít az MIT híres Open Courseware programjához, az előadások jegyzetei letölthetőek, sok esetben maguk az előadások képanyagai is felkerülnek a netre és mindenki kedvére nézegetheti azokat. Azonban a Stanford idén tovább lépett és rendezettebb formában "kínálta" gépi tanulás,  mesterséges intelligencia és adatbázisok kurzusait. Nem sokára pedig még több órára járhatunk virtuálisan, készíthetünk házikat,stb. - mindezt  ingyen. Ha egy kicsit a zsebünkbe nyúlunk, erről papírunk is lehet.

2011. december 27.

Python: adattípusok és algoritmusok

Az írás könyvismertető és bemutató egyszerre. Egy könyv, ami ezt a folyamatot segítheti, illetve példa, amit felhasználunk is ebből a könyvből származik. Egy ideje keresek egy olyan könyvet, ami az alapokat könnyedén és célzatosan rendbe rakja a fejembe. Ezt a könyvet fogom ajánlani és egy fejezetét példának kiemelni.

2011. december 23.

Más! - a változás szele

Lassan két éve hogy elindult a blog, ha minden igaz ez a bejegyzés a 244. a sorban. Anno más néven egy többé-kevésbé személyes blog indult, ami egyre szakmaibb irányt vette,  majd a szerzőgárda bővülése és a vendégposztok végleg eltérítették az eredeti iránytól - amit én egyáltalán nem bánok. Ezt azonban nem követte a blog arculata, részben lustaságból, részben időhiány következtében. Most itt az idő valami másra, a változásra. Röviden: a személyes vonal helyett a közösségi oldalt fogja a blog megjelenése tükrözni, a szakmaibb írások több teret kapnak szemben az ismeretterjesztőkkel és ha a csillagok is úgy akarják elindítunk egy saját kis projektet.

2011. december 21.

Könyvismertető: Linux 101 hacks

Létezik egy mondás, aminek szerzőjét nehéz lenne a világban fellelni. A mondás úgy szól, hogy ha „a programod 90%-át nem tudod lefedni az alap, beépített unix/dos programokkal, akkor az absztrakciós szinten valamit elrontottál”. - Ebből a perspektívából tekintjük át a 101 linux trükk című könyvet.

2011. december 15.

Konstrukciós nyelvtanok

A konstrukciós nyelvelmélet egy új elméleti nyelvészeti irányzat. Újdonság a hagyományos nyelvelméletekhez képest, de újdonság a modern nyelvészetben tekintett hagyományos transzformációs generatív nyelvtanokhoz képest is. A konstrukciós nyelvelmélet és az elméletben megfogalmazott nyelvtanok a nyelv rétegződésének megfelelően, annak minden szintjén hozott már újat a számunkra. Újat a probléma megfogalmazásában, újat a probléma megoldásában. - Szemléletében pedig olyan irányzatoknak volt úttöröje, mint az Általánosított Frázisstruktúra-nyelvtan (GPSG) vagy az erre épülő Fejközpontú frázisstruktúra-nyelvtan (HPSG).

2011. december 10.

A nyelvleírás adekvátsági szintjei

A nyelvtanok adekvátsági szintjeit, a helytállóság három szintjét fogjuk érinteni. A három szintet egyenként definiáljuk és párhuzamba állítjuk a példa kedvéért a transzformációs generatív nyelvészet válaszaival. Ezzel kicsit közelebb kerülünk a transzformációs generatív nyelvészethez és kezünkbe kerülnek azok a helytállósági kritériumok, amelyeket érdemes minden új nyelvelmélet, nyelvleírási modell esetén elővennünk és megvizsgálnunk.

2011. december 8.

Így gondozd a nyelvészedet, avagy a metodológiai opportunizmus gyönyörei - 1.

Volt szerencsém interneten keresztül előadni a fenti címen a Budapest Science Meetup novemberi összejövetelén. Szeretném megköszönni Sebestyén Endre és a többi szervező abszolút pozitív, segítőkész hozzáállását. Már régóta keresek egy sztorit, amiben elmesélhetem miért szeretem a (számítógépes) nyelvészetet, miért tartom értelmetlennek a generativisták és statisztikusok közötti “hitvitákat” valamint az alkalmazott és tiszta tudomány közötti megkülönböztetést. A Meetup felkérése remek alkalom volt arra hogy ráncba szedjem gondolataimat, most pedig egy rövid sorozatban kicsit hosszabban, írásban is megkísérelem ezt. Szeretném hangsúlyozni hogy részben nagyon személyes, részben pedig spekulatív gondolatokat teszek közzé most Feyerabend “Anything goes!” jelmondatának szellemében.

2011. december 5.

MSZNY 2011 élménybeszámoló

Pár napja zajlott le a VIII. Magyar Számítógépes Nyelvészeti Konferencia Szegeden (pontosan Dec. 1-2), amin a Weblibnek hála kibicelhettem (későn bukkantunk rá az infóra ahhoz hogy valamit be is tudjak adni, no majd jövőre!). Címszavakban: az előadások színvonalasak voltak, a helyszín (József Attila Tanulmányi és Információs Központ) nekem nagyon bejött, a szervezők (Szegedi Tudományegyetem Informatikai Tanszékcsoportja) kitettek magukért és nagyon jó emberekkel találkoztam (a beszédfelismeréssel foglalkozó kollégákkal eltöltött vacsorát nagyon élveztem!). A továbbiakban teljesen szubjektíven szeretnék kiemelni pár előadást, szeretném azonban hangsúlyozni hogy a többi előadás is remek volt, de nem értek minden témához és sajnos pénteken nem tudtam végig maradni ezért a merítésem koránt sem teljes. Szerencsére nyugodtan szemezgethetek, a konferenciakötet ugyanis elektronikus formában mindenki számára elérhető itt.

2011. december 4.

Számítógépes nyelvfelismerés

A számítógépes nyelvfelismerés problémája abból adódik, hogy rendelkezésünkre áll egy bizonyos számú karaktersorozat, amelyről el kell tudnunk dönteni, hogy vajon, milyen nyelvű szöveget takarhat. - Ez a feladat egy olyan környezetben, ahol több nyelvű szöveget is fel kell tudnunk dolgozni, nagyon lényeges. Hiszen ez az első lépés meghatározhatja azt, hogy megfelelő nyelvű elemzőket kezdjük-e használni vagy sem. Ez pedig meghatározhatja a végeredményt, az eredményes szövegfeldolgozást.

2011. november 28.

Road-map – or n+1 steps to enlightenment (or loonybind)

This post has been cross posted on Clojurelx

As we expressed in our previous post, we'd like to experiment with Clojure. Let us emphasis again, we are NOT developing a new library, we just believe that using Clojure in linguistic computing might be fruitful. In order to prove this assumption (or refute it), we are going to try some tools out, and summarize and share our experiences as blog posts. Here is our tentative road-map.

2011. november 23.

Kereső Mobilvilág

Elkészült végre a Kereső Mobilvilág ekönyv! A Kereső Világ posztjaira alapozva, felkért szerzők írásaival kiegészítve készítettünk egy kis tanulmánykötetet a mobil keresésre fókuszálva. A mű pdf és mobi formátumban is elérhető itt, ill. egy beharangozó posztot olvashattaok itt. Én itt szeretném megragadni az alkalmat hogy köszönetet mondjak azoknak akik segítettek nekünk egy-egy írással:

  • Tolnai Timi (blogunk szerzője)
  • Albeker András (a bitxəšï-史 blog szerzője) és neje
  • Dóczi Tamás  (a 豆腐块-欢迎欢迎! blog szerzője)
  • Vajda Gábor (a Kereső Világ szerzője)

Köszönöm továbbá munkatársamnak Tündének hogy mégsem őrültünk meg az elmúlt két hétben. Az érdem szerzőinké, minden hiba a miénk!

Jó olvasást mindenkinek!

2011. november 17.

scikit-learn: a gépi tanulás nltk-ja

A Natural Language Processing (nltk) keretrendszer a nem csak számítógépes nyelvészt iránt érdeklődők tömegeit vezette/vezeti be a szakma rejtelmeibe, hanem már a "való világban", üzleti alkalmazásokba építve is bizonyított. A nyílt forráskódú projektekre leselkedő veszélyt - hogy nem alakul ki a lelkes önkéntesek köre - elkerülte, és az "alapító atyáknak" hála egy jó minőségű, immár több nyelvre is fordított, szabadon hozzáférhető könyv vezeti be a szakma rejtelmeibe a nagyérdeműt. A scikit-learn valami hasonlóvá próbál kinőni a gépi tanulás területén - remélem így már érthető a cím :D

2011. november 16.

Why Clojure lx?

This post is cross-posted on clojurelx, a new project blog

 

The NLTK is a natural choice for students of linguistics and computer science. It has matured into a stable project, its users are very active, and it is now used outside of academia. Those who are into functional programming can use the Scheme Natural Language Toolkit, or learn from the Natural Language Processing for the Working Programmer, and those who needs the JVM can turn to ScalaNLP. So why brother with Clojure?

2011. november 10.

Könyvismertető: Personal Kanban

Talán az egyik legnagyobb problémája a XXI. század emberének az hogy nem tud mit kezdeni a rászakadt információval. Hírek, szakirodalom, család, barátok, munka, tanulás stb mind egy időben szakad ránk és egymással "versenyez" az időnkért. Persze vannak akiknek nem okoz különösebb nehézséget kezelni ezt a helyzetet, de a maradék (szerintem többség) rászorul hogy valamilyen módon megszervezze életét, rendet rakjon a különböző kötelezettségek között. Rengeteg módszer létezik, ezek nagy része szerintem egyszerűen baromság, mások pedig jók, csak nem mindenre. A Personal Kanban - habár szerintem túl hype-olt - egy egész jó megközelítés, ami ha nem is mindenható, de jól alkalmazható.

  • Jim Benson - Tonianne DeMaria Barry: Personal Kanban: Mapping Work | Navigating Life
  • CreateSpace, 2011
  • 216 oldal
  • Personal Kanban - a könyv és a módszer köré szervezett honlap (sok hasznos tanáccsal, az alapok ingyen elérhetőek, feltétlenül böngéssz itt mielőtt megvásárolnád a könyvet!)

2011. november 5.

Gépi fordítás -- a kétnyelvű korpusz feldolgozása 2

A számítógépes fordítás nagy kérdése, milyen szabályok alapján lehet átalakítani az egyik nyelven írt szöveget egy másik nyelvű szöveggé. A statisztikai alapú megközelítés ahelyett, hogy morfológiai és szintaktikai szabályok mentén dolgozná át a szöveget, a fordítás műveletére úgy tekint, mint egy fekete dobozra, amely működését meg kell jósolni. Minél jobban kiismerjük, annál jobban előrejelezhetjük, vagyis: magunk is tudunk fordításokat előállítani. A probléma az, hogy a nyelv annyira bonyolult rendszer, hogy nagyon nehéz egyértelmű, "hu=t(en)" szerű szabályokat megfogalmazni.

2011. november 3.

Könyvismertető: The Lean Startup

A legtöbben úgy képzeljük hogy egy startup pár flanelinges srác ötleteléséből születik egy kollégiumi szobában, aztán a srácok keményen dolgoznak és egyszer csak multimilliomosok lesznek. A történet akár igaz is lehet, de szeretjük elfelejteni hogy a történet gyakrabban ér véget azzal hogy vagy nem sikerül elég befektetést felhajtania a fiatal srácoknak, vagy elhasználnak (elégetnek) minden pénzt a zseniális ötletre, anélkül hogy sikerülne életképes üzletet létrehozniuk. Eric Ries Lean Startup módszere megpróbál segíteni abban hogy az ötlet életképessége mihamarabb kiderüljön és jól hasznosuljon a befektetett tőke.


  • Eric Ries: The Lean Startup – How Today's Entrepreneurs Use Continuous Innovation to Create Radically Successful Business
  • 2011, Crown Business
  • 336 oldal
  • a könyv honlapja

2011. október 31.

So, you want a real job?

A guest post by Christopher Phipps, The Lousy Linguist

Let’s play a little thought game. Let’s pretend you have an academic background in linguistics with at least some graduate level study and now you want to find a job outside of academics, in industry. What should you expect to find? In the USA (and this is probably largely true of Europe as well), you should expect to find that most people misunderstand your skill set (you will first and foremost be wrongly categorized as a translator).

2011. október 30.

Szösszenet - Szakzsargon, avagy értelmezési lehetőségek bölcsészek nélkül

Zoli írásán felbuzdulva, én magam is késztetést éreztem, hogy kiálljak bölcsésztársaim mellett, s felhívjam a figyelmet a funkcionális analfabetizmus egyre terjedő jelenségére. Pedagógus-bölcsész révén sokszor szembesülök a társadalmunkon egyre inkább úrrá levő közönnyel a nyelvi formákkal szemben, amiket a homályosan fogalmazók, két(es) értelmű mondatokat alkalmazók jobbára ki is használnak.

2011. október 26.

Hitelválság és nyelv - avagy miért ne zárjuk be a bölcsészkarokat

A nyelvi relativizmus kérdésében én radikális álláspontot képviselek, röviden szerintem nincs ilyen (vagy jobban mondva a nyelven kívüli dolgok miatt vannak bizonyos jelenségek amik kognitív szinten eltéréseket okozhatnak) de hát ez csak egy vélemény. Viszont megrökönyödve olvastam a hírt hogy Keith Chen viselkedésökonómus szerint azon nyelvek beszélői melyek nem bonyolítják túl a jövőidőt (pl. kínai, de nekem rögtön a magyar jutott eszembe!) sokkal nagyobb megtakarítási hajlandósággal rendelkeznek.

2011. október 24.

Könyvismertető: Faceted Search

Mi is az a facetta? Erre a legjobb választ eddig Király Péter blogján találtam: "kategóriák különféle ortogonális halmazaiban fellelhető tulajdonságok együttese. De inkább: a találati halmaz automatikus kategorizálása az egyes rekordokban található mező-értékek alapján. Segítségükkel könnyűszerrel áttekinthető és szűrhető a találati halmaz." Daniel Tunkelang a CMU professzora és az Endeca információ menedzsment eszközt készítő cég egyik alapítója (no meg a TunkRank algoritmus megalkotója, a méltán népszerű The Noisy Channel blog szerzője stb stb) egy rövid, ám alapos könyvben foglalta össze a témát. Szépen, tisztességesen járja körül hogy mi is az a facettás keresés, honnét ered, mi fán terem és hogyan használható.


2011. október 21.

Digitális tanulásszervezés


Napjaink pedagógusai már nem a katedrán megtestesülő két lábon járó tudást jelképezik, sokkal többet annál: szervezők, koordinátorok, menedzserek, sőt mini-informatikusok is. A 21. század modern vívmányai a hétköznapokban is, így az oktatás színterein is egyre nagyobb teret hódítanak. A kakaó-biztos óvodai számítógépek után megjelentek a digitális táblák, a füzetet lassan leváltja a modern palatábla, s a tankönyveket a digitális tananyag. A pedagógusnak alkalmazkodnia kell a társadalom változó elvárásaihoz, s kompetenssé kell válnia a digitális környezet kialakításában. Ehhez szeretnék egy kis segítséget nyújtani.

2011. október 14.

Lapszemle

Péntek van és ismét összeállítottuk szubjektív lapszemlénket. Aki úgy gondolja hogy valamiről hírt kellene adnunk, kérjük írja meg a szamitogepes.nyelveszet(kukac)gmail.com címre, utólag reklamálni hogy miért nem szóltunk valamiről sajnos nem lehet :D Szintén állunk elébe  egy-egy szakmai rendezvény meghirdetésének, de kérünk mindenkit hogy utólag ne írjon nekünk hogy miért nem kürtöltük világgá X rendezvényt - néma gyereknek stb, tessék írni (milyen rendezvény, hol, mikor + pár mondat hogy miért érdemes elmenni + linkek ha van honlap meg egyéb online jelenlét). Továbbra is lehet lájkolni Facebook oldalunkat, követni @sznyelveszet Twitter fiókunkat, és szamitogepesnyelveszet.tumblr.com blogunkon ontjuk a híreket.

2011. október 12.

A google világa 1. rész

Mindannyian használjuk a világ legismertebb és legnépszerűbb keresőoldalát a Google-t, ám ki is használjuk? Mint az oktatásban, mint pedig a tanulásban óriási segítséget nyújtanak a keresők. A Google azonban olyan lehetőségeket és alklamazásokat is kínál, melyek a mindennapi tevékenységeinket is megkönnyíthetik legyen szó szövegszerkesztésről, fordításról, kutatásról, vagy kérdőív-szerkesztésről. Lássuk miket rejt a Google világa!

2011. október 9.

A számítástudomány "titkos" története dióhéjban

A címet Steve Blank poszt-sorozatától és előadásától loptam előre megfontolt szándékkal. Blank zseniálisan meséli el miképp jelent meg a vállalkozói kultúra a Szilícium-völgyben, hogyan működött együtt a tudományos világ az üzleti élet és a biztonságpolitika. Azonban ez a történetnek csak az egyik fele. A 19. század vége felé valami egészen forradalmi történt, olyan ami megváltoztatta a világot mivel a számítógépek megalkotásához és a komputációs modellezés megjelenéséhez vezetett.

2011. október 7.

Lapszemle

Kósza kísérletem a Lapszemle rovat befagyasztására sok levelet eredményezett, ezért elvetettem - viszont Enikő igazolt távollétében nem tudom garantálni a heti rendszerességet. Aki nem akar lemaradni híreinkről, az lájkoljon minket a Facebookon, kövesse @sznyelveszet Twitter fiókunkat és csekkolja szamitogepesnyelveszet.tumblr.com oldalunkat - én szóltam!

2011. október 5.

Könyvismertető: Data Mining with Rattle and R

Egyre többen érdeklődnek a az adattudományi (data science) és gépi tanulási módszerek iránt. Az adatbányászat napjainkban nem annyira felkapott téma, ahogy sokan igyekeznek elkerülni a statisztika és számítógépes statisztika (computatuional statistics) kifejezéseket, de megnyugtatunk mindenkit, a sok buzzword tkp. ugyanazt a dolgot fedi. A megnövekedett érdeklődés és a tény hogy életünket egyre jobban átszövik az említett területek eredményei együtt járnak az igénnyel egy egyszerű, gyakorlatorientált bevezetőre. Williams könyve remekül használható akár a programozásban kevésbé jártas, a statisztika alapjait ismerő érdeklődőknek.

2011. október 4.

An Introduction to Scientific Workflows (For Linguists)

A guest post by Richard Littauer

If you've been following @richlitt on Twitter for the past six months, you may have noticed that I've been talking about scientific workflows a lot. I was doing an internship for DataONE, an NSF-funded cyberinfrastructure initiative that tasked me with finding out all I could about scientific workflows from a site called myExperiment, which is a repository and social network for scientists who use them. However, if you're outside of the fields of bioinformatics or harder sciences, you may not know what I'm talking about when I talk about 'Scientific Workflows'.

2011. október 2.

Sublexical Semantics

A guest post by Richard Littauer

I was asked by Zoltan a long time ago to write something for this post, and have so far neglected to come up with anything. I'm about to start a two year Computational Linguistics masters at the University of Saarbrücken, so I figure it is about time I do this, before I am too bogged down to do anything. So, here is some original research I did a couple of years ago for a Lexical Semantics assignment at the University of Edinburgh, while I was in my undergraduate, being taught by Nikolas Gisbourne. His research in this area is largely within the framework of Word Grammar, and he specialises in the event structure of perception verbs (which is the title of his 2010 book released with OUP. I had wanted to take his word grammar and apply it some sort of binary system, but my thoughts quickly went in a different direction. I cover a lot of ground responding to Rappaport Hovav and Levin's work in this are, as well as Pustejovsky, mostly as I didn't want to risk quoting Gisbourne wrong at the time. Here is that different direction, then - it's very rough, and I had no computational background at the time, so it might be a bit out there. Hopefully, I'll get some feedback on this, though, as I think it's interesting and might be an interesting route to pursue. (NB: It's mostly edited from a longer essay, if it sound a bit formal.)

2011. október 1.

Adatbázis építés gyorsan és egyszerűen, függetlenül

Vajon hol húzódik az a határ, amikor egy alkalmazásunk elengedhetetlenül rászorul arra, hogy adatainkat külön, egy külső adatbázisba tároljuk? - A határ meghúzásához nem közvetlen választ szeretnék adni. Helyette a leírásban arra törekszem, hogy megmutassam, hogy hogyan lehet gyorsan, egyszerűen, adatbázis típusától független megoldásokat készíteni. Ezzel serkentve, és közvetve válaszolni a kérdésre: ahol lehetséges, használjuk bátran az adatbázisok által kínált megoldásokat. Válasszuk szét a logikát, a megvalósítást és felhasznált adatokat.

2011. szeptember 27.

Fordítási modell 4: A bootstrapping módszer a gyakorlatban

Ha egy kétnyelvű korpusz szavaira úgy tekintünk, mint nyers adatokra, akkor felfedezhető valamifajta rendszeresség az eloszlásukban. Ez érthető is, hiszen ugyanazt az információt tartalmazza mindkét nyelven, csupán “más a kódolás”. Az általunk feltételezett rendszeres eloszlás az a szabályrendszer, ami leírja a két nyelv egymáshoz való viszonyát, vagyis: a fordítási modell. Most megnézzük, számolhatjuk ki a fordítási modell paramétereit a szöveges adatokból.

2011. szeptember 24.

Lapszemle

Kicsit megkésve jelentkezünk megszokott hétvégi rovatunkkal, de akik nem akartak lemaradni azok követik @sznyelveszet Twitter fiókunkat és szamitogepesnyelveszet.tumblr.com oldalunkat is olvasgatják. Lássuk a medvét!

2011. szeptember 22.

Twitter az oktatásban (?)

Korábban A tömegkommunikáció hatása az anyanyelv elsajátítás menetére című posztban esett már szó a közösségi színterek közkedvelt használatáról. Most ezek közül is a Twitter használatába szeretnék egy kis bepillantást engedni, és annak oktatásban való felhasználási módjairól, lehetőségeiről lesz szó.

2011. szeptember 21.

Filmismertető: The Linguists

Filmet már ajánlottunk, de hát ritka mint a fehér holló amikor egy szakmai blogon ilyet tehetünk. A The Linguists című dokumentum film Greg Anderson és David Harrison "világkörüli útját" mutatja be mely során veszélyeztetett nyelvekről gyűjtenek anyagot. Mindenkinek csak ajánlani tudom ezt a gyöngyszemet mert odaszegezi az embert a képernyő elé a nyelvészeti terepmunka bemutatása.

  • The Linguists, Ironbound Films, 2008
  • rendezte: Seth Karmer, Daniel A. Miller, Jeremy Newberger
  • 64 perc
  • imdb adatlap, a film honlapja
  • angol - nagyon idegennyelvű

2011. szeptember 18.

Könyvismertető: Philosophy of Science: A Very Short Introduction

Szeretjük azt hinni hogy a tudós objektíven csak is az igazságot kutatja, ebben pedig olyan következetes hogy még akár saját magát is feláldozza. Talán éppen ezért hiszünk abban hogy a tudományos tudás kitüntetett, nem csak megbízunk a tudományos eredményekre alapozott termékekben, de manapság már politikai döntések születnek rájuk alapozva, vagy legalábbis hivatkozva. A tudomány mindennapi életünk részévé vált, az iskolákban már egészen kis kortól tanítják, egyre több pénzt költünk (vagy legalábbis érezzük hogy kellene költeni) kutatásra és fejlesztésre. Talán nem árt egy kicsit mögé látni ezeknek a folyamatoknak, elgondolkodni azon hogy mit adhat a tudomány nekünk, mennyire megbízható, mennyire demokratikus minden esetben szakértőért kiáltani. Ez a rövid kis könyv remekül összefoglalja a tudomány filozófiai kérdéseit és megadja a keretet hogy alaposan elgondolkodjunk ezeken a kérdéseken.

  • Samir Okasha: Philosophy of Science: A Very Short Introduction
  • Oxfor University Press, 2002
  • 160 oldal
  • a kiadó oldala

2011. szeptember 17.

Fordítási modell 3: adatok kinyerése a kétnyelvű korpuszból

Az előzőekben már eljutottunk a gépi fordításban használt fordítási modell vázlatos ismertetéséig. Ha van egy adatbázisunk, amely tartalmazza a két nyelv szavainak egymáshoz való viszonyát és a szórend alakulását leíró szabályokat, akkor tudunk generálni “lehetséges fordításokat”. Ilyen adatbázist készen azonban nem lehet kapni sehol, úgyhogy magunknak kell létrehozni. Ebben továbbra is Kevin Knight workbook-jára támaszkodunk.

2011. szeptember 16.

Lapszemle

Megint eltelt egy hét, ismét összeállítottunk egy kis válogatást a hétvégére. Akinek hét közben is szüksége van infókra az kövesse @sznyelveszet Twitter fiókunkat és böngéssze szamitogepesnyelveszet.tumblr.com oldalunkat, vagy lájkoljon minket a FB-on.

2011. szeptember 14.

Nyelvfilozófia - amit tudni illik

Habár én személy szerint nagyon szeretem a filozófiát, Feyerabend nézetét osztom mely szerint nem a tudomány iránt érdeklődő filozófusokra, hanem a filozófiára nyitott tudósokra van inkább szükségünk. Ennek szellemében most a Nyelvfilozófia - a nemzeti minimum poszt után a neten ingyenesen elérhető szövegeket ajánlok; nem hosszú könyveket, hanem rövidebb írásokat melyek körvonalaznak bizonyos problémákat, jelzik hogy nem minden fekete vagy fehér és nem utolsó sorban így vagy úgy de megváltoztatták a világot.

2011. szeptember 10.

Könyvismertető: Lean Innovation

A lean vállalatszervezési rendszer nem új, a Toyotánál már az 1950-es években bevezették az alapját képző TPS-t (Toyota Production System), ám igazi lendületet Womack és Jones könyvei után kapott (The Machine That Changed the World 1990-ben jelent meg Roos-szal közösen, ill a Lean Thinking 1996-ban) és napjainkban sokan a válság egyik lehetséges átvészelési módjának tartják. A szoftverfejélesztés területén is megjelent a lean filozófia, gyakran az agilis fejlesztéssel összekötve, és ahogyan blogunkon is hírt adtunk róla megjelent a lean startup mozgalom is (erről Vlaskovits Patrick írását ajánljuk blogunkon az ügyfélfejlesztésről, ill. a Patrickkal készített interjúnkat, továbbá a Kockázati tőke blogon írtt válaszait is érdemes elolvasni). A Lean Innovation könyvet azért vettem kézbe mert gondoltam nem árt megtudni hogy a szerintem legkritikusabb szakaszban miképp is lehet használni a módszert, és habár egész jó élmény volt elolvasni ezt a könyvet bevallom nem lettem okosabb (vigyázat, ebben az is benne van hogy én vagyok hülye a könyvhöz).


  • Claus Sehested - Henrik Sonnenberg: Lean Innovation, A Fast Path from Knowledge to Value
  • Springer, 2011
  • 190 oldal
  • a kiadó oldala a könyvhöz



2011. szeptember 9.

Lapszemle

Ezen a héten is be kell érni az én lapszemlémmel mert Enci igazoltan távol van a blogtól, de remélem sikerül lassan felnőnöm a feladathoz. Továbbra is lehet követni minket Twitteren @sznyelveszet fiókunkat és szamitogepesnyelveszet.tumblr.com oldalunkon remixeljük a minket érdeklő híreket.

2011. szeptember 6.

Academic writing avagy a tudományos írásmód

Korábban megjelent Vigyázat (:) Plágium! című posztom kapcsán felmerült a kérdés, hogy azok a diákok, akik sem magyar szakon, sem szakdolgozati szemináriumon nem találkoztak még a hivatkozási formákkal, valószínűleg a tudományos írásmóddal is hadilábon állnak. Honnan kérhet segítséget egy mezei egyetemista? Hogyan írhatja meg kreatívan, és szakmailag is kielégítően első hivatalos publikációját? Ehhez szeretnék most segítséget nyújtani.


2011. szeptember 5.

Könyvismertető: The Agile Samurai

Napjainkban egyre nagyobb teret nyer az agilis (vagy simán angolul hagyva agile) szoftverfejlesztés ezért nem árt többet tudni róla mint az amúgy kiváló angol wikipedia szócikk. A Pragmatic Bookshelf kiadó gondozásában megjelent kötet remekül és érthetően foglalja össze az alapokat. A szerző Jonathan Rasmusson a legendás ThoughtWorks csapatát erősítette sokáig, blogja a The Agile Warrior pedig állandó hivatkozási pont az agilisták körében. Az egyetlen problémám a kötettel az ára (34.95 a papír ill. 22 USD a pdf kiadás ára) amit az egy délután kellemesen elolvasható kategóriában túl magas.


  • Jonathan Rasmusson: The Agile Samurai: How Agile Masters Deliver Great Software
  • a kiadó oldala a könyvhöz
  • The Pragmatic Bookshelf, 2010
  • 280 oldal




2011. szeptember 2.

Lapszemle

Ezen a héten rám hárult megszokott Lapszemlénk összeállítása de nem kell megijedni, Enikő alaposan kiokított és ellátott linkekkel :D Továbbra lehet minket követni Twitteren @sznyelveszet név alatt és szamitogepesnyelveszet.tumblr.com tumblr blogunkat is ajánlom azoknak akik semmiről nem akarnak lemaradni.

2011. augusztus 30.

A közösségi tagelés nyelvész szemmel

Manapság a neten egyre többször találkozhatunk különféle oldalakkal ahol arra kérnek minket (vagy jobb esetben csak lehetőségként ajánlják fel) hogy tageljünk. A legegyszerűbb esete ennek egy blog (mint pl ez), ahol a meta-adatok segítenek képet adni arról miről is szól az adott poszt, a “related posts” szkript is ezek alapján találja meg a kapcsolódó írásokat. Ebből rögtön kitűnik hogy a tagelés remek információkezelő eszköz, de mennyire jó és milyen körben használható, mit kezdhetünk vele?

2011. augusztus 29.

Vigyázat(:) plágium!

A felsőoktatás elengedhetetlen velejárója a publikálás. Legyen szó szemináriumi dolgozatról vagy diplomamunkáról mindkét esetben szükséges a szakirodalom áttekintése és használata. Hogyan tehetjük ezt legális módon? Mikor beszélünk plágiumról és hogyan kerülhető ki? Erről lesz szó ebben a cikkben.


2011. augusztus 27.

Gépi fordítás – Fordítási modell 2

Előző, statisztikai alapú gépi fordítással foglalkozó posztunkban már beszéltünk a fordítási modell szerepéről. Most megmutatjuk, hogyan működik a dolog igazi számokkal és igazi szavakkal.

2011. augusztus 26.

Lapszemle

A Goldenblog versenyében sikerült 22 darab szavazatot összeszednünk, ez a 32. helyre lett elegendő, a 72 "fős" mezőnyben ez azért elmegy. Ha minden igaz ma megtudjuk kiket szeret a zsűri, de a lényeg hogy pár új olvasó beesett, már is nyertünk azzal hogy elindultunk. Az izgalmak levezetésére ezen a héten is összeállítottuk ajánlónkat.

2011. augusztus 25.

A 200. poszt - villám önfényezés

Sajnos anno lemaradtam arról hogy a századik poszt kapcsán kezdjek önfényezésbe, ezért a kétszázadik posztot használom fel erre. Villám önfényezésünk egy kis blogtörténetettel kezdődik, majd áttekintjük mi történt velünk az elmúlt bő másfél évben. Vágjunk bele!

2011. augusztus 22.

A tömegkommunikáció hatása az anyanyelv elsajátításának menetére 3. rész

Lássuk, hogy hol is tartunk a nyelvelsajátítás elméleti tanulmányozásában: áttekintettük a nyelvelsajátítás elméletének főbb tematikáját, s végkövetkeztetésként megállapítottuk, hogy minden ember rendelkezik a nyelvelsajátítás alapvető készségével, ám az, hogy a készség hogyan válik képességgé a nyelv használata közben, nagymértékben függ a környezettől. Az elméletek után ezt a bizonyos nyelvi környezetet vizsgáltuk meg tüzetesebben, magát a nyelvet, mint változó – változatlan rendszert, és viszonyrendszert. A továbbiakban azt a széles körben használt nyelvi formát vizsgáljuk meg, amely a tömegkommunikációban megjelenik.


2011. augusztus 20.

Bátran legyünk nyíltak - megéri

Sokak számára a nyílt egyet jelent a nyílt szoftverrel az IT világában. Sokan esküsznek a nyíltságra míg mások viszolyognak tőle. Egyesek szerint az egyetlen út a tökéletesség felé, mások szerint nem lehet minőségi eszközöket elérni egy nyílt környezetben. Azonban a furi flanelinges csókák mozgalmából akik egy saját ingyenes oprendszert szerettek volna, eljutottunk odáig hogy már nem csak a szoftverek szabadságát hirdetik egyre többen, hanem az adatokhoz való hozzáférést is. Nem mellesleg ezzel kapcsolatban felmerült egy halom (szerzői)jogi kérdés is. Milyen távlatai vannak a szabad szoftvernek, nyílt adatoknak és megengedő licenceknek?

2011. augusztus 19.

Lapszemle

Itt a hétvége, kicsit megkésve (amikor szabin van az ember lánya nehéz korán kelni) de összeszedtünk megint pár dolgot hogy legyen mint olvasni pihenés közben. Továbbra is lehet minket követni Twitteren @sznyelveszet név alatt vagyunk, és szamitogepesnyelveszet.tumblr.com oldalunkat is megéri figyelni a legfrissebb hírekért.


Bábel helyett kábel - avagy pár zavaró hiba a Figyelőben

A print Figyelőben Bábel helyett kábel címmel jelent meg egy írás. Sajna kommentelni csak előfizetőknek lehet. Akinek van papír Figyelője, vagy akad hozzáférése, erről a cikkről van szó.

2011. augusztus 15.

A tömegkommunikáció hatása az anyanyelv elsajátításának menetére 2. rész

Az előző részben áttekintettük a fontosabb nyelvelsajátítással kapcsolatos elméleteket, s megállapítottuk, hogy bár rendelkezünk a nyelv elsajátításához szükséges velünk született képességekkel, a környezetünknek is befolyással van a belső nyelvtanunk kialakításában. A következő kérdés, hogy a körülöttünk élő, és folyamatosan változó nyelvre milyen tényezők vannak hatással. Változik a nyelvünk, s ha igen mi és hogyan hat rá? Feltételezhetünk egyfajta interakciót, vagy a nyelv teljesen önkényes belső rendszer? Hogyan viszonyul a beszélő ezen változásokhoz? Ezekre a kérdésekre keressük a választ ebben a részben.


2011. augusztus 14.

Könyvismertető: Learning the Unix Operating System

Sok remek, ingyenesen elérhető *nix tutorial található a neten, a legtöbben ezek használatával tanultuk meg az alapokat, azonban ezeknek van egy kis "hibája"; nem felhasználóbarátok. Nem arról van szó hogy pontatlanságok lennének bennük, hanem épp ellenkezőleg, gyakran túl sok információt közölnek, nincs megszűrve az anyag és nem egységesek abban hogy milyen hátterű olvasónak szánták. A most ajánlott könyvön érződik a gondos szerkesztői munka, tényleg kezdőbarát és érthető, egyedüli problémája hogy bizonyos részei felett eljárt már az idő.


  • Jerry Peek, Grace Todino, John Strang: Learning the Unix Operating System, 5th edition
  • O'Reilly Media, 2001
  • 176 oldal
  • a kiadó oldala




2011. augusztus 12.

Lapszemle

Sok dolog történt ezen a héten, kicsit belehúztunk a blogolásba elvégre a Goldneblogon versenyben vagyunk ezért felvettük a kesztyűt :D Bővültünk is, sorainkat immár Tolnai Timi is erősíti - reméljük sokan követik majd az ő példáját és írnak nekünk, netán még csatlakoznak is kis csapatunkhoz. Természetesen továbbra is lehet minket követni a Twitteren @sznyelveszet néven és a szamitogepesnyelveszet.tumblr.com oldalunkat is érdemes figyelni.

2011. augusztus 10.

TeX/LaTeX: írás és feldolgozás II.

A poszt első részében ismertettük, hogy miért és hogyan használjuk a LaTeX dokumentumokat. A TeX leíró nyelvet nem érintettük komolyabban. Ez nem is volt szándékunkban. Helyette az írás miértjét emeltük ki. A második részben pedig a feldolgozás miértjére és a hogyanra keressük a választ és látjuk el tanácsokkal, ötletekkel az olvasót.

Nyelvi értelmező, házilag

r0ller vendégposztja

„A programok bemenetének általában van valamilyen szerkezete. Tulajdonképpen, minden program, amely valamilyen bemenetet vár, definiál egy saját nyelvet amelyen a bemenetet meg kell fogalmazni. A bemenet lehet akár olyan összetett mint egy programnyelv vagy egyszerű mint egy számsor.” Ahogyan az egyik legismertebb nyelvtani elemző, a Yacc rövid ismertetőjéből is kitűnik, az emberek többségének a problémája a számítógépeken futó programokkal az, hogy mindegyikhez meg kell tanulni azok sajátos nyelvét. Ahelyett azonban, hogy az emberek tanuljanak meg több tíz vagy akár száz programmal hatékonyan kommunikálni, az egyszerűbb feladatok esetén a számítógépet is felruházhatnánk az adott feladat megoldásához szükséges természetes nyelvi töredék megértésének képességével.

A fenti célkitűzés jelen szerző egy nemrég indult magánakciójának sajátja. A projekt az Alice nevet kapta és a githubon bárki tanulmányozhatja vagy akár kísérletezhet vele. A program jelenleg az alapvető fájlkezeléshez kapcsolódó szavakból összeállított szótár alapján megfogalmazott angol nyelvű utasításokat fogad el. Ilyenek például a ‘list all executable files in directory abc’ vagy a ‘delete all files’. A szótár jelenleg igen kicsi, legfőképp mert a projekt egyelőre még inkább csak egy megvalósíthatósági tanulmány, így nem a használhatóság kiterjesztése áll a középpontban. Az alábbiakban megpróbálom bemutatni, hogyan is lehet felépíteni egy ilyen természetes nyelvi értelmezőt, mind nyelvészeti mind technikai oldalról.

2011. augusztus 9.

A tömegkommunikáció hatása az anyanyelv elsajátításának menetére 1.rész

Napjainkban az anyanyelv elsajátítása során sokkal több hatás ér bennünket, mint a korábbi generációkat. Az információszerzés forrásai bővültek, az internet, és a média hatásai minden emberre kihatnak. Három részes írásomban ezt a folyamatot mutatom majd be részletesebben. Ahhoz, hogy az anyanyelv elsajátításának kérdéseit vizsgálhassuk, és a kritikus pontokat körbejárhassuk, érdemes egy kis kitérőt tenni, s belekukkantani a grammatika (nyelvészet), a szociolingvisztika (társadalomnyelvészet), nyelvtörténet tudományos eredményeibe, s ha nem is mélyedünk el benne, a felszínét megkotorgatva kicsit élesebb képet kapunk majd a kérdéskör problematikájáról. Hogyan sajátítjuk el anyanyelvünket? Vannak-e kritikus periódusai? Mennyire befolyásolja a nyelvelsajátítást az a virtuális világ, melybe beleszületünk (közösségi oldalak, online kommunikáció – msn, chat)? Változik-e a nyelvünk, s ha igen hogyan, s mi hat rá? Lássuk!

2011. augusztus 8.

[Frissítve!] Elindult a Goldenblog...

... és lehet ránk is szavazni itt az IT kategóriában. Végigbogarászva a mezőnyt sok érdekes új blogra találtam. Úgy tűnik hogy az IT-b belül a mobilos és a kütyü blogok vannak többségben, az egyéb kategóriákban pedig igazi gyöngyszemekre akadtunk. Természetesen örülünk ha ránk szavazna a kedves olvasó, azonban úgy gondoljuk érdemes másokra is felhívni a figyelmet.

2011. augusztus 7.

Könyvismertető: Számítógéppel emberi nyelven

Tolnai Tímea vendégposztja

Mi történik akkor, amikor találkozik a mérnöki szakértelem és a nyelvészi tudás? A bonyolult algoritmusok hatására a számítógép „megérti” az emberi nyelvet, lekódolja saját nyelvére, s így képessé válik a szöveggel kapcsolatos műveletek elvégzésére: keres, ellenőriz, elemez, fordít. Az elsőre bonyolultnak tűnő témakört a szerzők a laikusok számára is könnyen érthető nyelven rengeteg ábrával és gyakorlati példával teszik még befogadhatóbbá az olvasottakat. A hétköznapi felhasználó által nap mint nap alkalmazott számítógépes programok nyomán teszik érthetővé a keresés, fordítás illetve helyesírás-ellenőrzés menetét.


  • Prószéky Gábor – Kis Balázs: Számítógéppel emberi nyelven. Intelligens szövegkezelés számítógéppel
  • Szak Kiadó, Budapest, 1999






2011. augusztus 5.

Lapszemle

Nos sűrű hetünk volt posztok terén, de a hétvége itt van a kertek alatt, rendes olvasóink ilyenkor Lapszemle rovatunkból szemezgetve töltik az idejüket :D És mindenki tudja már hogy Twitter lehet követni a @sznyelveszet fiókot, a szamitogepesnyelveszet.tumblr.com oldalunkon pedig jobbnál-jobb híreket olvashat minden nap.

Legyél te is adat!
Kedves ismerősünk szemináriumi dolgozatához szükség van a Te segítségedre is. Ha középiskolás vagy, vagy jártál középiskolába és akad öt szabad perced, arra kérünk hogy a tudománynak áldozva töltsd ki a következő anonim kérdőívet: http://www.kerdoivem.hu/kerdoiv/466149338/

2011. augusztus 4.

Könyvismertető: Az Üveghegyen innen

Tolnai Tímea vendégposztja

Az érdeklődők számára egy olyan könyvet kínálok lapozgatásra, mely nem csupán nyelvészek, pedagógusok hasznos társa lehet, hanem szülőknek, diákoknak, határon túl élő magyaroknak, egyszóval mindenkinek, aki törődik anyanyelvének ápolásával. A könyvet – határon túli kiadás lévén – nyomtatott formában talán nehézkes lehet beszerezni, ám a Magyar Elektronikus Könyvtárból bárki számára könnyen és gyorsan elérhető itt.


  • Csernicskó Istávn - Kontra Miklós (szerk.): Az üveghegyen innen - Anyanyelvváltozatok, identitás és magyar anyanyelvi nevelés
  • PoliPrint, II. Rákóczi Ferenc KMF, 2008
  • Elektronikus verzió a Magyar Elektronikus könyvtár oldalán: http://mek.oszk.hu/08100/08144/cimkes.html



2011. augusztus 3.

Korpusznyelvészet - Unicode; a korpuszkészítés alapjai 2

Az előző posztban végig vettük Leech maximáit, melyek segítenek minket abban hogy használható korpuszt készítsünk. Mivel egy korpusz általában szöveges (de nem szükségszerűen, hiszen már vannak audio korpuszok is) szükségünk van arra hogy a szöveget alkotó karaktereket is egységesen kezeljük, ez teszi lehetővé hogy igény szerinti formában jelenítsük meg, vagy hasonlítsuk össze az egyes korpuszokat. Ez nem csak az eredmények és adatok megosztását, de feldolgozását is megkönnyíti. Sajnos azonban ez nem mindig volt magától értetődő elv, szerencsénkre azonban a dolog változik és a Unicode szabvány terjedőben van. A posztban nem törekszünk arra hogy bemutassuk teljesen magát a szabvány, csupán a mögötte rejlő elveket vesszük sorra és egy kis eligazítást adunk hol tanulhat többet az érdeklődő olvasó (aki kényes a pontos megfogalmazásra és szeretne komolyabban elmerülni a témában, az inkább csak az ajánlott irodalmat fussa át).

2011. augusztus 2.

Nyelvi modell és fordítási modell a gépi fordításban

Folytatjuk az utazást a statisztikai alapú gépi fordítás világába, útikönyvként továbbra is Kevin Knight bevezetője szolgál. Ebben a posztban a fordítási modell szerepéről lesz szó.

Digitális bölcsészet - új blog indult

Kalcsó Gyula,  a Digitális bölcsészet blog szerzőjének vendégposztja

Az, hogy az utóbbi években a nemzetközi tudományos életben felmerült az igény a különböző bölcsészettudományi területeken használt számítástechnikai eszközök közös kutatására, valamint a közös módszertan kidolgozására, sőt: önálló területté fejlesztésére, nyilván annak köszönhető, hogy a mennyiségi növekedés átcsapott minőségibe. Annyi új eszközt, eljárást, módszert dolgoztak már ki ezen a területen, hogy elkezdett önálló életet élni, és a korábban nyelvészként, irodalmárként, könyvtárosként tevékenykedő kutatók egyre inkább DH-szakembernek számítottak, akik már nem is annyira az eredeti tudományterületük, hanem az új "transzdiszciplína" (l. lejjebb) szakértői lettek. Kialakult a digital humanitiesnek (DH) nevezett terület.

2011. augusztus 1.

Legyél te is szerző a Számítógépes nyelvészet blogon!

Valahogy a nyáron megszaporodnak azok a levelek melyekben arról érdeklődnek a kedves olvasók miképp írhatnának a blogra. A dolog nagyon egyszerű, dióhéjban: írj egy posztot, küld el nekünk, megbeszéljük, ha kész felkerül - két-három vendégposzt után jogosultságot kapsz és szabadon posztolhatsz nálunk. A lényeg hogy HA ÍRNI SZERETNÉL NÁLUNK, SZERETETTEL VÁRUNK! A továbbiakban egy kicsit bővebben is írunk erről.

2011. július 29.

Lapszemle

Nos eltelt egy hét, jön a hétvége ami reméljük hogy végre jó idővel örvendeztet meg minket, de az esős napokra is kell egy kis szórakozás, összeszedtük hát egy-két érdekességet a hétre. Továbbra is várjuk leveleiteket a szamitogepes.nyelveszet(kukac)gmail.com címre, ajánljuk magunkat a szamitogepesnyelveszet.tumblr.com blogon és @sznyelveszet fiókunkat a Twitteren a híréhes közönségnek.


2011. július 25.

Könyvismertető: The Back of the Napkin - képi gondolkodás kezdőknek

Már elsütöttük párszor a blogon hogy egy kép többet ér ezer szónál, de arról keveset írtunk hogy elkészíteni egy ilyen képet és megérteni nem is olyan magától érthető dolog. A most bemutatásra kerülő kötet ehhez nyújt segítséget, azonban rögtön az elején le kell szögeznem hogy bizonyos megszorításokkal.


  • Dan Roam: The Back of the Napkin: Solving Problems and Selling Ideas with Pictures
  • Portfolio Hardcover, Expanded edition, 2009
  • 304 oldal
  • honlap: http://www.thebackofthenapkin.com/




Nyelvi modell a gépi fordításban

A nyelvi modell fogalma kapcsán elkezdtünk betévedni a statisztikai alapú gépi fordítás sűrű sötét erdejébe. Most tovább folytatjuk a matematikai formulákkal és irdatlan méretű korpuszokkal kikövezett utat.

2011. július 22.

Lapszemle

Jön a hétvége, gondolom mindenki akar valamit olvasgatni következő posztunkig, ezért ismét összeszedtük amit érdekesnek tartunk :D Továbbra is arra bátorítunk mindenkit hogy kövessen minket a Twitteren @sznyelveszet néven, de Zoli és Dávid is megtalálható @zoltanvarju ill. @davidpgero néven. A szamitogepesnyelveszet.tumblr.com oldalon a nagyvilág híreiből szemezgetünk, itt Pétert is megtaláljátok tempflip.tumblr.com alatt, akinek Anyegin orosz blogját is érdemes olvasgatni (orosz mert orosz témákról szól, de magyarul íródik).


2011. július 20.

Nyelvi modellek 2


Előző, nyelvi modellekről szóló posztomban a helyesírás-ellenőrző, az internetes kereső és a gépi fordítás közös pontjait kezdtem el keresni, és egy python kódot is közzétettem. Most a kód kommentálása következik, és egy XVIII. századi angol matematikus is felbukkan.

2011. július 19.

Ügyfélfejlesztés dióhéjban

Patrick Vlaskovits vendégposztja

Akik szeretnének személyesen is találkozni Patrickkal, azok 2011 augusztus 3-án Budapesten megtehetik ezt, részletek itt.

Tavaly, Brant Cooper-rel közösen írtam a The Entrepreneur's Guide to Customer Development című könyvet. A legérdekesebb betekintést többszörös sikeres vállalkozó, Steve Blanktől nyertük, aki arra ösztönzött és bátorított minket, hogy úgy írjuk meg ezt a könyvet, mint egy bevezetést az ügyfélfejlesztés első lépéseihez.



2011. július 17.

Lean startup és customer development - interjú Patrick Vlaskovits-csal

A startup világban egyre népszerűbb az ún. lean startup módszer, amit Eric Ries „talált ki” és népszerűsít szerte a világban. Rövid sorozatunkban Patrick Vlaskovits segítségével bemutatjuk hogy miért érdemes odafigyelni erre a mozgalomra és mit is takar valójában a fogalom. Hogy tisztázzuk az alapokat Skype-on beszélgettünk Patrickkal.

2011. július 15.

Lapszemle

A nyári uborkaszezon nem kerülte el a számítógépes nyelvészetet sem, de azért mi tovább próbálkozunk és ezen a héten is összeszedtük az általunk érdekesnek talált olvasnivalókat. Továbbra is lehet minket lájkolni a Facebookon (ott jobbra találod ehhez az eszközt), követni minket a Twitteren @sznyelveszet név alatt és a szamitogepesnyelveszet.tumblr.com oldalunkon szinte minden nap találsz friss híreket/érdekességeket.


2011. július 14.

Könyvismertető: Reliable Reasoning - gépi tanulás mindenkinek

Manapság a gépi tanulás (leánykori nevén statisztikai tanuláselmélet) egyre elterjedtebb, érthető hát az igény arra hogy egy minnél közérthetőbb könyv segítségével ismerkedhessen meg alapfogalmaival a nagyérdemű. Nem szabad azonban összetéveszteni a bevezetést az ismeretterjesztéssel! Tudjuk hogy a matematikához (és a formális elméletekhez) nincs királyi út, mivel azonban a gépi tanulás már rég olyan területek ajtaján kopogtat mint a társadalomtudományok és a digitális bölcsészet szükség van egy könnyen emészthető bevezető könyvre. A most bemutatásra kerülő kötet ennek teljesen meg is felel, bónuszként pedig szabadon letölthető a nyomtatás előtti nyers verziója.





2011. július 13.

Nyelvi modellezés, házilag


Ismeretes, hogy a számítógépek alapvetően még mindig nem értik az emberi nyelveket, de ezt az apró hiányosságot azzal ellensúlyozzák, hogy nagyon gyorsan tudnak számolni. A gépi fordítás, az internetes keresés vagy éppen Watson sikere bizonyítja, hogy a statisztikai alapú megközelítés járható út, nem kell mindenáron “megértetni” a géppel a szövegek jelentését. Ebben a posztban arról lesz szó, hogyan dolgozza fel a gép a szöveget, és egy házi készítésű magyar nyelvi modellt is bemutatok.

2011. július 11.

TeX/LaTeX: írás és feldolgozás I.

Mi ez? Mire való? Én miért használjam? A kérdések után rátérünk az írás módjára, hogy hogyan írjunk latex dokumentumokat. Milyen előnyeink származnak belőle, milyen paradigmaváltás szükséges, ami a más típusú szövegszerkesztőknél is sokat segíthet a dokumentumok helyes szerkesztésében. Illetve a második részben, a József Attila versek felhasználásához hasonlóan egy újabb példát nyújtunk, de most a latex dokumentumok feldolgozására, megtisztítására és nyelvészeti szempontú megmunkálására.

2011. július 8.

A magyar transzformációs generatív grammatika irodalmi áttekintése

A cél nem a magyar nyelv transzformációs mondattanának bemutatása. Ezeket a témákat csupán megemlítem, érintem, a cél inkább az, hogy egy rövid szakirodalmi áttekintést nyújtsak azok számára, akik először vagy felszínesen már találkoztak a témával. Akiket érdekelt a téma, de egyedül, egy kis segítség nélkül még nem tudtak komolyabb kapcsolatba kerülni a modern nyelvészeti irányzatok ezzel az ágával.

Lapszemle

Sokat kell behoznunk, az elmúlt héten nem voltunk valami aktívak mert sok készültünk a Knigth-Mozilla Learning Lab-re, de most összekaptuk magunkat és jobbnál-jobb dolgokat ajánlunk a kedves olvasóknak hogy ne maradjanak ki a jóból. Továbbra is várjuk a Lapszemlébe való híreket szamitogepes.nyelveszet(kukac)gmail.com email címünkre, lehet minket követni @sznyelveszet néven a Twitteren és nyomjuk a híreket a szamitogepesnyelveszet.tumblr.com oldalunkon is.
 

2011. június 30.

Knight - Mozilla Learning Lab

Ahogyan arról már hírt adtunk örömünkben, beválogattak minket a Knight Foundation és a Mozilla Foundation közös kezdeményezésében rendezett Learning Lab-be. Szóval a nyár egy részét szorgos munkával és tanulással fogjuk tölteni (és egy kicsit kevesebbet is fogunk posztolni).  A cél pedig nem más mint az adatújságírás terén elérni valamit.

2011. június 27.

Korpusznyelvészet - a korpuszkészítés alapjai 1.

Az előző korpusznyelvészeti posztban láthattuk hogy milyen elméleti megfontolásokat kell figyelembe vennünk mielőtt korpuszt használunk. Ezeket figyelembe véve érdemes tudnunk hogy milyen elvek mellett épül fel egy jó korpusz. Most a legalapvetőbb vezérelevekt és ajánlásokat vesszük sorra.

2011. június 24.

Lapszemle

Hétvégi ajánlatunkban igyekeztünk összeszedni pár érdekességet a kedves olvasóknak, ha valami úgy érzed kimaradt, a szamitogepes(pont)nyelveszet(kukac)gmail.com címre nyugodtan elküldheted és a következő Lapszemlében közzétesszük. De addig is követhetsz minket a @sznyelveszet név alatt a Twitteren, és böngészheted a szamitogepesnyelveszet.tumblr.com oldalunkat.

2011. június 21.

Korpusznyelvészet – elméleti megfontolások

Mi is az a korpusznyelvészet? Sokan úgy tekintenek a korpuszokra mint a nyelvi adatok egyetlen lehetséges forrásaira, mások azt hiszik hogy ez valami nagyon új irányzat, de szeretnénk lehűteni a kedélyeket – a korpusznyelvészet ugyanis egy módszertani irányzat, se nem több, se nem kevesebb. Sajnos azonban ezt az irányzatot is „megfertőzte” a szokásos irány és szeretik a korpusznyelvészek is Chomskyval szemben meghatározni magukat. Vizsgáljuk meg egy kicsit közelebbről a két legelterjedtebb ködképet a korpusznyelvészetről.


2011. június 18.

Dzsudzsák a Twitteren!

Először egy népszerű oldal  Twitter feedjét szerettem volna elemezni, jobban mondva hogy mennyi RT-t kap egy-egy hír, de úgy tűnik a magyar felhasználókat nem kapta el a Twitter láz és nem lehet elég adatot találni egy-egy hírre. Így hát váltottam a nyest.hu Hol van az a Mahacskala cikkétől inspirálva első körben begyűjtöttem pár Dzsudzsákról szóló csiripelést, mivel mostanában sok hír kering(ett) leghíresebb futballistánk körül és a hab a tortán hogy nem csak magyarul! Így a begyűjtött tweeteken sok-sok dolgot bemutathatunk :D Figyelem, ez egy technikai poszt, Python kóddal, pip_/easy_install használatát lehet hogy nem úszod meg.

2011. június 17.

Lapszemle

Eltelt egy hét, ismét összeszedtük hogy mit érdemes olvasgatni két posztunk között. Ha valamit szeretnél megjelentetni ajánlókban, küld el a linket pár soros ismertetővel a szamitogepes.nyelveszet(kukac)gmail.com címre. Ha nem tudsz meglenni hírek nélkül, akkor kövess minket Twitteren @sznyelveszet néven vagyunk fent, ill. böngészd a szamitogepesnyelveszet.tumblr.com oldalunkat is.

2011. június 14.

Gondolkodó gépek 1.

A népszerű Jeopardy vetélkedőn aratott sikere után Watson bekerült a médiába és lassan mindenkinek van róla véleménye. Előkerültek ismét a gépek képességeit firtató kérdések, tényleg lehetnek-e annyira intelligensek mint az ember, vagy túlszárnyalhatják-e és a cyberpunk alkotásokban megjövendölt poszthumán jövő már itt jár a keretek alatt. A dolog pikantériáját az adja hogy az MIT nagyágyúi egy nem rég megrendezett szimpóziumon éppen azon keseregtek hogy valahol letértek az aranykorban kijelölt útról és újra kell indítani a mesterséges intelligencia kutatásokat. Akkor hogyan is állunk ezzel? Miért kesergünk, ha Watson nyert, a jövő pedig már itt is van.

2011. június 12.

Python és az SQLite – adatbázis, lájtosan

Előbb vagy utóbb eljön az a pillanat, amikor az ember úgy érzi: az addig értelmes és szép adathalmaz túl nagyra hízott, kaotikus, átláthatatlan, kezelhetetlen és lassú. Igen, ilyenkor kell egy adatbázis. A Python programozásban az a szép, hogy egyszerű mégis elegáns, és szerencsére a beépített adatbázis-modulja is ilyen: a SQLite a széleskörben elterjedt SQL szabványon nyugvó relációs adatbázisok kistestvére. Használata hasonlít hozzájuk, viszont kellemes előnye, hogy nincs szükség külön adatbázis-szerverre (az SQLite egyébként egy C-könyvtár, és nem csak a python használja; a szinte szabványos SQL szintaxis miatt a későbbi esetleges váltás nagyobb adatbázisokra sem túl fájdalmas).


2011. június 10.

Lapszemle

Ismét itt a hétvége, megint összeszedtünk pár linket hogy legyen mit böngésznie kedves olvasóinknak. Ha valami kimaradt, a szamitogepes.nyelveszet(kukac)gmail.com címre írd meg bátran, ha töbet szeretnél olvasni, kövesd szamitogepesnyelveszet.tumblr.com oldalunkat.


2011. június 9.

Könyvismertető: Introduction to Linguistic Annotation and Text Analytics

Sokak számára nehéz belépni a számítógépes szövegelemzés világába, legyenek akár nyelvészek (akiknek pl. nem volt alkalmuk programozást és/vagy formális módszereket tanulni) vagy informatikusok (akik pl. nem tanultak specifikusan számítógépes nyelvészetet, nem találkoztak eddig nyelvészeti elemzéssel). A most bemutatásra kerülő könyv nekik nyújt támogatást, és habár nem mentes a hibáktól, jelenleg nem ismerek jobbat a piacon.


2011. június 7.

Könyvismertető: Data Analysis with Open Source Tools

Az adatelemzés lassan de biztosan a (számítógépes) nyelvészeti munka részévé válik, azonban sajnos még nincs külön kialakult szakirodalma a területnek. Janert könyve azonban nagyon hasznos technikákkal és ami még fontosabb szemléletmóddal gazdagítja az olvasót és egy kis kreativitással ami területünkre is alkalmazhatóak a bemutatott módszerek. Azonban alapos előismeretek szükségesek ahhoz hogy haszonnal tudjuk forgatni a kötetet.







2011. június 4.

Lapszemle

Továbbra is várjuk észrevételeiteket és ha egy jó hírre bukkantok, nyugodtan küldjétek el nekünk a szamitogepes(pont)nyelveszet(kukac)gmail.com címre. Hét közben a szamitogepesnyelveszet.tumblr.com oldalon megosztunk mindent újdonságot, érdemes ott is követni minket.

2011. június 1.

On Computational History - an interview with William J. Turkel

We interviewed William J. Turkel (associate professor, University of Western Ontario) on computational history. You can learn more about William at his home page, his discontinued Digital History Hacks blog is full of interesting posts, and you can find him on Twitter as @williamjturkel.  

2011. május 28.

Chomsky, Norvig és a tudomány

Peter Norvig a Google tudományos guruja, a legszélesebb körben használt mesterséges intelligencia tankönyv szerzője, a NASA volt kutatója, a Lisp közösség csodált vezéregyénisége tegnap úgy érezte hozzá kell szólnia Chomsky megjegyzéséhez, amiről már a Chomsky és a statisztika írásunkban szóltunk. Norvig érvei súlyosak, és bevallom nem akarom mentegetni Chomsky megjegyzését - amit nem is tudok hova tenni, én sokkal inkább úgy gondolom hogy a cikk írója nem értett valamit, vagy az öreg unta már a konferenciázgatást - de úgy gondolom hogy csúsztatás figyelhető meg az érvekben.

2011. május 27.

Lapszemle

Ezen a héten nem kényeztettük el olvasóinkat, de megnyugtatunk mindenkit hogy ennek nem csak az az oka hogy egyéb elfoglaltságaink elszólítottak minket a blogolástól és vendégeskedtünk is francia kollégáink oldalán - hamarosan két nagyon érdekes poszttal jelentkezünk; az egyik a digitális bölcsészet ún. computational history irányzatát mutatja be, a másik pedig a lean startup mozgalom egyik jeles magyar figurájának írása, reméljük megéri várni ezekre. Addig pedig hogy senki ne maradjon olvasnivaló nélkül, most egy kicsit több cikket ajánlunk. Továbbra is ajánljuk magunkat, a szamitogepesnyelveszet.tumblr.com oldalon naponta közreadjuk hogy mit olvasgatunk, illetve várjuk ajánlásaitokat a szamitogepes(pont)nyelveszet(kukac)gmail.com címre. (Technikai probléma miatt nem Enci neve alatt jelent meg a poszt)

2011. május 23.

Wikipedia API – sok szöveg, gyorsan, tisztán

Már volt szó korábban az API-k használatáról a New York Times és a Guardian adatai kapcsán. Az API (alkalmazásprogramozási interfész) egy olyan szabványosított felület, amin keresztül hozzá lehet férni egy másik program funkcióihoz – anélkül, hogy részletesen ismernünk kéne azok működését. Minket ez elsősorban a webes alkalmazások miatt érdekel : sok oldal lehetővé teszi, hogy megkerülve a webes felületet férjünk hozzá az adatokhoz, vagy akár interakcióba lépjünk velük (közismert példa a facebook-os alkalmazás).
A Wikipedia is szabadon hozzáférhető a web megkerülésével, és ez valójában mindenkinek jó: a fejlesztők pontosan olyan adatokat kapnak, amilyet kívánnak, a Wikipedia szervereinek pedig nem kell azon erőlködniük, hogy emberi fogyasztásra alkalmassá tegyék az adathalmazt (ezzel csökken a terhelés). 

2011. május 20.

Lapszemle

Továbbra is várjuk észrevételeiteket és ha egy jó hírre bukkantok, nyugodtan küldjétek el nekünk a szamitogepes(pont)nyelveszet(kukac)gmail.com címre. Hét közben a szamitogepesnyelveszet.tumblr.com oldalon megosztunk mindent újdonságot, érdemes ott is követni minket.


2011. május 17.

Számoljunk magyar nyelven

Következő írásomban magyar nyelven megfogalmazott alapvető számítási műveletek felismerésére és elvégzésére fogjuk megtanítani a számítógépünket. Az összeadás, a kivonás, a szorzás műveletét lesz képes felismerni és megadni az eredményt magyar nyelven. A tanításhoz a szabályalapú megközelítést fogunk használni és a Prolog programozási nyelvet.


2011. május 16.

Útikönyvek az algoritmusok világába - ahogy megígértük

A Legyél te is számítógépes nyelvész posztban megígértük hogy megpróbálunk olyan anyagokat is ajánlani melyek segítenek belépni az algoritmusok gyönyörű világába. Azonban figyelmeztetni kell az olvasót hogy ha hátizsákos turistaként maga szervezi meg az utazást nagyon sok kellemetlenséggel találkozhat, gyakran el fog akadni és néha idegen, fura nyelven beszélő emberek jóindulatára lesz utalva, és soha nem fogja tudni hol éri az este. Ellenben rengeteg élményben lesz része, és ahogy egyre több tapasztalata halmozódik fel, egyre jobban fogja érteni magát és az őt körülvevő világot. Mielőtt azonban elindulnál győződj meg arról hogy minden benne van-e a hátizsákodban (a fent említett poszt ebben segíthet neked)!


2011. május 14.

Lapszemle

A blogger szerencsésen elhárította a problémákat és minden posztunk visszakerült a helyére :D Ilyen előfordul néha, de hát egy ingyenes szolgáltatás esetében ezt elviseli az ember. Két hete mi magunk okoztunk egy kis üzemzavart, de reméljük most már minden megy a maga megszokott útján. - Sokszor megkapjuk hogy x hírt, y posztot, vagy z tanulmányt miért nem tettük be az ajánlóba, nos nem jut el minden hozzánk, de ezen segíthetsz! Ha nem akarod hogy valami kimaradjon, küld el a szamitogepes(pont)nyelveszet(kukac)gmail.com címre!

2011. május 12.

Formabontás a „két kultúra” ellen

Péter Rózsa a Játék a Végtelennel című könyvét ajánlom, és bemutatom az ott felvázolt gondolatmenetet, ahogyan egy vers fordításából, egy mondatából, eljuthatunk a modern nyelvelméletek egyik fontos és vizsgált nyelvtípusához, a környezetfüggetlen nyelvtanokig.

Tanulmány-ajánló: Opinion Mining and Sentiment Analysis

Nemrég, Margueritte Leenhardt vendégposztjában volt szó az érzelem-elemzésről. Ő is megemlíti Bo Pang és Lillian Lee igen népszerű tanulmányát. A remek anyag szerencsére ingyenesen elérhető az interneten; most kedvcsinálónak hozzá egy rövid ismertető következik.

2011. május 11.

Chomsky és a statisztika

Nem rég az MIT symposium Brains, Minds and Machines konferenciáján vitatták meg a terület nagyágyúi hogy miért rekedtek meg a mesterséges intelligencia kutatások az ötvenes évek kezdeti sikerei után. Csak úgy röpködnek a nevek az esemény körül, Sydney Brenner, Marvin Minsky, Steven Pinker, Noam Chomsky, Barbara Partee, Emilio Bizzi és Rodney Brooks hogy csak az ismertebbeket említsük visszasírták a kezdeti évek kreativitását és nagyravágyását. A (számítógépes) nyelvészek közösségét azonban megragadta Chomsky egyik  probabilisztikus/statisztikai módszer-ellenes gondolata. A Replicated Typo-n Hannah Little "Chomsky derides purely statistical methods" posztjában csak kérdésként fogalmazta meg hogy mit gondol erről a szakma és nagyon érdekes reakciók érkeztek...

Kalandozások a számítógépes nyelvészet területén - olvasóink élménybeszámolói

Három olvasónk vállalkozott arra hogy megosztja mindenkivel kalandozásait a számítógépes nyelvészet területén. A személyes tapasztalat reméljük segít másoknak is elindulni, végig gondolni saját hátterét és igényeit. Több út vezet a Nirvánába, ezt nem szabad elfelejteni, a beszámolók célja megmutatni milyen lehet ez az út egyes konkrét esetekben, Zoli Legyél te is számítógépes nyelvész posztja pedig jó kiindulópont ha már tisztában vagy magaddal. A levélrészleteket megszerkesztettük, az szerzőkről csak annyi információt közlünk amennyit engedélyeztek. Anna, Kátya, Bence - Köszönjük!

2011. május 6.

Lapszemle

Ezen a héten végre szóltunk a sentiment analysis-ről is - már annyian kérték hogy nem kerülhettük meg a problémát. Ha minden jól megy, akkor fogunk még írást közölni a témában. Miközben Zoli ismét metodológiai vitába bonyolódott, én arra gondoltam hogy bővíteni kellene a Lapszemlét videók ajánlásával, elvégre hétvégén nem biztos hogy csak olvasni akar az ember.

2011. május 4.

Opinion Mining & Sentiment Analysis, or what sets up a hot topic

A guest post by Margueritte Leenhardt



Context

For more than a decade now, researchers from Text and Data Analytics, Computer Science, Computational Linguistics and Natural Language Processing, among others, have been working on technologies that could lead to analyze how people feel or what people think about something. In the current period, a great amount of commercial offers have been built on what is still to be taken as a Research Program. Here are some basic clues to get an idea of how this kind of content analysis technologies work.

2011. május 3.

Legyél te is számítógépes nyelvész - tíz év alatt

Úgy néz ki hogy májusban megszaporodnak a levelek melyekben arról érdeklődnek a kedves olvasók hogy miképp is válhat valaki számítógépes nyelvésszé. Ahhoz hogy valaki szakértő legyen egy területen, kb tíz év gyakorlás és gyakorlat szükséges (l. Norvig Teach Yourself Programming esszéjét vagy Mérő László Mindenki másképp egyforma könyvét), rossz hír hogy az interdiszciplináris területeken talán több is. Jó hír viszont hogy ezt egyáltalán nem kell úgy érteni hogy ennyi időt kell az iskolapadban eltölteni (habár ha egy PhD-t bevállal valaki, akkor nyolc kellemes évet tölthet el a felsőoktatásban - talán nem véletlenül). Tovább bonyolítja a helyzetet hogy a számítógépes nyelvészet területére különböző hátterű emberek érkeznek ezért nincs egységes recept. Blogunkon megpróbálunk olyan forrásokat is bemutatni amik segíthetnek az érdeklődőknek, most ezeket szedegettem össze és megpróbáltam egy egységes keretbe foglalni hogy ki-ki megtalálja a maga forrásait útja elkezdéséhez.


2011. május 1.

Látni a szöveget


A szöveges adatok vizualizációjáról már többször volt szó itt a blogon is (itt és itt). Kétségtelen, gyönyörű képeket lehet generálni, ám mindig felmerül a kérdés, mire jó a dolog… Zoli szerint például arra, hogy ha kellően nagy adathalmazon végzünk elemzést, akkor gyakran sokkal többet mond nekünk egy ilyen kép mint maga a leíró statisztika, jobban érthető egy történet képpel illusztrálva, mint a száraz számokkal. A legtöbb megoldás (szó-felhő, szó-fa, szavak elosztása tengelyek körül) valóban csak arra szolgál, hogy segítse az emberi elemzőt, a gépek remekül megvannak képek nélkül, nekik minél szárazabb az adathalmaz, annál jobb. Látni az adatokat azért lehet hasznos, mert “kiugranak” az olyan tulajdonságok, melyekre egyébként nem figyelnénk fel; és ha már egyszer kiugrottak, lehet rájuk olyan szabályt írni, amely segítségével a gépnek is el tudjuk magyarázni. Ha nem tudjuk, hol kezdjünk hozzá egy feladathoz, érdemes lehet minél több mindent lerajzolni, előbb-utóbb biztosan észreveszünk valamit. Valami ilyesmire van kitalálva például a Many Eyes rendszer is.

2011. április 29.

Lapszemle

Ismét eltelt egy hét, lássuk mi történt a világban! Ha akad valami amit szeretnél megosztani velünk és olvasóinkkal akkor a szamitogepes.nyelveszet(kukac)gmail.com címre küld el a linket (pár szó kíséretében). Ha pedig rendszeresen szeretnétek informálódni, akkor kövessétek Twitter fiókunkat (@sznyelveszet), olvassátok a szamitogepesnyelveszet.tumblr.com oldalunkat és lájkoljatok minket a Facebook-on.