Balogh Kitti, Varjú Zoltán, Szűcs
Krisztina
A Precognox cég nyelvészeti alapokra
építő keresési és szövegbányászati eszközei objektív alapot nyújtanak ahhoz,
hogy elemezzük magyar nyelvű szövegek érzelmi töltetét, és tetten érjük például
a gyűlöletbeszédet az online médiában. A MOME alumna tervezőgrafikus készítette
interaktív adatvizualizációval az eredmények láthatóvá válnak és időben is
értelmezhetők.
A mai információs társadalomban az emberi agy számára feldolgozhatatlan mennyiségű
információ áraszt el minket. Az információ mennyisége pedig csak egyre
növekszik az infokommunikációs technológiák fejlődésével. Ezen információk nagy
részével szöveges formában találkozunk, például Facebookon végigolvassuk
ismerőseink posztjait, ellátogatunk az általunk kedvelt híroldalakra,
beleolvasunk pár cikkbe, felkeressük a számunkra fontos szakmai oldalakat, majd
estig megismételjük az eljárást párszor. Hiába a sok információ, még így is
sokszor lemaradunk a lényegről. Hogy kinyerhessük a minket érdeklő
információkat, rengeteg módszer kínálkozik a számítógépes szövegfeldolgozás
területén. Azonban az így kinyert lényegi információk csak úgy érnek célt, ha
azokat az emberek számára is emészthető formába közöljük, ezért az adatok
vizualizációja és a felhasználói felületek megfelelő designja igen fontos lépés
ebben a folyamatban.
Az előadás során a Precognox szövegfeldolgozási,
szövegbányászati projektjeit mutatja be, melyek témái között szerepel az olvasási
nehézségekkel küzdők támogatása, a romák elleni gyűlöletbeszéd, a magyar
politikai blogszféra diskurzusa és a gyermekek nyelvfejlődése. A cég
adatvizualizáció, interface és interakció design területen keres együttműködő
partnereket pályázatokhoz, valamint gyakornoki programukban szívesen várnak a
területek iránt érdeklődő diákokat.
Ha túl sok a szöveg - topik vizualizáció
Hogyan tudunk nagy mennyiségű szöveges
információt könnyen és gyorsan áttekinteni anélkül, hogy elolvasnánk őket?
Hogyan tudjuk akár az időben is követni, hogy a szövegek témái hogyan
változnak? Projektünkben a látens Dirichlet allokáció (LDA) módszert vetettük
be, ami humán kiértékelők szerint is természetes témákba rendezi a szövegek
gyűjteményét. A témák kinyerését egy szélsőjobboldali hírportál 10.000 cikkén
illusztrálva mutatjuk be, majd a témák időbeli áttekinthetőségét szolgáló
adatvizualizáció tervezésének folyamatát ismertetjük Szűcs Krisztina
segítségével, hogy hogyan alakítottuk ki a nyers adatból a végső interaktív
vizuális ábrázolást.
Egymásba gabalyodva - a magyar politikai
blogszféra az érzelmek hálójában
Az egyes szövegek sosem állnak önmagukban,
beszélnek egymással hivatkozásokon és utalásokon keresztül. Az interneten ez
egész explicit módon linkek formájában jelenik meg ami kirajzolja a
hivatkozások hálózatát. Politikai blogokat vizsgáló projektünk keretében több
mint 700 oldal posztjait és cikkeit gyűjtöttük össze, megvizsgáltuk a közöttük
lévő kapcsolatokat. Mennyire pozitív, vagy éppen negatív egy oldal? A blogokon
vagy a híroldalakon megjelenő szövegekben találhatunk a hat alapvető emberi
érzelemre utaló szavakból többet? Projektünk során igyekeztünk a hálózati
struktúrán is megjeleníteni az érzelmeket.
Sok beszédnek sok az alja -
kulcsszókinyerés és kivonatolás
Nem csak az egymásra hivatkozó
szövegek alkotnak hálózatokat, egy-egy szöveg maga is felfogható az azt alkotó
szavak hálózataként. A hálózati ábrázolás amellett, hogy a szófelhők
alternatívája is lehet, alkalmas arra, hogy azonosítsuk a szöveg “központi”
szavait. A fontos csomópontok azonosításával rövid kivonatot készíthetünk a
szövegből, továbbá sok keresési feladatban hasznosnak bizonyult kulcsszavakat
is kinyerhetünk.
A kulcsszavaktól a nyelvfejlődésig meg
annak zavarai
Tudunk-e segíteni az olvasási nehézségekkel
küzdőknek abban, hogy az online világ egyenrangú részesei lehessenek? A CHILDES
gyermeknyelvi korpusz adatait vizsgálva a nemzetközi irodalom és saját
vizsgálataink is azt mutatják, hogy a hálózati modellek jól írják le
nyelvfejlődést. Érdekes kapcsolódás, hogy az olvasási nehézségekkel élők
számára sokat segít a szövegértésben a kulcsszavak kiemelése. Saját
kulcsszókinyerő alkalmazásunkat ezen a területen szeretnénk bevetni; egy olyan
böngésző plug-in kifejlesztését tervezzük, ami a webes szövegeket sokkal
emészthetőbb formátumban, a kulcsszavakat kiemelve jeleníti meg.
Előadók:
Szűcs Krisztina tervezőgrafikus, data visualization designer - krisztinaszucs.com
Balogh Kitti a Precognox statisztikusa
Varjú Zoltán a Precognox számítógépes
nyelvésze
A Precognox intelligens, nyelvészeti
alapokra építő keresési, szövegbányászati és bigdata szoftvermegoldások
kutatója és fejlesztője.
További részletek: labs.precognox.com/kurucinfo_adatviz
Időpont: 2015. november 18. szerda
16.30-18.00
Helyszín: Moholy-Nagy Művészeti Egyetem 1121 Budapest, Zugligeti út 9‑25. A104 Előadó