Tech-Tea: Szövegvizualizációk a szófelhőkön túl

Balogh Kitti, Varjú Zoltán, Szűcs Krisztina

A Precognox cég nyelvészeti alapokra építő keresési és szövegbányászati eszközei objektív alapot nyújtanak ahhoz, hogy elemezzük magyar nyelvű szövegek érzelmi töltetét, és tetten érjük például a gyűlöletbeszédet az online médiában. A MOME alumna tervezőgrafikus készítette interaktív adatvizualizációval az eredmények láthatóvá válnak és időben is értelmezhetők.

A mai információs társadalomban az emberi agy számára feldolgozhatatlan mennyiségű információ áraszt el minket. Az információ mennyisége pedig csak egyre növekszik az infokommunikációs technológiák fejlődésével. Ezen információk nagy részével szöveges formában találkozunk, például Facebookon végigolvassuk ismerőseink posztjait, ellátogatunk az általunk kedvelt híroldalakra, beleolvasunk pár cikkbe, felkeressük a számunkra fontos szakmai oldalakat, majd estig megismételjük az eljárást párszor. Hiába a sok információ, még így is sokszor lemaradunk a lényegről. Hogy kinyerhessük a minket érdeklő információkat, rengeteg módszer kínálkozik a számítógépes szövegfeldolgozás területén. Azonban az így kinyert lényegi információk csak úgy érnek célt, ha azokat az emberek számára is emészthető formába közöljük, ezért az adatok vizualizációja és a felhasználói felületek megfelelő designja igen fontos lépés ebben a folyamatban.

Az előadás során a Precognox szövegfeldolgozási, szövegbányászati projektjeit mutatja be, melyek témái között szerepel az olvasási nehézségekkel küzdők támogatása, a romák elleni gyűlöletbeszéd, a magyar politikai blogszféra diskurzusa és a gyermekek nyelvfejlődése. A cég adatvizualizáció, interface és interakció design területen keres együttműködő partnereket pályázatokhoz, valamint gyakornoki programukban szívesen várnak a területek iránt érdeklődő diákokat.

Ha túl sok a szöveg - topik vizualizáció

Hogyan tudunk nagy mennyiségű szöveges információt könnyen és gyorsan áttekinteni anélkül, hogy elolvasnánk őket? Hogyan tudjuk akár az időben is követni, hogy a szövegek témái hogyan változnak? Projektünkben a látens Dirichlet allokáció (LDA) módszert vetettük be, ami humán kiértékelők szerint is természetes témákba rendezi a szövegek gyűjteményét. A témák kinyerését egy szélsőjobboldali hírportál 10.000 cikkén illusztrálva mutatjuk be, majd a témák időbeli áttekinthetőségét szolgáló adatvizualizáció tervezésének folyamatát ismertetjük Szűcs Krisztina segítségével, hogy hogyan alakítottuk ki a nyers adatból a végső interaktív vizuális ábrázolást.

Egymásba gabalyodva - a magyar politikai blogszféra az érzelmek hálójában

Az egyes szövegek sosem állnak önmagukban, beszélnek egymással hivatkozásokon és utalásokon keresztül. Az interneten ez egész explicit módon linkek formájában jelenik meg ami kirajzolja a hivatkozások hálózatát. Politikai blogokat vizsgáló projektünk keretében több mint 700 oldal posztjait és cikkeit gyűjtöttük össze, megvizsgáltuk a közöttük lévő kapcsolatokat. Mennyire pozitív, vagy éppen negatív egy oldal? A blogokon vagy a híroldalakon megjelenő szövegekben találhatunk a hat alapvető emberi érzelemre utaló szavakból többet? Projektünk során igyekeztünk a hálózati struktúrán is megjeleníteni az érzelmeket.

Sok beszédnek sok az alja - kulcsszókinyerés és kivonatolás

Nem csak az egymásra hivatkozó szövegek alkotnak hálózatokat, egy-egy szöveg maga is felfogható az azt alkotó szavak hálózataként. A hálózati ábrázolás amellett, hogy a szófelhők alternatívája is lehet, alkalmas arra, hogy azonosítsuk a szöveg “központi” szavait. A fontos csomópontok azonosításával rövid kivonatot készíthetünk a szövegből, továbbá sok keresési feladatban hasznosnak bizonyult kulcsszavakat is kinyerhetünk.

A kulcsszavaktól a nyelvfejlődésig meg annak zavarai

Tudunk-e segíteni az olvasási nehézségekkel küzdőknek abban, hogy az online világ egyenrangú részesei lehessenek? A CHILDES gyermeknyelvi korpusz adatait vizsgálva a nemzetközi irodalom és saját vizsgálataink is azt mutatják, hogy a hálózati modellek jól írják le nyelvfejlődést. Érdekes kapcsolódás, hogy az olvasási nehézségekkel élők számára sokat segít a szövegértésben a kulcsszavak kiemelése. Saját kulcsszókinyerő alkalmazásunkat ezen a területen szeretnénk bevetni; egy olyan böngésző plug-in kifejlesztését tervezzük, ami a webes szövegeket sokkal emészthetőbb formátumban, a kulcsszavakat kiemelve jeleníti meg.

Előadók:

Szűcs Krisztina tervezőgrafikus, data visualization designer - krisztinaszucs.com

Balogh Kitti a Precognox statisztikusa

Varjú Zoltán a Precognox számítógépes nyelvésze

A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és bigdata szoftvermegoldások kutatója és fejlesztője.

További részletek: labs.precognox.com/kurucinfo_adatviz

Időpont: 2015. november 18. szerda 16.30-18.00

Helyszín: Moholy-Nagy Művészeti Egyetem 1121 Budapest, Zugligeti út 9‑25. A104 Előadó

Oldalak

2015. november 10., kedd

Szövegvizualizációk a szófelhőkön túl

Nincsenek megjegyzések:

Megjegyzés küldése