A
hatékony szövegbányászathoz elengedhetetlen bizonyos szemantikus
kapcsolatokat ismerni az egyes szavak közt.
(Forrás: Agent
Portál/Index)
Az erre a célra
kifejlesztett számítógépes-nyelvészeti eszközök nem képesek lépést
tartani az interneten használt nyelv rendkívül gyors fejlődésével. Azok a
szótárak, lexikonok, melyeket a felhasználók készítenek közvetlenül,
sokkal alkalmasabbak erre a feladatra.
Ha újsághírek, blogok vagy fórumok tömegéből akarunk a
tartalmukat illetően következtetésekre jutni, vagy valamilyen
információra vadászunk a neten, fontos hogy az az értelmező szótár, vagy
szinonimaszótár, amit az általunk használt szoftver alkalmaz, lépést
tartson az internetes nyelv változásával. Szinte naponta jelennek meg új
mozaikszavak, rövidítések, szlengkifejezések, amelyek pillanatok alatt
az internetes köznyelv részévé válhatnak. Ezekkel a szavakkal a
hagyományos szövegelemző programok nem tudnak mit kezdeni, hisz nem
ismerik őket. Minél több ilyen szót tartalmaz egy adott szöveg, gépi
úton annál kevésbé tudjuk megítéltetni bizonyos szempontok szerint a
tartalmát, annál kevésbé tudunk automatizált módon következtetni
jelentésére.
Az ilyen programok
általában a WordNet nevű szemantikus lexikont használták, melyben az
egyes szavak, kifejezések nem csak definiálva vannak, hanem előre
meghatározott kapcsolat-típusokkal is össze vannak kötve egymással. Az
egyik legismertebb kapcsolat-típus a szinonima, de az ellentétes
jelentésű szavak is az annak megfelelő kapcsolattal vannak ellátva.
Fogalmaknál, pl. a kutya esetében, az adatbázis tartalmazza, hogy ez a
fogalom részhalmaza az emlősök fogalmának, ami a gerincesek fogalmának
része, és így tovább.
A WordNet vagy
a hozzá hasonló fogalmi hálózatok elengedhetetlen kellékei a nyelvi
alkalmazásoknak, hisz mind a beszélgető robotoknak, mind a szövegbányász
szoftvereknek, mind a cikkeket kivonatoló programoknak egy bizonyos
mértékig „tudniuk” kell, hogy az egyes szavak jelentése miképp viszonyul
egymáshoz. Az írországi Universit Collage Dublin Kreatív Nyelvi
Rendszerek Laboratóriumának kutatói azt a célt tűzték ki maguknak, hogy a
WordNetet valamilyen automatizált módon bővítsék, a nehézkes manuális
szócikk-hozzáadás mellett.
Egy olyan
lexikont kerestek, mely precíz, megbízható definíciókat ad, az egyes
kifejezések szemantikusan is össze vannak kapcsolva egymással és nem
utolsó sorban korszerű: az élő nyelv elemeit tartalmazza. Tony Veale és
kollégái a Wikipédiát találták a legalkalmasabbnak erre a feladatra,
hisz pontos meghatározásai, állandó bővülése mellett az egyes szócikkek
keresztbe is vannak linkelve egymással, ami jó kiindulópontot jelent a
szemantikai kapcsolatok feltérképezésére. ZeitGeist, azaz Korszellem
névre keresztelt programjuk csak akkor fogad el tartalmi kapcsolatot két
kifejezés között, ha azok kölcsönösen be vannak linkelve egymás
oldalain. Veale szerint a „linkelési hasmenés” sajnos igen jellemző a
Wikipediára is, így inkább lemondanak meglévő, de ezáltal a szabály
által kiszűrt szemantikai kapcsolatokról, minthogy nem létező, vagy csak
áttételesen értelmezhető kapcsolatokat képezzenek le
adatbázisukba.
A kutatók
programjukkal az újonnan keletkező szavak háromnegyedét képesek
elhelyezni a már meglévő szavak fogalmi rendszerében. Az ismeretlen
szavak előfordulási környezetének további elemzése még ennél is nagyobb
arányt tenne lehetővé, de ennek megvalósítása még egyelőre várat magára.