|
|
|
|
|
|
Detalji |
Projekt: |
Otkrivanje znanja u tekstnim podacima |
Voditelj: |
Bojana Dalbelo-Bašić |
Ustanova: |
Fakultet elektrotehnike i računarstva, Zagreb |
Sažetak: |
Razvoj www-a doveo je do revolucije dostupnosti informacija u digitalnom obliku. Međutim, dok količina informacija raste ljudska sposobnost da ih razumije i obradi ostaje ista. Metode otkrivanja znanja u skupovima tekstnih podataka imaju cilj u što većoj mjeri osloboditi ljude ponovne obrade velikih količina već pohranjenih i prethodno strojno obrađenih informacija i omogućiti im da se usredotoče na donošenje odluka na temelju rezultata automatskih postupaka otkrivanja znanja. Otkrivanje znanja u tekstnim podacima obuhvaća umjetnu inteligenciju (strojno učenje, računalnu obradbu prirodnog jezika) i računalnu lingvistiku te se pri tome oslanja na temeljne matematičko-statističke metode.
Rezultati istraživanja ovog projekta prvenstveno će se odnositi na jezično nezavisne metode i modele, ali će također uključivati sustave nastale integracijom rezultata ovog projekta s rezultatima istraživanja na jezičnospecifičnoj razini koja će se voditi unutar drugih projekata programa.
U okviru ovog projekta razvit će se modeli sustava koji obuhvaćaju (a) tehnike pretprocesiranja teksta na hrvatskom jeziku za postupke strojnog učenja; (b) unapređenje postupaka za snižavanje dimenzionalnosti i grupiranje podataka u modelu vektorskog prostora; (c) automatsko sadržajno označavanje i sažimanje dokumenata; (d) inteligentno, jezično specifično pretraživanje i crpljenje informacija. Pretpostavka ovog projekta jest da se s problemom prekomjernosti tekstnih podataka te problemom pronalaženja potencijalno korisnih, ali skrivenih informacija u tekstnim podacima možemo nositi na način da identificiramo pojedinačne probleme, oblikujemo ih u gore navedene zadatke (a) - (c) te s interdisciplinarnog aspekta (računalnolingvističkog, matematičko-statističkog, računarskog i kognitivnog) oblikujemo modele koji predstavljaju rješenja tih problema. Posebna će se pozornost posvetiti novom pristupu u oblikovanju modela inteligentnih sustava temeljenom na kognitivnoj znanosti. Ovim se projektom želi odgovoriti na pitanje kojim pristupom i kojim modelima možemo postići novu razinu inteligentnih sustava za otkrivanje znanja u tekstnim podacima, osobito kada je riječ o tekstovima na hrvatskom jeziku. Izgrađeni modeli i nove metode otkrivanja znanja u skupovima podataka potvrdit će se eksperimentalnom provjerom, i to posebno na zbirkama dokumenata na hrvatskom jeziku. |
|
|
|
|
|
|