|
|
|
|
|
|
Detalji |
Projekt: |
Semantičke mreže i računalna leksikologija |
Voditelj: |
Damir Ćavar |
Ustanova: |
Institut za hrvatski jezik i jezikoslovlje, Zagreb |
Sažetak: |
Ovaj se projekt bavi empirijskim lingvističkim i leksikološkim izučavanjem hrvatskoga jezika, utemeljenim na velikome korpusu i računalnim i statističkim istraživačkim metodama. On se oslanja na rezultate projekta "Hrvatska jezična mrežna riznica" i proširuje rad u tijeku dubljim razinama označavanja postojećega korpusa na razini morfološke i sintaktičke strukture, fonemske transkripcije i leksičkih semantičkih svojstava, koja se zaključuju temeljem kvantitativnih i vjerojatnosnih analiza.
Raniji eksperimentalni rezultati u stvaranju semantičkih mreža tehnikama text mininga, kao i eksperimenti u stvaranju gramatike na morfološkoj i sintaktičkoj razini s projekta ABUGI (Sveučilište u Indiani) će se uključiti i proširiti.
Konkretne su zadaće:
a) proširiti ključne jezične resurse označenim jednojezičnim tekstovnim i govornim korpusima kao i višejezičnim usporednim i usporedivim tekstnim resursima.
Nadalje,
b) razviti osnovne sastavnice za jezičnu analizu i iskoristiti postojeće računalne resurse s pomoću kojih je moguće provesti kavalitativnu i kvantitativnu analizu hrvatskoga na fonotaktičkoj, morfološkoj i sintaktičkoj razini.
I,
c) osmisliti i provesti analize leksičke semantike koje se temelje na primjerima modela semantičkih polja, izvučenima iz kvantitativnih aspekata inherentnih leksičkih i kontekstnih osobina s pomoću računalnih modela utemeljenih u modeliranju vektorskoga prostora, tehnika klasteriranja, latentne semantičke analize, kao i eksperimentalnih istraživanja alternativnih matematičkih modela jezika te modela teorije vjerojatnosti. Te će studije biti popraćene lingvističkim istraživanjem na polju leksičke semantike s ciljem da se stvore računalni resursi za hrvatski, kao i gramatički resursi poput valencijskih rječnika i tezaurusa.
Usputni su rezultati ovoga projekta dvovrsni: tehnološki i teorijski. Tehnološki aspekt uključuje razvoj komponenata za procesiranje hrvatskoga, kao i korisnička sučelja za analizu i vizualizaciju leksičkih polja u semantičkim mrežama.
Teorijski aspekt uključuju empirijske i kvantitativne modele hrvatskoga, uključujući fonotaktičke, morfološke, sintaktičke i semantičke osobine, koje su ključne za razvoj jezičnih tehnologija s područja strojnoga prevođenja, text- i data-mininga, kao i općelingvističkoga istraživanja hrvatskoga. |
|
|
|
|
|
|