|
|
|
|
|
|
Detalji programa |
Program: |
Računalnolingvistički modeli i jezične tehnologije za hrvatski jezik |
Voditelj: |
Marko Tadić |
Ustanova: |
Filozofski fakultet, Zagreb |
Sažetak: |
Temeljna je nakana ovog interdisciplinarnoga programa koji objedinjuje tri znanstvena područja/grane (lingvistiku, informacijske znanosti i računarstvo) proučiti i izgraditi teorijske modele funkcioniranja pojedinih podsustava hrvatskoga jezika. Na temeljima tih teorijskih spoznaja izgradit će računalne primjene tih teorijskih modela u obliku računalno podržanih resursa i alata. Ti će resursi i alati biti i javno dostupni kako akademskoj tako i široj društvenoj zajednici putem internetskoga pristupa.
Ti će resursi i alati ujedno postati i temelj za daljni razvitak jezičnih tehnologija za hrvatski jezik (JTHJ). Sljedeća nakana ovoga programa upravo je podizanje ukupne razine JTHJ kako bi se uhvatio priključak s jezicima našeg europskog okružja.
Ciljevi su ispitati, izgraditi i izvesti:
1) proširenje sadašnjega Hrvatskoga nacionalnog korpusa na opseg od 200 milijuna riječi, primjereno ga označiti na morfološkoj, sintaktičkoj i semantičkoj razini;
2) niz usporednih/usporedivih korpusa “hrvatski—jezik X” za proučavanje odnosa hrvatskoga i drugih jezika;
3) sustave za automatsko označavanje vrsta riječi, gramatičkih kategorija i lematizaciju
4) sustav za automatsku analizu hrvatske sintakse (parser);
5) semantičku bazu (Hrvatski WordNet);
6) osnovne resurse za strojno potpomognuto prevođenje (prijevodnu memoriju);
7) ispitati mogućnosti izvedbe statističkoga strojnoga prevođnja i modula za EC-Systran za smjerove hr-en i en-hr;
8) ispitati mogućnosti sustava za e-učenje hrvatskoga
9) sustave za (polu)automatsko sadržajno označavanje dokumenata
10) sustave za klasifikaciju, vizualizaciju i sažimanje dokumenata
11) sustave inteligentno pretraživanje i crpljenje podataka iz tekstovnih dokumenata
Svi će se teorijski modeli provjeravati putem njihovih računalnih implementacija i na stvarnoj jezičnoj građi, što će povratno voditi višekratnoj daljnoj razradi tih modela.
Ovaj će program, osim što će ponuditi nove teorijske modele i rješenja za neka do sada još niti ne postavljena ili neuočena pitanja o funkcioniranju hrvatskoga jezika, dati nužne preduvjete za razvitak JTHJ. One su na uskoznanstvenoj razini nezaobilazne za konstituiranje e-humanističkih i e-društvenih znanosti tj. predstavljaju istraživačku infrastrukturu za te znanosti jer se njihovi predmeti istraživanja u mnogome izravno ili neizravno ostvaruju upravo tekstom ili kroz tekst.
U širem društvenom kontekstu JTHJ su nezaobilazne za stvaranje informacijskoga društva tj. društva znanja u RH. |
|
|
|
|
|
Prihvaćeni projekti u programu
|
|
|
|
Redni broj |
Voditelj |
Naziv projekta |
|
|
|
|
|
|