|
|
|
|
|
|
Detalji |
Projekt: |
Hrvatski jezični resursi i njihovo obilježavanje |
Voditelj: |
Marko Tadić |
Ustanova: |
Filozofski fakultet, Zagreb |
Sažetak: |
Danas je bilo kakva empirijska, a time posredno opće- i specifičnolingvistička, istraživanja teško provesti bez pomoći računalnoga korpusa. Interpersonalna provjerljivost i egzaktna mjerljivost korpusnih podataka omogućuje lingvistici pristup jezičnome opisu koji se svojom strogošću može mjeriti s prirodnim znanostima. Ovaj projekt želi postići takvu korpusnolingvističku razinu u nekoliko ciljeva:
1) proširiti postojeći Hrvatski nacionalni korpus (HNK) sa 101 na 200 milijuna pojavnica i pri tom posvetiti pozornost na uravnoteženo uzorkovanje tekstnih uzoraka prema različitim vrstama, medijima, žanrovima, područjima s kojih ti uzorci dolaze
2) obogatiti HNK lingvističkim oznakama na morfološkoj (vrste riječi, gramatičke kategorije, leme), sintaktičkoj (sintaktički odsječci, rečenične strukture) i semantičkoj (oznake leksičkoga značenja iz Hrvatskoga WordNeta)
3) obaviti temeljna statistička istraživanja evidencije, frekvencije i distribucije jezičnih jedinica i njihovih kombinacija na više jezičnih razina
4) sastaviti stanovit broj manjih korpusa hrvatskoga jezika za pojedina specijalistička područja
5) za potrebe višejezičnih lingvističkih proučavanja odnosa identiteta hrvatskoga jezika u europskome okružju i razvitka višejezičnih jezičnih tehnologija (JT), sastaviti niz usporednih korpusa “hrvatski — jezik X” opsega barem milijun pojavnica
6) sastaviti i usporedive korpuse ukoliko ne bude dovoljno paralelnih e-tekstova za sastavljanje usporednih korpusa.
Svako sastavljanje i istraživanje korpusa donosi nove, često neočekivane rezultate i metode. Takvi uvidi u usustavljenu jezičnu građu često nadopunjuju intuitivno i introspektivno sagledavanje jezičnih pojava. U ovom se projektu očekuje čitav niz takvih novih teorijskih uvida, istraživačkih i metodoloških postupaka koji još nikad nisu bili provjereni u obradbi tako opsežne hrvatske jezične građe.
Svrha je projekta osigurati hrvatskome reprezentativan korpus u skladu s najsuvremenijim dostignućima i spoznajama iz korpusne i računalne lingvistike. Taj bi korpus služio kao usustavljena jezična građa za sve vrste teorijskih i praktičnih kroatističkih, opće- i računalnolingvističkih istraživanja. Takav je korpus ujedno nezaobilazan i temeljni jezični resurs za izgradnju jezičnih tehnologija za hrvatski jezik (JTHJ). Razvitak JTHJ — što je i jedna od svrha nadređenoga programa — posredno će osigurati hrvatskome jeziku ravnopravno sudjelovanje u izgradnji informacijskoga društva tj. društva znanja u EU. |
|
|
|
|
|
|