Obrada prirodnog jezika

Opis predmeta

Teorijske osnove obrade prirodnog jezika. Podatkovne podloge: rječnici i korpusi, sustavi označavanja. Učenje iz korpusa: usvajanje novih riječi, rješavanje problema višeznačnosti, jezični modeli. Gramatike: skriveni Markovljevi modeli (HMM), gramatike neovisne o kontekstu (CFG) i druge. Primjena gramatičkih modela u označavanju korpusa i parsiranju. Jezično pretprocesiranje u sintezi govora. Jezično postprocesiranje u prepoznavanju govora. Metode i alati za strojno prevođenje.

Opće kompetencije

Ovaj predmet upoznaje studente s osnovnim metodama i modelima obrade prirodnog jezika u tehničkim sustavima, s naglaskom na metodama i algoritmima namijenjenim obradi jezičnih korpusa. Studenti će biti osposobljeni za razumijevanje i razvoj odgovarajućih metoda i alata za primjenjuju u sustavima za sintezu govora, prepoznavanje govora, strojno prevođenje i sličnim.

Ishodi učenja

  1. Sposobnost identificiranja računalne složenosti NLP problema
  2. Sposobnos evaluacije slobodnosoftveskih NLP alata
  3. Sposobnost manipuliranja tekstovnim i govornim korpusima
  4. Sposonost sudjelovanja u projektima sinteze govora
  5. Sposonost sudjelovanja u projektima prepoznavanja govora
  6. Sposobnost sudjelovanja u projektima strojnog prevođenja

Oblici nastave

Predavanja

2 sata tjedno tijekom zimskog semestra

Provjere znanja

kontinuirano tijekom semestra; pisani međuispit; pisani završni ispit; usmeni ispit.

Konzultacije

na traženje polaznika

Seminari

seminarski zadaci

Ostalo

Projektni zadaci

Način ocjenjivanja

Kontinuirana nastava Ispitni rok
Vrsta provjere Prag Udio u ocjeni Prag Udio u ocjeni
Sudjelovanje u nastavi 0 % 10 % 0 % 10 %
Seminar/Projekt 0 % 60 % 0 % 60 %
Međuispit: Pismeni 0 % 15 % 0 %
Završni ispit: Pismeni 0 % 15 %
Ispit: Pismeni 0 % 30 %

Tjedni plan nastave

  1. Obrada prirodnog jezika (NLP) kao inženjerska disciplina; njezine lingvističke osnove i matematičko utemeljenje.
  2. Organizacija rječnika, vrste rječnika. Označeni i neoznačeni korpusi, pitanje višestruke uporabljivosti, prikaz sustava obilježavanja i skupova oznaka.
  3. Učenje riječi iz korpusa, nadzirano i nenadzirano poučavanje, načini vrednovanja.
  4. Statistički estimatori i jezični modeli. Razrješavanje višeznačnosti vjerojatnosnim (Bayesovi) pristupom, odnosno uz pomoć rječnika, te nenadzirano rješavanje višeznačnosti.
  5. Vjerojatnosni modeli izgovora i pravopisa. Ispravljanje pravopisnih grešaka: kriterij najmanje udaljenosti, Bayesova metoda u ispravljanju pogrešaka.
  6. Skriveni Markovljevi modeli (HMM): tri temeljna pitanja, svojstva i varijacije modela. Implementacija HMM-a, polazne vrijednosti parametara.
  7. Označavanje vrsta riječi u korpusu (POS tagging): informacijski izvori. Primjena HMM-a u POS tagging-u, točnost označavanja.
  8. Uvod u sintaksu: gramatike neovisne o kontekstu (CFG). Osobine vjerojatnosnih CFG-a, problem njihove inicijalizacije.
  9. Drugi sintaksni modeli (gramatike fraznih struktura, gramatike zavisnosti) i njihov odnos prema CF-gramatikama.
  10. Parsiranje uz pomoć CF-gramatika. Leksikalizirano i vjerojatnosno (kategorijsko) parsiranje. Modeli parsiranje u odnosu na jezične modele.
  11. NLP u sintezi i prepoznavanju govora: pregled metoda i alata.
  12. Jezično pretprocesiranje u sintezi govora: morfološka i sintaksna analiza, generiranje prozodije.
  13. Jezično i akustičko modeliranje za potrebe prepoznavanja govora: n-gramski modeli, vjerojatnosno procjenjivanje i vrednovanje.
  14. Paralelni korpusi kao podloga za strojno prevođenje. Problem sravnjivanja teksta, metode i alati.
  15. Tehničko vrednovanje strojnog prevođenja i alata za prevođenje. Pregled postojećih sustava i njihova korištenja.

Studijski programi

Sveučilišni diplomski
Telekomunikacije i informatika (profil)
preporučeni izborni predmet (3. semestar)

Literatura

Christopher D. Manning, Hinrich Schütze (1999.), Foundations of Statistical Natural Language Processing, MIT Press
Shrikanth Narayanan, Abeer Alwan (2004.), Text to Speech Synthesis: New Paradigms and Advances, Prentice Hall PTR
Ruslan Mitkov (ed.) (2005.), The Oxford Handbook of Computational Linguistics, Oxford University Press, USA
Daniel Jurafsky, James H. Martin (2008.), Speech and Language Processing (2nd edition), Prentice Hall
Vladimir Cherkassky, Yunqian Ma (2011.), Introduction to Predictive Learning, Springer

Izvedba

ID 34477
  Zimski semestar
4 ECTS
R2 Engleski jezik
R1 E-učenje
30 Predavanja
0 Auditorne vježbe
0 Laboratorijske vježbe
0 Konstrukcijske vježbe

Ocjenjivanje

80 izvrstan
70 vrlo dobar
60 dobar
50 dovoljan