Obrada prirodnog jezika

Opis predmeta

Teorijske osnove obrade prirodnog jezika. Podatkovne podloge: rječnici i korpusi, sustavi označavanja. Učenje iz korpusa: usvajanje novih riječi, rješavanje problema višeznačnosti, jezični modeli. Gramatike: skriveni Markovljevi modeli (HMM), gramatike neovisne o kontekstu (CFG) i druge. Primjena gramatičkih modela u označavanju korpusa i parsiranju. Jezično pretprocesiranje u sintezi govora. Jezično postprocesiranje u prepoznavanju govora. Metode i alati za strojno prevođenje. Utjecaj aplikacija obrade prirodnog jezika na društveni razvoj i promjenu jezika.

Ishodi učenja

  1. identificirati računalne složenosti NLP problema
  2. evaluirati slobodnosoftveske NLP alate
  3. manipulirati tekstovnim i govornim korpusima
  4. sudjelovati u projektima sinteze govora
  5. sudjelovati u projektima prepoznavanja govora
  6. sudjelovati u projektima strojnog prevođenja

Oblici nastave

Predavanja

Samostalni zadaci

Tjedni plan nastave

  1. Računalna semantika (formalna semantika. označavanje semantičkih uloga)
  2. Računalna morfologija
  3. Označavanje vrsta riječi
  4. Determinističke i stohastičke gramatike. konstituentne i ovisnosne gramatike (CFG. PCFG)
  5. Algoritmi parsanja (CYK. Chart). leksikalizirano parsanje. ovisnosno parsanje
  6. Distribucijski semantički modeli
  7. Korpusne metode. n-grami. kolokacije
  8. Jezični modeli. zaglađivanje. vrednovanje
  9. Međuispit
  10. Strojno prevođenje
  11. (en) Graph based NLP: semantics; syntax and applications
  12. (en) Natural language processing applications with regional or social dimensions
  13. (en) Applications of social network analysis to understand language variation and change
  14. Projekt
  15. Završni ispit

Studijski programi

Sveučilišni diplomski
Programsko inženjerstvo i informacijski sustavi (profil)
preporučeni izborni predmeti (3. semestar)
Računalno inženjerstvo (profil)
preporučeni izborni predmeti (3. semestar)
Računarska znanost (profil)
preporučeni izborni predmeti (3. semestar)
Telekomunikacije i informatika (profil)
preporučeni izborni predmet (3. semestar)

Literatura

(.), Daniel Jurafsky, James H. Martin (2019.), Speech and Language Processing (3nd edition), Prentice Hall,
(.), Christopher D. Manning, Hinrich Schütze (1999.), Foundations of Statistical Natural Language Processing, MIT Press,
(.), Ruslan Mitkov (ed.) (2005.), The Oxford Handbook of Computational Linguistics, Oxford University Press, USA,
(.), Shrikanth Narayanan, Abeer Alwan (2004.), Text to Speech Synthesis: New Paradigms and Advances, Prentice Hall PTR,

Za studente

Izvedba

ID 222553
  Zimski semestar
5 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
6 Auditorne vježbe
15 Laboratorijske vježbe