Obrada prirodnog jezika

Prikazani su podaci za akademsku godinu: 2024./2025.

Opis predmeta

Teorijske osnove obrade prirodnog jezika. Podatkovne podloge: rječnici i korpusi, sustavi označavanja. Učenje iz korpusa: usvajanje novih riječi, rješavanje problema višeznačnosti, jezični modeli. Gramatike: skriveni Markovljevi modeli (HMM), gramatike neovisne o kontekstu (CFG) i druge. Primjena gramatičkih modela u označavanju korpusa i parsiranju. Jezično pretprocesiranje u sintezi govora. Jezično postprocesiranje u prepoznavanju govora. Metode i alati za strojno prevođenje. Utjecaj aplikacija obrade prirodnog jezika na društveni razvoj i promjenu jezika.

Studijski programi

Sveučilišni diplomski
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmet profila (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti (3. semestar)
[FER2-HR] Programsko inženjerstvo i informacijski sustavi - profil
preporučeni izborni predmeti (3. semestar)
[FER2-HR] Računalno inženjerstvo - profil
preporučeni izborni predmeti (3. semestar)
[FER2-HR] Računarska znanost - profil
preporučeni izborni predmeti (3. semestar)
[FER2-HR] Telekomunikacije i informatika - profil
preporučeni izborni predmet (3. semestar)

Ishodi učenja

  1. identificirati računalne složenosti NLP problema
  2. evaluirati slobodnosoftveske NLP alate
  3. manipulirati tekstovnim i govornim korpusima
  4. sudjelovati u projektima sinteze govora
  5. sudjelovati u projektima prepoznavanja govora
  6. sudjelovati u projektima strojnog prevođenja

Oblici nastave

Predavanja

Predavanja uživo

Laboratorij

Znanstveno - istraživački projektni zadaci

Tjedni plan nastave

  1. Jezični modeli, korpusne metode, n-grami, kolokacije
  2. Računalna morfologija, računalna semantika (formalna semantika. označavanje semantičkih uloga)
  3. Označavanje vrsta riječi, skriveni Markovljevi modeli
  4. Determinističke i stohastičke gramatike, konstituentne i ovisnosne gramatike (CFG, PCFG)
  5. Algoritmi parsanja (CYK. Chart), leksikalizirano parsanje, ovisnosno parsanje
  6. Distribucijski semantički modeli i vektorizacija riječi, razumijevanje i primjena zakodiranog teksta
  7. Log-linearni modeli, procjena parametara log-linearnih modela
  8. Jezični modeli, zaglađivanje, vrednovanje
  9. Međuispit
  10. Neuronski jezični modeli, veliki jezični modeli, modeli otvorenog koda
  11. "Prompt" inženjering
  12. Fino podešavanje velikih jezičnih modela
  13. Agenti, lančani pozivi i memorija za proširenje upotrebe LLM-a. LLM-ovi sa semantičkim pretraživanjem. Generiranje prošireno dohvaćanjem (Retrieval Augmented Generation - RAG).
  14. Ocjenjivanje i otklanjanje pogrešaka generativnih AI modela, kvaliteta i sigurnost LLM aplikacija
  15. Završni ispit

Literatura

(.), Daniel Jurafsky, James H. Martin (2019.), Speech and Language Processing (3nd edition), Prentice Hall,
(.), Christopher D. Manning, Hinrich Schütze (1999.), Foundations of Statistical Natural Language Processing, MIT Press,
(.), Ruslan Mitkov (ed.) (2005.), The Oxford Handbook of Computational Linguistics, Oxford University Press, USA,
(.), Steven Bird, Ewan Klein, Edward Loper (2009.), Natural Language Processing with Python, O'Reilly Media, Inc.,

Za studente

Izvedba

ID 222553
  Zimski semestar
5 ECTS
R0 Engleski jezik
R1 E-učenje
30 Predavanja
0 Seminar
6 Auditorne vježbe
15 Laboratorijske vježbe
0 Konstrukcijske vježbe
0 Vježbe tjelesnog odgoja

Ocjenjivanje

90 izvrstan
80 vrlo dobar
70 dobar
50 dovoljan