Obrada prirodnog jezika
Opis predmeta
Teorijske osnove obrade prirodnog jezika. Podatkovne podloge: rječnici i korpusi, sustavi označavanja. Učenje iz korpusa: usvajanje novih riječi, rješavanje problema višeznačnosti, jezični modeli. Gramatike: skriveni Markovljevi modeli (HMM), gramatike neovisne o kontekstu (CFG) i druge. Primjena gramatičkih modela u označavanju korpusa i parsiranju. Jezično pretprocesiranje u sintezi govora. Jezično postprocesiranje u prepoznavanju govora. Metode i alati za strojno prevođenje.
Opće kompetencije
Ovaj predmet upoznaje studente s osnovnim metodama i modelima obrade prirodnog jezika u tehničkim sustavima, s naglaskom na metodama i algoritmima namijenjenim obradi jezičnih korpusa. Studenti će biti osposobljeni za razumijevanje i razvoj odgovarajućih metoda i alata za primjenjuju u sustavima za sintezu govora, prepoznavanje govora, strojno prevođenje i sličnim.
Ishodi učenja
- Sposobnost identificiranja računalne složenosti NLP problema
- Sposobnos evaluacije slobodnosoftveskih NLP alata
- Sposobnost manipuliranja tekstovnim i govornim korpusima
- Sposonost sudjelovanja u projektima sinteze govora
- Sposonost sudjelovanja u projektima prepoznavanja govora
- Sposobnost sudjelovanja u projektima strojnog prevođenja
Oblici nastave
Predavanja
2 sata tjedno tijekom zimskog semestra
Provjere znanjakontinuirano tijekom semestra; pisani međuispit; pisani završni ispit; usmeni ispit.
Konzultacijena traženje polaznika
Seminariseminarski zadaci
OstaloProjektni zadaci
Način ocjenjivanja
Kontinuirana nastava | Ispitni rok | |||||
---|---|---|---|---|---|---|
Vrsta provjere | Prag | Udio u ocjeni | Prag | Udio u ocjeni | ||
Sudjelovanje u nastavi | 0 % | 10 % | 0 % | 10 % | ||
Seminar/Projekt | 0 % | 60 % | 0 % | 60 % | ||
Međuispit: Pismeni | 0 % | 15 % | 0 % | |||
Završni ispit: Pismeni | 0 % | 15 % | ||||
Ispit: Pismeni | 0 % | 30 % |
Tjedni plan nastave
- Obrada prirodnog jezika (NLP) kao inženjerska disciplina; njezine lingvističke osnove i matematičko utemeljenje.
- Organizacija rječnika, vrste rječnika. Označeni i neoznačeni korpusi, pitanje višestruke uporabljivosti, prikaz sustava obilježavanja i skupova oznaka.
- Učenje riječi iz korpusa, nadzirano i nenadzirano poučavanje, načini vrednovanja.
- Statistički estimatori i jezični modeli. Razrješavanje višeznačnosti vjerojatnosnim (Bayesovi) pristupom, odnosno uz pomoć rječnika, te nenadzirano rješavanje višeznačnosti.
- Vjerojatnosni modeli izgovora i pravopisa. Ispravljanje pravopisnih grešaka: kriterij najmanje udaljenosti, Bayesova metoda u ispravljanju pogrešaka.
- Skriveni Markovljevi modeli (HMM): tri temeljna pitanja, svojstva i varijacije modela. Implementacija HMM-a, polazne vrijednosti parametara.
- Označavanje vrsta riječi u korpusu (POS tagging): informacijski izvori. Primjena HMM-a u POS tagging-u, točnost označavanja.
- Uvod u sintaksu: gramatike neovisne o kontekstu (CFG). Osobine vjerojatnosnih CFG-a, problem njihove inicijalizacije.
- Drugi sintaksni modeli (gramatike fraznih struktura, gramatike zavisnosti) i njihov odnos prema CF-gramatikama.
- Parsiranje uz pomoć CF-gramatika. Leksikalizirano i vjerojatnosno (kategorijsko) parsiranje. Modeli parsiranje u odnosu na jezične modele.
- NLP u sintezi i prepoznavanju govora: pregled metoda i alata.
- Jezično pretprocesiranje u sintezi govora: morfološka i sintaksna analiza, generiranje prozodije.
- Jezično i akustičko modeliranje za potrebe prepoznavanja govora: n-gramski modeli, vjerojatnosno procjenjivanje i vrednovanje.
- Paralelni korpusi kao podloga za strojno prevođenje. Problem sravnjivanja teksta, metode i alati.
- Tehničko vrednovanje strojnog prevođenja i alata za prevođenje. Pregled postojećih sustava i njihova korištenja.
Studijski programi
Sveučilišni diplomski
Telekomunikacije i informatika (profil)
preporučeni izborni predmet
(3. semestar)
Literatura
Vladimir Cherkassky, Yunqian Ma (2011.), Introduction to Predictive Learning, Springer
Nositelji
Izvedba
ID 34477
Zimski semestar
4 ECTS
R2 Engleski jezik
R1 E-učenje
30 Predavanja
0 Auditorne vježbe
0 Laboratorijske vježbe
Ocjenjivanje
80 izvrstan
70 vrlo dobar
60 dobar
50 dovoljan