Digitalna obrada govora

Opis predmeta

Predmet opisuje osnovne principe digitalne obrade govora i njene primjene u telekomunikacijma i multimediji. Postupci modeliranja govornog signala, parametarski modeli. Analiza govora, estimacija parametara modela vokalnog trakta i modela pobude. Pregled najznačajnijih modela i njihovih specifičnosti. Kodiranje govora i primjene. Automatsko prepoznavanje govora, govornika i jezika. Vektori značajki, kepstralna analiza. Statistički modeli za prepoznavanje, skriveni Markovljevi modeli, modeli s Gaussovim mješavinama; postupci treniranja parametara modela. Akustički i leksički modeli. Sinteza govora, difonska, trifonska. Normalizacija i modifikacija govora. Primjeri komercijalnih sustava za kodiranje, prepoznavanje i sintezu.

Opće kompetencije

Temeljna znanja u području digitalne obrade govora, modeliranja i analize govora, te automatskog prepoznavanja i sinteze. Iskustvo u primjenama digitalne obradbe govora u sustavima za komunikacije i multimediju.

Ishodi učenja

  1. prepoznati značaj digitalne obradbe govora i njene primjene
  2. opisati način nastajanja govornog signala i pripadne fizikanle modele
  3. nabrojati načine modeliranja govornog signala u vremenski kontinuiranoj i diskretnoj domeni
  4. primijeniti postupke linearne predikcije u svrhu modeliranja govora
  5. upotrijebiti homomorfnu obradu govora u svrhu estimacije pobude i modela vokalnog trakta
  6. razviti jednostavne algoritme obradbe govora korištenjem Matlaba
  7. analizirati utjecaj kvantizacije koeficijenata modela na njegovu točnost i stabilnost
  8. primijeniti postupke prepoznavanja samoglasnika i glasa govornika

Oblici nastave

Predavanja

Nastava na predmetu organizirana je kroz dva nastavna ciklusa. Prvi ciklus se sastoji od 7 tjedana nastave i međuispita, dok drugi ciklus sadržava šest tjedna nastave i završni ispit. Nastava se provodi kroz ukupno 15 tjedana s tjednim opterećenjem od 2 sata.

Provjere znanja

Za polaganje predmeta putem kontinuiranog praćenja, organizirani su međuispit i završni ispit. Završni ispit ima pisani i usmeni dio. Predmet je moguće položiti i putem ispita, koji se sastoji od pisanog i usmenog dijela.

Laboratorijske vježbe

Tokom semestra organizirane su dvije zajedničke laboratorisjke vježbe u skladu s tjednim planom nastave. Ove vježbe služe kao pomoć studentima u samostalnom provođenju preostalih programskih vježbi na predmetu.

Konzultacije

Konzultacije su organizirane u tjednima nastave nakon predavanja.

Programske vježbe

Nastavno opterećenje na predmetu vezano uz samostali rad studenata iznosi 90 sati, koje studenti provode kroz programske vježbe i pripreme za provjere znanja. Domaću zadaću za svaki nastavni ciklus čini izvještaj samostalnog rada studenata na programskim vježbama. Ovaj izvještaj obuhvaća i izvještaj sa zajedničkih laboratorijskih vježbi. U okviru samostalnog rada student treba proučiti poglavlja iz udžbenika i skripte koja su navedena u tjednom planu nastave, te izvršiti i dokumentirati zadatke za samostalni rad koji su vezani uz pojedina poglavlja.

Način ocjenjivanja

Kontinuirana nastava Ispitni rok
Vrsta provjere Prag Udio u ocjeni Prag Udio u ocjeni
Laboratorijske vježbe 0 % 10 % 0 % 10 %
Domaće zadaće 0 % 20 % 0 % 20 %
Međuispit: Pismeni 0 % 30 % 0 %
Završni ispit: Pismeni 0 % 30 %
Završni ispit: Usmeni 10 %
Ispit: Pismeni 50 % 60 %
Ispit: Usmeni 10 %
Napomena / komentar

Provjere znanja vezane uz zajedničke laboratorijske vježbe i domaće zadaće boduju se zajednički na osnovu predanih izvještaja u prvom i drugom ciklusu. Uvjet za ostvarenje prava pristupa usmenom dijelu završnog ispita jest da je student na međuispitu i na pisanom dijelu završnog ispita ostvario barem 50% mogućih bodova.

Tjedni plan nastave

  1. Predavanja (P): Uvod u digitalnu obradu govora i njene primjene, Postupci za automatsko prepoznavanje govora, govornika i jezika, Osnove digitalne sinteze govornog signala, sustavi za Text-to-Speech, Sustavi za dijalog čovjeka i računala, primjene u virtualnoj stvarnosti; Samostalni rad (S): Pog: Pregled primjena postupaka digitalne obradbe govora, Pog: Osnove procesa nastajanja govora, Pog: Nauke o govoru i jeziku.
  2. Predavanja (P): Proces nastajanja govora; Osnove fizikalnog modela; Samostalni rad (S): Pog. 1: Snimanje govornih signala korištenjem zvučnih kartica.
  3. Predavanja (P): Akustički model vokalnog trakta, Modeliranje pobudnog signala vokalnog trakta; Samostalni rad (S): Pog. 2: Analiza svojstava govornih signala u vremenskoj domeni.
  4. Zajednička laboratorijska vježba: Pog. 4: Analiza formantne strukture govora; Samostalni rad (S): Pog. 3: Spektralna analiza govora i spektrogrami.
  5. Predavanja (P): Model vokalnog trakta sa spojenim cijevima, Vremenski diskretan model vokalnog trakta; Samostalni rad (S): Pog. 5: Automatska klasifikacija samoglasnika na osnovu formantne strukture.
  6. Predavanja (P): Linearna predikcija i primjena za modeliranje govornog signala; Samostalni rad (S): Pog. 6: Automatska klasifikacija govornika na osnovu formantne strukture.
  7. Predavanja (P): Autokorelacijski postupak određivanja LPC modela; Samostalni rad (S): Pog. 7: Postupci linearne predikcije.
  8. Međuispit
  9. Zajednička laboratorijska vježba: Pog. 8: Primjena autokorelacijskog postupka izračunavanja prediktora za modeliranje govornog signala; Samostalni rad (S): Pog. 9: Levinson-Durbinov algoritam i analiza dobitka predikcijskog kodiranja.
  10. Predavanja (P): Metoda kovarijance za određivanje LPC modela, Parametarski skupovi za opis vremenski krakotrajnog modela spektra govornog signala; Samostalni rad (S): Pog. 10: Kovarijantni postupak linearne predikcije.
  11. Predavanja (P): Homomorfna obrada govornog signala; Samostalni rad (S): Pog. 11: Utjecaj kvantizacije koeficjenata LPC filtra.
  12. Predavanja (P): Primjena kepstralne analize na govorni signal; Samostalni rad (S): Pog. 12: Homomorfna analiza govornog signala.
  13. Predavanja (P): Uvod u automatsko prepoznavanje govora, Postupci analize govora za automatsko prepoznavanje; Samostalni rad (S): Pog. 13: Određivanje zvučnosti i osnovne frekvencije titranja glasnica.
  14. Predavanja (P): Vektori značajki, statistički modeli i postupci klasifikacije za automatsko prepoznavanje govora; Samostalni rad (S): Pog. 14: Primjer kompletnog kodera govornog signala.
  15. Završni ispit

Studijski programi

Sveučilišni diplomski
Elektroničko i računalno inženjerstvo (profil)
preporučeni izborni predmeti (3. semestar)
Obradba informacija (profil)
Predmeti specijalizacije profila (1. semestar) (3. semestar)

Literatura

Rabiner, L., Juang, B-H (1993.), Fundamentals of speech recognition, Prentice Hall, Englewood Cliffs, New Jersey
Kleijn, W.B., Paliwal, K.K. (1995.), Speech coding and synthesis, Elsevier
Kondoz A.M. (1994.), Digital speech, Coding for low bit rate communication systems, John Wiley & Sons
Petrinović, D. (2002.), Digitalna obrada govora, Zavodska skripta, FER, ZESOI
Petrinović, D. (2010.), Uvod u digitalnu obradbu govora koristenjem Matlaba, FER, Udžbenici sveučilišta u Zagrebu
(.), Laboratorijske vježbe iz digitalne obrade govora, Zavodska skripta Petrinović, D. FER, ZESOI 2003 ,

Laboratorijske vježbe