Digitalna obrada govora

Prikazani su podaci za akademsku godinu: 2023./2024.

Opis predmeta

Predmet opisuje osnovne principe digitalne obrade govora i njene primjene u telekomunikacijma i multimediji. Postupci modeliranja govornog signala, parametarski modeli. Analiza govora, estimacija parametara modela vokalnog trakta i modela pobude. Pregled najznačajnijih modela i njihovih specifičnosti. Kodiranje govora i primjene. Automatsko prepoznavanje govora, govornika i jezika. Vektori značajki, kepstralna analiza. Statistički modeli za prepoznavanje, skriveni Markovljevi modeli, modeli s Gaussovim mješavinama; postupci treniranja parametara modela. Akustički i leksički modeli. Sinteza govora, difonska, trifonska. Normalizacija i modifikacija govora. Primjeri komercijalnih sustava za kodiranje, prepoznavanje i sintezu.

Studijski programi

Sveučilišni diplomski
[FER3-EN] Control Systems and Robotics - profil
Elective course (3. semestar)
Elective courses (1. semestar)
[FER3-EN] Electrical Power Engineering - profil
Elective courses (3. semestar)

Ishodi učenja

  1. prepoznati značaj digitalne obradbe govora i njene primjene
  2. opisati način nastajanja govornog signala i pripadne fizikanle modele
  3. usporediti načine modeliranja govornog signala u vremenski kontinuiranoj i diskretnoj domeni
  4. primijeniti postupke linearne predikcije u svrhu modeliranja govora
  5. upotrijebiti homomorfnu obradu govora u svrhu estimacije pobude i modela vokalnog trakta
  6. razviti jednostavne algoritme obradbe govora korištenjem Matlaba
  7. analizirati utjecaj kvantizacije koeficijenata modela na njegovu točnost i stabilnost
  8. primijeniti postupke prepoznavanja samoglasnika i glasa govornika

Oblici nastave

Predavanja

Nastava na predmetu organizirana je kroz dva nastavna ciklusa. Prvi ciklus se sastoji od 7 tjedana nastave i međuispita, dok drugi ciklus sadržava šest tjedna nastave i završni ispit. Nastava se provodi kroz ukupno 15 tjedana s tjednim opterećenjem od 2 sata.

Samostalni zadaci

Nastavno opterećenje na predmetu vezano uz samostali rad studenata iznosi 90 sati, koje studenti provode kroz programske vježbe i pripreme za provjere znanja. Domaću zadaću za svaki nastavni ciklus čini izvještaj samostalnog rada studenata na programskim vježbama. Ovaj izvještaj obuhvaća i izvještaj s laboratorijskih vježbi. U okviru samostalnog rada student treba proučiti poglavlja iz udžbenika i skripte koja su navedena u tjednom planu nastave, te izvršiti i dokumentirati zadatke za samostalni rad koji su vezani uz pojedina poglavlja.

Laboratorij

Tokom semestra organizirane su laboratorisjke vježbe u skladu s tjednim planom nastave. Ove vježbe služe kao pomoć studentima u samostalnom provođenju preostalih programskih vježbi na predmetu.

Način ocjenjivanja

Kontinuirana nastava Ispitni rok
Vrsta provjere Prag Udio u ocjeni Prag Udio u ocjeni
Laboratorijske vježbe 0 % 10 % 0 % 10 %
Domaće zadaće 0 % 20 % 0 % 20 %
Međuispit: Pismeni 0 % 30 % 0 %
Završni ispit: Pismeni 0 % 30 %
Završni ispit: Usmeni 10 %
Ispit: Pismeni 50 % 60 %
Ispit: Usmeni 10 %
Napomena / komentar

Provjere znanja vezane uz zajedničke laboratorijske vježbe i domaće zadaće boduju se zajednički na osnovu predanih izvještaja u prvom i drugom ciklusu. Uvjet za ostvarenje prava pristupa usmenom dijelu završnog ispita jest da je student na međuispitu i na pisanom dijelu završnog ispita ostvario barem 50% mogućih bodova.

Tjedni plan nastave

  1. Predavanja (P): Uvod u digitalnu obradu govora i njene primjene, Postupci za automatsko prepoznavanje govora, govornika i jezika, Osnove digitalne sinteze govornog signala, sustavi za Text-to-Speech, Sustavi za dijalog čovjeka i računala, primjene u virtualnoj stvarnosti; Lab. vježbe (L): Pog: Pregled primjena postupaka digitalne obradbe govora, Pog: Osnove procesa nastajanja govora, Pog: Nauke o govoru i jeziku.
  2. Predavanja (P): Proces nastajanja govora; Osnove fizikalnog modela; Lab. vježbe (L): Pog. 1: Snimanje govornih signala korištenjem zvučnih kartica.
  3. Predavanja (P): Akustički model vokalnog trakta; Lab. vježbe (L): Pog. 2: Analiza svojstava govornih signala u vremenskoj domeni.
  4. Predavanja (P): Modeliranje pobudnog signala vokalnog trakta; Lab. vježbe (L): Pog. 3: Spektralna analiza govora i spektrogrami i Pog. 4: Analiza formantne strukture govora.
  5. Predavanja (P): Model vokalnog trakta sa spojenim cijevima, Vremenski diskretan model vokalnog trakta; Lab. vježbe (L): Pog. 5: Automatska klasifikacija samoglasnika na osnovu formantne strukture.
  6. Predavanja (P): Linearna predikcija i primjena za modeliranje govornog signala; Lab. vježbe (L): Pog. 6: Automatska klasifikacija govornika na osnovu formantne strukture.
  7. Predavanja (P): Autokorelacijski postupak određivanja LPC modela; Lab. vježbe (L): Pog. 7: Postupci linearne predikcije.
  8. Međuispit
  9. Predavanja (P): Svojstva LPC modela određenog postupkom autokorelacije; Lab. vježbe (L): Pog. 8: Primjena autokorelacijskog postupka izračunavanja prediktora za modeliranje govornog signala i Pog. 9: Levinson-Durbinov algoritam i analiza dobitka predikcijskog kodiranja.
  10. Predavanja (P): Metoda kovarijance za određivanje LPC modela, Parametarski skupovi za opis vremenski krakotrajnog modela spektra govornog signala; Lab. vježbe (L): Pog. 10: Kovarijantni postupak linearne predikcije.
  11. Predavanja (P): Homomorfna obrada govornog signala; Lab. vježbe (L): Pog. 11: Utjecaj kvantizacije koeficjenata LPC filtra.
  12. Predavanja (P): Primjena kepstralne analize na govorni signal; Lab. vježbe (L): Pog. 12: Homomorfna analiza govornog signala.
  13. Predavanja (P): Uvod u automatsko prepoznavanje govora, Postupci analize govora za automatsko prepoznavanje; Lab. vježbe (L): Pog. 13: Određivanje zvučnosti i osnovne frekvencije titranja glasnica.
  14. Predavanja (P): Vektori značajki, statistički modeli i postupci klasifikacije za automatsko prepoznavanje govora; Lab. vježbe (L): Pog. 14: Primjer kompletnog kodera govornog signala.
  15. Završni ispit

Literatura

(.), Petrinović, D. (2010.), Uvod u digitalnu obradbu govora koristenjem Matlaba, FER, Udžbenici sveučilišta u Zagrebu,
Petrinović, D. (2003.), Laboratorijske vježbe iz digitalne obrade govora, FER, ZESOI
John R. Deller, Jr., John H. L. Hansen, John G. Proakis (2000.), Discrete-Time Processing of Speech Signals, Wiley-IEEE Press
Panos E. Papamichalis (1987.), Practical Approaches to Speech Coding, Prentice Hall
A. M. Kondoz (2005.), Digital Speech, John Wiley & Sons
Petrinović, D. (2010.), Uvod u digitalnu obradbu govora korištenjem Matlaba, FER, Udžbenici sveučilišta u Zagrebu
Petrinović, D. (2010.), Digitalna obrada govora, Zavodska skripta, FER, ZESOI
Lawrence R. Rabiner, Biing-Hwang Juang (1993.), Fundamentals of Speech Recognition, Prentice Hall
W. Bastiaan Kleijn, Kuldip K. Paliwal (1995.), Speech Coding and Synthesis, Elsevier Science Limited
L.R.Rabiner, R.W.Schafer (1978.), Digital Processing of Speech Signals, Prentice-Hall
E. Keller (1994.), Fundamentals of Speech Synthesis and Speech Recognition, Wiley-Blackwell
Sadaoki Furui (1991.), Advances in Speech Signal Processing, CRC Press