Analiza i pretraživanje teksta

Opis predmeta

Većina ljudskog znanja pohranjena je u nestrukturiranom, tekstnom obliku. Zbog ogromne i rastuće količine digitalnih tekstnih podataka, sustavi za analizu i pretraživanje teksta postali su neizostavan dio suvremene informacijsko-komunikacijske infrastrukture. Takvi sustavi odgovaraju na raznolike informacijske potrebe korisnika te omogućavaju crpljenje informacija iz velikih količina nestrukturiranih podataka. Zbog složenosti i višeznačnosti prirodnog jezika, analiza teksta netrivijalan je zadatak, koji se oslanja na postupke obrade prirodnog jezika, računalne lingvistike i strojnog učenja. Ovaj predmet daje cjelovit pregled tradicionalnih i naprednih postupaka za analizu i pretraživanje teksta. U prvome dijelu obrađuju se osnovni postupci pretraživanja informacija i obrade prirodnog jezika koji su relevantni za analizu teksta. U drugome dijelu obrađuju se primjene tih postupaka na analizu teksta i pretraživanje informacija, s naglaskom na postupcima temeljenima na statističkoj obradi jezika i strojnom učenju.

Ishodi učenja

  1. Sažeti područja primjene, trendove i izazove analize teksta i pretraživanja informacija
  2. Opisati osnovne tehnike za analizu teksta i pretraživanja informacija
  3. Primijeniti alate za jezičnu predobradu teksta
  4. Oblikovati i implementirati sustav za analizu teksta/pretraživanje informacija
  5. Primijeniti algoritme strojnog učenja na probleme analize teksta
  6. Vrednovati sustav za analizu teksta/pretraživanje informacija
  7. Formulirati i napisati rad koji opisuje sustav za analizu teksta/pretraživanje informacija
  8. Opisati, rezimirati i kritički analizirati osnovne postupke analize teksta predstavljene u znanstvenim radovima

Oblici nastave

Predavanja

Seminari i radionice

Samostalni zadaci

Laboratorij

Ostalo

Tjedni plan nastave

  1. Klasifikacija i označavanje dokumenata, Grupiranje dokumenata, Primjene u pretraživanje informacija i dubinskoj analizi teksta
  2. Računalna morfologija, Označavanje vrsta riječi, Determinističke i stohastičke gramatike. konstituentne i ovisnosne gramatike (CFG. PCFG), Algoritmi parsanja (CYK. Chart). leksikalizirano parsanje. ovisnosno parsanje, Jezični modeli. zaglađivanje. vrednovanje
  3. (en) Information retrieval models (vector space, probabilistic, Boolean), (en) Web search (PageRank and HITS)
  4. Markovljevi i skriveni Markovljevi modeli, Uvjetna slučajna polja, (en) Confusion matrix-based performance measures (accuracy, precision, recall, sensitivity, F-score)
  5. Modeli latentne semantike dokumenata (LSI. LDA), Računalna semantika (formalna semantika. označavanje semantičkih uloga), Distribucijski semantički modeli
  6. Duboke povratne neuronske mreže: povratne mreže. dvosmjerne povratne mreže. duboke povratne mreže. kratka dugoročna memorija. modeliranje slijedova. primjene
  7. Primjene u pretraživanje informacija i dubinskoj analizi teksta
  8. Ne drži se
  9. Ekstrakcija tekstnih informacija (imenovani entiteti. ključne fraze. relacije. itd.), Otkrivanje i praćenje događaja
  10. Odgovaranje na pitanja
  11. Sažimanje dokumenata. sažimanje više dokumenata, Tekstna sličnost. parafraze. i logička posljedica
  12. Tekstna sličnost. parafraze. i logička posljedica
  13. Analiza sentimenta i dubinska analiza mišljenja
  14. Projekt
  15. Ne drži se

Studijski programi

Sveučilišni diplomski
Audiotehnologije i elektroakustika (profil)
Slobodni izborni predmeti (2. semestar)
Automatika i robotika (profil)
Slobodni izborni predmeti (2. semestar)
Elektroenergetika (profil)
Slobodni izborni predmeti (2. semestar)
Elektroničko i računalno inženjerstvo (profil)
Slobodni izborni predmeti (2. semestar)
Elektronika (profil)
Slobodni izborni predmeti (2. semestar)
Elektrostrojarstvo i automatizacija (profil)
Slobodni izborni predmeti (2. semestar)
Informacijsko i komunikacijsko inženjerstvo (profil)
Izborni predmeti profila (2. semestar)
Komunikacijske i svemirske tehnologije (profil)
Slobodni izborni predmeti (2. semestar)
Programsko inženjerstvo i informacijski sustavi (profil)
Jezgreni predmeti profila (2. semestar)
Računalno inženjerstvo (profil)
Slobodni izborni predmeti (2. semestar)
Računalno modeliranje u inženjerstvu (profil)
Slobodni izborni predmeti (2. semestar)
Računarska znanost (profil)
Izborni predmeti profila (2. semestar)
Znanost o mrežama (profil)
Slobodni izborni predmeti (2. semestar)
Znanost o podacima (profil)
Izborni predmeti profila (2. semestar)

Literatura

(.), Introduction to Information Retrieval,
(.), Foundations of Statistical Natural Language Processing,
(.), Speech and Language Processing,
(.), Neural Network Methods in Natural Language Processing,

Za studente

Izvedba

ID 222452
  Ljetni semestar
5 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
15 Laboratorijske vježbe