Text Analysis and Retrieval

Ishodi učenja

  1. Sažeti područja primjene, trendove i izazove analize teksta i pretraživanja informacija
  2. Opisati osnovne tehnike za analizu teksta i pretraživanja informacija
  3. Primijeniti alate za jezičnu predobradu teksta
  4. Oblikovati i implementirati sustav za analizu teksta/pretraživanje informacija
  5. Primijeniti algoritme strojnog učenja na probleme analize teksta
  6. Vrednovati sustav za analizu teksta/pretraživanje informacija
  7. Formulirati i napisati rad koji opisuje sustav za analizu teksta/pretraživanje informacija
  8. Opisati, rezimirati i kritički analizirati osnovne postupke analize teksta predstavljene u znanstvenim radovima

Oblici nastave

Predavanja

Seminari i radionice

Samostalni zadaci

Laboratorij

Ostalo

Tjedni plan nastave

  1. Klasifikacija i označavanje dokumenata, Grupiranje dokumenata, Primjene u pretraživanje informacija i dubinskoj analizi teksta
  2. Računalna morfologija, Označavanje vrsta riječi, Determinističke i stohastičke gramatike. konstituentne i ovisnosne gramatike (CFG. PCFG), Algoritmi parsanja (CYK. Chart). leksikalizirano parsanje. ovisnosno parsanje, Jezični modeli. zaglađivanje. vrednovanje
  3. (en) Information retrieval models (vector space, probabilistic, Boolean), (en) Web search (PageRank and HITS)
  4. Markovljevi i skriveni Markovljevi modeli, Uvjetna slučajna polja, (en) Confusion matrix-based performance measures (accuracy, precision, recall, sensitivity, F-score)
  5. Modeli latentne semantike dokumenata (LSI. LDA), Računalna semantika (formalna semantika. označavanje semantičkih uloga), Distribucijski semantički modeli
  6. Duboke povratne neuronske mreže: povratne mreže. dvosmjerne povratne mreže. duboke povratne mreže. kratka dugoročna memorija. modeliranje slijedova. primjene
  7. Primjene u pretraživanje informacija i dubinskoj analizi teksta
  8. Ne drži se
  9. Ekstrakcija tekstnih informacija (imenovani entiteti. ključne fraze. relacije. itd.), Otkrivanje i praćenje događaja
  10. Odgovaranje na pitanja
  11. Sažimanje dokumenata. sažimanje više dokumenata, Tekstna sličnost. parafraze. i logička posljedica
  12. Tekstna sličnost. parafraze. i logička posljedica
  13. Analiza sentimenta i dubinska analiza mišljenja
  14. Projekt
  15. Ne drži se

Studijski programi

Sveučilišni diplomski
Data Science (profil)
Recommended elective courses (2. semestar)

Literatura

(.), Introduction to Information Retrieval,
(.), Foundations of Statistical Natural Language Processing,
(.), Speech and Language Processing,
(.), Neural Network Methods in Natural Language Processing,

Za studente

Izvedba

ID 222925
  Ljetni semestar
5 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
6 Laboratorijske vježbe