Analiza i pretraživanje teksta

Opis predmeta

Većina ljudskog znanja pohranjena je u nestrukturiranom, tekstnom obliku. Zbog ogromne i rastuće količine digitalnih tekstnih podataka, sustavi za analizu i pretraživanje teksta postali su neizostavan dio suvremene informacijsko-komunikacijske infrastrukture. Takvi sustavi odgovaraju na raznolike informacijske potrebe korisnika te omogućavaju crpljenje informacija iz velikih količina nestrukturiranih podataka. Zbog složenosti i višeznačnosti prirodnog jezika, analiza teksta netrivijalan je zadatak, koji se oslanja na postupke obrade prirodnog jezika, računalne lingvistike i strojnog učenja. Ovaj predmet daje cjelovit pregled tradicionalnih i naprednih postupaka za analizu i pretraživanje teksta. U prvome dijelu obrađuju se modeli prikaza dokumenata te postupci za pretraživanje, klasifikaciju i grupiranje dokumenata. U drugome dijelu obrađuju se postupci crpljenja informacija i dubinske analize teksta s naglaskom na postupcima temeljenima na statističkoj obradi jezika i strojnom učenju.

Opće kompetencije

Upoznatost s osnovnim postupcima jezične obrade tekstnih podataka, modelima za prikaza dokumenata, postupcima za dohvaćanje, kategorizaciju i grupiranje dokumenata te tehnikama semantičkog pretraživanja. Upoznatost s osnovnim postupcima crpljenja informacija, dubinske analize teksta i vizualizacije tekstnih zbriki. Upoznatost s postupcima vrednovanja sustava za pretraživanje informacija. Razumijevanje teorijskih osnova navedenih postupaka te njihovih ograničenja, prednosti i nedostataka. Upoznatost s dostupnim alatima i radnim okvirima za jezičnu obradu, dubinsku analizu teksta i pretraživanje dokumenata. Sposobnost oblikovanja, implementacije i vrednovanja jednostavnog sustava za pretraživanje i analizu teksta. Upoznatost s primjenama, najboljom praksom, trendovima i izazovima u području analize i pretraživanja teksta.

Ishodi učenja

  1. Opisati osnovne postupke za analizu i pretraživanje teksta
  2. Primijeniti alate za lingvističku predobradu teksta
  3. Primijeniti alate za analizu i pretraživanje teksta
  4. Razviti sustav za kategorizaciju i grupiranje dokumenata
  5. Primijeniti algoritme strojnog učenja na probleme analize teksta
  6. Analizirati korake obrade podataka u sustavu za pretraživanje i analizu teksta
  7. Ocijeniti uspješnost sustava za analizu i pretraživanje teksta
  8. Rezimirati područja primjene, trendove i izazove u području analize i pretraživanja teksta

Oblici nastave

Predavanja

Dva sata predavanja kroz 13 tjedana koja uključuju izlaganje gradiva, diskusiju i rad studenata u grupama.

Provjere znanja

Kontinuirana provjera znanja koja uključuje međuispit, završni ispit, jedan zadatak proučavanja znanstvene literature i jedan projektni zadatak.

Seminari

Zadatak proučavanja znanstvene literature.

Ostali oblici skupnog ili samostalnog učenja

Projektni zadatak u grupi.

Ostalo

Dodatan samostalan rad studenata kod kuće.

Način ocjenjivanja

Kontinuirana nastava Ispitni rok
Vrsta provjere Prag Udio u ocjeni Napomena / komentar Udio u ocjeni
Seminar/Projekt 25 % 40 % 0 % 40 %
Međuispit: Pismeni 0 % 30 % 0 %
Završni ispit: Pismeni 0 % 30 %
Ispit: Pismeni 50 % 60 %

Tjedni plan nastave

  1. Motivacija i primjene analize i pretraživanje teksta. Primjeri uspješnih sustava. Pregled literature i dostupnih alata.
  2. Karakteristike jezika i teksta. Jezična predobradba teksta. Relevantni algoritmi i alati za obradu jezika na morfološkoj, sintaktičkoj i semantičkoj razini.
  3. Prikaz dokumenta i informacijske potrebe. Pridjeljivanje težina pojmovima. Booleov, vektorski i probabilistički model pretraživanja. Zaglađivanje. Podatkovne strukture za pretraživanje teksta.
  4. Vrednovanje pretraživanja informacija. Ispitne zbirke i evaluacijske mjere. Tehnike poboljšanog pretraživanja: proširenje upita i povratna relevantnost. Pretraživanje weba, algoritmi HITS, PageRank i varijante.
  5. Strojno učenje za obradu prirodnoga jezika. Osnovni modeli klasifikacije. Vrednovanje klasifikacije. Modeli slijednog označavanja. Označavanje skupova podataka.
  6. Kategorizacija dokumenata i primjene. Odabir značajki. Klasifikacijski algoritmi. Hijerarhijska kategorizacija dokumenata. Vrednovanje kategorizacije dokumenata. Grupiranje dokumenata i primjene.
  7. Latentni semantički modeli teksta: latentno semantičko indeksiranje, probabilističko latentno semantičko indeksiranje, latentna Dirichletova alokacija. Tematski modeli.
  8. Međuispit.
  9. Ekstrakcija informacija i primjene. Ekstrakcija ključnih riječi i fraza. Prepoznavanje i klasifikacija imenovanih entiteta. Vrednovanje ekstrakcije informacija.
  10. Ekstrakcija relacija. Ekstrakcija događaja, vremenskih izraza i vremenskih relacija.
  11. Sustavi odgovaranja na pitanja. Odgovaranje na pitanja temeljem ontologije. Vrednovanje sustava odgovaranja na pitanja.
  12. Semantička sličnost teksta. Prepoznavanje logičke posljedice u tekstu. Sažimanje dokumenata i grupa dokumenata. Pojednostavljivanje teksta. Segmentacija po temama.
  13. Detekcija sentimenta. Leksikon sentimenta. Aspektno-usmjerena analiza sentimenta. Sažimanje sentimenta. Alati i resursi.
  14. Vizualizacija dokumenta i zbirki dokumenata. Vizualizacija tekstnog toka. Sažetak i preporuke za daljnje učenje
  15. Završni ispit.

Studijski programi

Sveučilišni diplomski
Obradba informacija (profil)
Predmeti specijalizacije profila (2. semestar)
Programsko inženjerstvo i informacijski sustavi (profil)
Predmeti specijalizacije profila (2. semestar)
Računarska znanost (profil)
Predmeti specijalizacije profila (2. semestar)

Literatura

C. D. Manning, P. Raghavan, H. Schütze (2008.), Introduction to Information Retrieval, Cambridge University Press
S. Buettcher, C. L. A. Clarke, G. V. Cormack (2010.), Information Retrieval: Implementing and Evaluating Search Engines, The MIT Press
S. M. Weiss, N. Indurkhya, T. Zhang, F. Damera (2010.), Text Mining: Predictive Methods for Analyzing Unstructured Information, Springer
G. Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012.), Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press
C. D. Manning, H. Schütze (1999.), Foundations of Statistical Natural Language Processing, The MIT Press

Izvedba

ID 104399
  Ljetni semestar
4 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
0 Auditorne vježbe
0 Laboratorijske vježbe

Ocjenjivanje

89 izvrstan
76 vrlo dobar
63 dobar
50 dovoljan