Analiza i pretraživanje teksta

Opis predmeta

Većina ljudskog znanja pohranjena je u nestrukturiranom, tekstnom obliku. Zbog ogromne i rastuće količine digitalnih tekstnih podataka, sustavi za analizu i pretraživanje teksta postali su neizostavan dio suvremene informacijsko-komunikacijske infrastrukture. Takvi sustavi odgovaraju na raznolike informacijske potrebe korisnika te omogućavaju crpljenje informacija iz velikih količina nestrukturiranih podataka. Zbog složenosti i višeznačnosti prirodnog jezika, analiza teksta netrivijalan je zadatak, koji se oslanja na postupke obrade prirodnog jezika, računalne lingvistike i strojnog učenja. Ovaj predmet daje cjelovit pregled tradicionalnih i naprednih postupaka za analizu i pretraživanje teksta. U prvome dijelu obrađuju se modeli prikaza dokumenata te postupci za pretraživanje, klasifikaciju i grupiranje dokumenata. U drugome dijelu obrađuju se postupci crpljenja informacija i dubinske analize teksta s naglaskom na postupcima temeljenima na statističkoj obradi jezika i strojnom učenju.

Opće kompetencije

Upoznatost s osnovnim postupcima jezične obrade tekstnih podataka, modelima za prikaza dokumenata, postupcima za dohvaćanje, kategorizaciju i grupiranje dokumenata te tehnikama semantičkog pretraživanja. Upoznatost s osnovnim postupcima crpljenja informacija, dubinske analize teksta i vizualizacije tekstnih zbriki. Upoznatost s postupcima vrednovanja sustava za pretraživanje informacija. Razumijevanje teorijskih osnova navedenih postupaka te njihovih ograničenja, prednosti i nedostataka. Upoznatost s dostupnim alatima i radnim okvirima za jezičnu obradu, dubinsku analizu teksta i pretraživanje dokumenata. Sposobnost oblikovanja, implementacije i vrednovanja jednostavnog sustava za pretraživanje i analizu teksta. Upoznatost s primjenama, najboljom praksom, trendovima i izazovima u području analize i pretraživanja teksta.

Ishodi učenja

  1. Sažeti područja primjene, trendove i izazove analize teksta i pretraživanja informacija
  2. Opisati osnovne tehnike za analizu teksta i pretraživanja informacija
  3. Primijeniti alate za jezičnu predobradu teksta
  4. Oblikovati i implementirati sustav za analizu teksta/pretraživanje informacija
  5. Primijeniti algoritme strojnog učenja na probleme analize teksta
  6. Vrednovati sustav za analizu teksta/pretraživanje informacija
  7. Formulirati i napisati rad koji opisuje sustav za analizu teksta/pretraživanje informacija
  8. Opisati, rezimirati i kritički analizirati osnovne postupke analize teksta predstavljene u znanstvenim radovima

Oblici nastave

Predavanja

Dva sata predavanja kroz 13 tjedana koja uključuju izlaganje gradiva, diskusiju i rad studenata u grupama.

Provjere znanja

Kontinuirana provjera znanja koja uključuje međuispit, završni ispit, jedan zadatak proučavanja znanstvene literature i jedan projektni zadatak.

Seminari

Zadatak proučavanja znanstvene literature (6-8 radova).

Ostali oblici skupnog ili samostalnog učenja

Projektni zadatak u grupi.

Ostalo

Dodatan samostalan rad studenata kod kuće.

Način ocjenjivanja

Kontinuirana nastava Ispitni rok
Vrsta provjere Prag Udio u ocjeni Prag Udio u ocjeni
Domaće zadaće 0 % 25 % 0 % 0 %
Seminar/Projekt 25 % 50 % 0 % 50 %
Međuispit: Pismeni 0 % 25 % 0 %
Ispit: Pismeni 50 % 50 %

Tjedni plan nastave

  1. Uvod: motivacija i primjene analize i pretraživanje teksta, primjeri uspješnih sustava, pregled literature i dostupnih alata.
  2. Uvod u obradu prirodnog jezika.
  3. Uvod u pretraživanje informacija.
  4. Pretraživanje na internetu, napredno pretraživanje informacija, evaluacija sustava za pretraživanje informacija.
  5. Strojno učenje za obradu prirodnoga jezika.
  6. Klasifikacija i grupiranje teksta, latentni semantički modeli.
  7. Vektorske reprezentacije riječi i neuronske mreže za obradu prirodnog jezika.
  8. Međuispit.
  9. Ekstrakcija informacija i primjene.
  10. Sustavi odgovaranja na pitanja.
  11. Semantička sličnost tekstova, sažimanje i simplifikacija.
  12. Analiza sentimenta.
  13. Analiza autorstva.
  14. Dodatna tema. Sažetak i preporuke za daljnje učenje.
  15. Završni ispit.

Studijski programi

Sveučilišni diplomski
Obradba informacija (profil)
Predmeti specijalizacije profila (2. semestar)
Programsko inženjerstvo i informacijski sustavi (profil)
Predmeti specijalizacije profila (2. semestar)
Računarska znanost (profil)
Predmeti specijalizacije profila (2. semestar)

Literatura

C. D. Manning, P. Raghavan, H. Schütze (2008.), Introduction to Information Retrieval, Cambridge University Press
S. Buettcher, C. L. A. Clarke, G. V. Cormack (2010.), Information Retrieval: Implementing and Evaluating Search Engines, The MIT Press
S. M. Weiss, N. Indurkhya, T. Zhang, F. Damera (2010.), Text Mining: Predictive Methods for Analyzing Unstructured Information, Springer
G. Miner, J. Elder IV, T. Hill, R. Nisbet, D. Delen, A. Fast (2012.), Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications, Academic Press
C. D. Manning, H. Schütze (1999.), Foundations of Statistical Natural Language Processing, The MIT Press

Predavanja

Izvedba

ID 104399
  Ljetni semestar
4 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
0 Auditorne vježbe
0 Laboratorijske vježbe

Ocjenjivanje

89 izvrstan
76 vrlo dobar
63 dobar
50 dovoljan