Analiza i pretraživanje teksta
Prikazani su podaci za akademsku godinu: 2024./2025.
Nositelji
Laboratorijske vježbe
Opis predmeta
Većina ljudskog znanja pohranjena je u nestrukturiranom, tekstnom obliku. Zbog ogromne i rastuće količine digitalnih tekstnih podataka, sustavi za analizu i pretraživanje teksta postali su neizostavan dio suvremene informacijsko-komunikacijske infrastrukture. Takvi sustavi odgovaraju na raznolike informacijske potrebe korisnika te omogućavaju crpljenje informacija iz velikih količina nestrukturiranih podataka. Zbog složenosti i višeznačnosti prirodnog jezika, analiza teksta netrivijalan je zadatak, koji se oslanja na postupke obrade prirodnog jezika, računalne lingvistike i strojnog učenja. Ovaj predmet daje cjelovit pregled tradicionalnih i naprednih postupaka za analizu i pretraživanje teksta. U prvome dijelu obrađuju se osnovni postupci pretraživanja informacija i obrade prirodnog jezika koji su relevantni za analizu teksta. U drugome dijelu obrađuju se primjene tih postupaka na analizu teksta i pretraživanje informacija, s naglaskom na postupcima temeljenima na strojnom učenju i dubokom učenju.
Preduvjeti
Minimalna potrebna predznanja: ishodi učenja predmeta "Strojno učenje 1" na FER-u ili sličnog predmeta. Dobro znanje programiranja u Pythonu.
Studijski programi
Sveučilišni diplomski
Izborni predmeti (2. semestar)[FER3-HR] Automatika i robotika - profil
Izborni predmeti
(2. semestar)
[FER3-HR] Elektroenergetika - profil
Izborni predmeti
(2. semestar)
Izborni predmeti
(2. semestar)
[FER3-HR] Elektronika - profil
Izborni predmeti
(2. semestar)
Izborni predmeti
(2. semestar)
Izborni predmeti
(2. semestar)
Izborni predmeti profila
(2. semestar)
Izborni predmeti
(2. semestar)
Jezgreni predmeti profila
(2. semestar)
[FER3-HR] Računalno inženjerstvo - profil
Izborni predmeti
(2. semestar)
Izborni predmeti
(2. semestar)
[FER3-HR] Računarska znanost - profil
Izborni predmeti
(2. semestar)
Izborni predmeti profila
(2. semestar)
[FER3-HR] Znanost o mrežama - profil
Izborni predmeti
(2. semestar)
[FER3-HR] Znanost o podacima - profil
Izborni predmeti
(2. semestar)
Izborni predmeti profila
(2. semestar)
[FER2-HR] Obradba informacija - profil
Predmeti specijalizacije profila
(2. semestar)
[FER2-HR] Programsko inženjerstvo i informacijski sustavi - profil
Predmeti specijalizacije profila
(2. semestar)
[FER2-HR] Računarska znanost - profil
Predmeti specijalizacije profila
(2. semestar)
Ishodi učenja
- Sažeti područja primjene, trendove i izazove analize teksta i pretraživanja informacija
- Opisati osnovne tehnike za analizu teksta i pretraživanja informacija
- Primijeniti alate za jezičnu predobradu teksta
- Oblikovati i implementirati sustav za analizu teksta/pretraživanje informacija
- Primijeniti algoritme strojnog učenja na probleme analize teksta
- Vrednovati sustav za analizu teksta/pretraživanje informacija
- Formulirati i napisati rad koji opisuje sustav za analizu teksta/pretraživanje informacija
- Opisati, rezimirati i kritički analizirati osnovne postupke analize teksta predstavljene u znanstvenim radovima
Oblici nastave
Predavanja
Tjedna dvosatna predavanja
Samostalni zadaciTimski projekt razvoja i ispitivanja modela za obradu prirodnoga jezika
LaboratorijTri laboratorijska zadatka implementacije i testiranja algoritama obrade prirodnog jezika
OstaloPrezentacija timskog projekta
Tjedni plan nastave
- Klasifikacija i označavanje dokumenata, Grupiranje dokumenata, Primjene u pretraživanje informacija i dubinskoj analizi teksta
- Računalna morfologija, Označavanje vrsta riječi, Determinističke i stohastičke gramatike. konstituentne i ovisnosne gramatike (CFG. PCFG), Algoritmi parsanja (CYK. Chart). leksikalizirano parsanje. ovisnosno parsanje, Jezični modeli. zaglađivanje. vrednovanje
- (en) Information retrieval models (vector space, probabilistic, Boolean), (en) Web search (PageRank and HITS)
- Markovljevi i skriveni Markovljevi modeli, Uvjetna slučajna polja, (en) Confusion matrix-based performance measures (accuracy, precision, recall, sensitivity, F-score)
- Modeli latentne semantike dokumenata (LSI. LDA), Računalna semantika (formalna semantika. označavanje semantičkih uloga), Distribucijski semantički modeli
- Duboke povratne neuronske mreže: povratne mreže. dvosmjerne povratne mreže. duboke povratne mreže. kratka dugoročna memorija. modeliranje slijedova. primjene
- Primjene u pretraživanje informacija i dubinskoj analizi teksta
- Ne drži se
- Ekstrakcija tekstnih informacija (imenovani entiteti. ključne fraze. relacije. itd.), Otkrivanje i praćenje događaja
- Sustavi odgovaranja na pitanja
- Sažimanje dokumenata. sažimanje više dokumenata, Tekstna sličnost. parafraze. i logička posljedica
- Tekstna sličnost, parafraze i logička posljedica
- Analiza sentimenta i dubinska analiza mišljenja
- Authorship analysis and author profiling
- Prezentacije projekata
Literatura
(.), Introduction to Information Retrieval,
(.), Foundations of Statistical Natural Language Processing,
(.), Speech and Language Processing,
(.), Neural Network Methods in Natural Language Processing,
Izvedba
ID 222452
Ljetni semestar
5 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
0 Seminar
0 Auditorne vježbe
15 Laboratorijske vježbe
0 Konstrukcijske vježbe
0 Vježbe tjelesnog odgoja
Ocjenjivanje
89 izvrstan
76 vrlo dobar
63 dobar
50 dovoljan