Analiza velikih skupova podataka

Opis predmeta

Uvod u analizu velikih skupova podataka. Programski model MapReduce. Pronalaženje sličnih entiteta. Analiza tokova podataka. Analiza poveznica u podacima predstavljenim grafovima. Pronalaženje čestih skupova. Pronalaženje grupa u velikim skupovima podataka. Sustavi za preporuke. Analiza grafova društvenih mreža. Modeli oglašavanja na webu. Reduciranje dimenzionalnosti. Strojno učenje sa svojstvom razmjernog rasta.

Ishodi učenja

  1. prepoznati i razumjeti zašto neki problem pripada u kategoriju velikih skupova podataka
  2. primijeniti programskih model MapReduce prilikom susretanja s određenim tipovima problema
  3. dizajnirati i vrednovati sustav za pronalaženje sličnih entiteta u velikim skupu podataka
  4. dizajnirati i vrednovati sustav za pronalaženje čestih skupova u velikom skupu podataka
  5. dizajnirati i vrednovati sustav za rangiranje čvorova vrlo velikom skupu podataka predočenom grafom
  6. dizajnirati i vrednovati sustav za preporučivanje
  7. primijeniti odgovarajuće algoritme s ciljem pronalaženja grupa u velikom skupu padataka
  8. primijeniti odgovarajuće algoritme za obradu tokova podataka

Oblici nastave

Predavanja

Predavanja popraćena PowerPoint projekcijom uz demonstraciju programske izvedbe prikazanih teorijskih načela

Provjere znanja

Dva pismena ispita

Laboratorijske vježbe

Nekoliko programskih zadataka koji prate gradivo predmeta. Studenti samostalno programski ostvaruju laboratorijske zadatke i povremeno demonstriraju napredak u radu asistentima.

Konzultacije

Pojedinačne konzultacije s nastavnicima i asistentima organiziraju se po potrebi na zahtjev studenta.

Način ocjenjivanja

Kontinuirana nastava Ispitni rok
Vrsta provjere Prag Udio u ocjeni Prag Udio u ocjeni
Laboratorijske vježbe 50 % 35 % 0 % 0 %
Prisutnost 0 % 5 % 0 % 0 %
Međuispit: Pismeni 0 % 30 % 0 %
Završni ispit: Pismeni 0 % 30 %
Ispit: Pismeni 50 % 100 %
Napomena / komentar

Kontinuirana nastava: Prag (Međuispit: Pismeni + Završni ispit: Pismeni + Prisutnost i sudjelovanje u nastavi) = 50 %

Tjedni plan nastave

  1. Uvod u analizu velikih skupova podataka.
  2. Programski model MapReduce.
  3. Pronalaženje sličnih entiteta u velikom skupu podataka.
  4. Pronalaženje čestih skupova u velikom skupu podataka.
  5. Analiza tokova podataka.
  6. Rangiranje čvorova u velikom skupu podataka koji je predočen grafom.
  7. Pronalaženje zajednica u grafovima društvenih mreža.
  8. Međuispit.
  9. Algoritmi za pronalaženje grupa sličnih entiteta u velikom skupu podataka.
  10. Sustavi za preporučivanje.
  11. Napredni sadržaji iz sustava za preporučivanje.
  12. Modeli oglašavanja na webu.
  13. Smanjenje dimenzionalnosti u višedimenzionalnim skupovima podataka.
  14. Strojno učenje sa svojstvom razmjernog rasta.
  15. Završni ispit.

Studijski programi

Sveučilišni diplomski
Programsko inženjerstvo i informacijski sustavi (profil)
Predmeti specijalizacije profila (2. semestar)
Računarska znanost (profil)
Predmeti specijalizacije profila (2. semestar)
Telekomunikacije i informatika (profil)
Predmeti specijalizacije profila (2. semestar)

Literatura

Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman (2014.), Mining of Massive Datasets, Cambridge University Press
Michael Manoochehri (2013.), Data Just Right, Addison-Wesley
Jiawei Han, Jian Pei, Micheline Kamber (2011.), Data Mining: Concepts and Techniques, Elsevier

Predavanja

Laboratorijske vježbe

Izvedba

ID 147658
  Ljetni semestar
4 ECTS
R2 Engleski jezik
R1 E-učenje
30 Predavanja
0 Auditorne vježbe
15 Laboratorijske vježbe

Ocjenjivanje

88 izvrstan
75 vrlo dobar
63 dobar
50 dovoljan