Raspodijeljena obrada velike količine podataka

Opis predmeta

Primarni cilj kolegija je osposobiti studente za samostalnu provedbu raspodijeljene obrade velike količine podataka korištenjem suvremenih tehnologija otvorenog koda kao što su Apache Hadoop, Apache Lucene, Apache Mahout i Apache Spark. U prvom dijelu, kolegij je fokusiran na programski model map-reduce i njegove različite oblikovne obrasce te različite načine raspodijeljene pohrane velike količine podataka. Nakon toga se na kolegiju primjenjuju prethodno naučeni koncepti na sustave za preporučivanje, obradu tokova podataka u stvarnom vremenu, učinkovito pretraživanje velikih tekstualnih kolekcija te analizu poveznica i društvenih mreža.

Ishodi učenja

  1. identificirati obilježja velikih podataka
  2. usporediti raspodijeljene algoritme za obradu velike količine podataka
  3. razviti jednostavne algoritme za raspodijeljenu obradu velike količine podataka
  4. primijeniti tehnologije otvorenog koda za raspodijeljenu obradu i pohranu velike količine podataka
  5. razviti raspodijeljeni sustav za preporučivanje
  6. razviti sustav za raspodijeljenu obradu toka podataka
  7. analizirati velike mreže

Oblici nastave

Predavanja

Na predavanjima će se obrađivati teorijski aspekti raspodijeljene pohrane i obrade velike količine podataka, uz diskusiju kroz različite primjere i podatkovne skupove.

Provjere znanja

Održava se međuispit u 8. tjednu nastave i završni ispit u 15 tjednu nastave.

Laboratorijske vježbe

Na laboratorijskim vježbama će se rješavati kratki praktični zadaci u programskom jeziku Java s primjenom tehnologija otvorenog koda (Apache Hadoop, Apache Lucene, Apache Mahout, Apache Spark) i diskutirati će se o njihovim rješenjima.

Način ocjenjivanja

Kontinuirana nastava Ispitni rok
Vrsta provjere Prag Udio u ocjeni Prag Udio u ocjeni
Laboratorijske vježbe 0 % 40 % 0 % 40 %
Domaće zadaće 0 % 10 % 0 % 10 %
Prisutnost 0 % 10 % 0 % 10 %
Međuispit: Pismeni 0 % 20 % 0 %
Završni ispit: Pismeni 0 % 20 %
Ispit: Pismeni 50 % 40 %

Tjedni plan nastave

  1. Uvod u raspodijeljenu obradu velike količine podataka.
  2. Raspodijeljena pohrana velike količine podataka. Raspodijeljeni datotečni sustavi.
  3. Programski model Map-reduce.
  4. Osnovni oblikovni obrasci u programskom modelu map-reduce.
  5. Napredni oblikovni obrasci u programskom modelu map-reduce.
  6. Raspodijeljena pohrana velike količine strukturiranih podataka.
  7. Sustavi za preporučivanje objekata u raspodijeljenom okruženju.
  8. 1. međuispit
  9. 1. međuispit
  10. Obrada tokova podataka u stvarnom vremenu.
  11. Obrada tokova podataka u stvarnom vremenu. (2)
  12. Učinkovito pretraživanje velikih tekstualnih kolekcija.
  13. Učinkovito pretraživanje velikih tekstualnih kolekcija. (2)
  14. Analiza poveznica i velikih mreža.
  15. Raspodijeljena analiza društvenih mreža.

Studijski programi

Sveučilišni diplomski
Programsko inženjerstvo i informacijski sustavi (profil)
Predmeti specijalizacije profila (2. semestar)
Računarska znanost (profil)
Predmeti specijalizacije profila (2. semestar)
Telekomunikacije i informatika (profil)
Predmeti specijalizacije profila (2. semestar)

Za upis predmeta treba položiti predmete

Literatura

Tom White (2015.), Hadoop: The Definitive Guide, "O'Reilly Media, Inc."
Jimmy Lin, Chris Dyer (2010.), Data-intensive Text Processing with MapReduce, Morgan & Claypool Publishers
Donald Miner, Adam Shook (2012.), MapReduce Design Patterns, "O'Reilly Media, Inc."
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman (2014.), Mining of Massive Datasets, Cambridge University Press
Michael Manoochehri (2013.), Data Just Right, Addison-Wesley
Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia (2015.), Learning Spark, "O'Reilly Media, Inc."

Laboratorijske vježbe

Izvedba

ID 147660
  Ljetni semestar
4 ECTS
R0 Engleski jezik
R1 E-učenje

Ocjenjivanje

85 izvrstan
75 vrlo dobar
65 dobar
55 dovoljan