Raspodijeljena obrada velikih podataka

Prikazani su podaci za akademsku godinu: 2023./2024.

Predavanja

Opis predmeta

Uvod u raspodijeljenu obradu velike količine podataka. Raspodijeljena pohrana velike količine podataka. Raspodijeljeni datotečni sustavi. Programski model MapReduce. Oblikovni obrasci u programskom modelu MapReduce. Raspodijeljena obrada velike količine tekstualnih podataka. Učinkovito pretraživanje velikih tekstualnih kolekcija. Analiza poveznica i velikih mreža. Raspodijeljena pohrana velike količine strukturiranih podataka. Sustavi za preporučivanje objekata u raspodijeljenom okruženju. Raspodijeljena obrada velike količine podataka programiranjem temeljenim na protjecanju podataka (dataflow programming). Raspodijeljena obrada tokova podataka u stvarnom vremenu. Raspodijeljeno strojno učenje. Raspodijeljena analiza društvenih mreža.

Studijski programi

Sveučilišni diplomski
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmet profila (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
Izborni predmeti (3. semestar)
Izborni predmeti profila (3. semestar)
Izborni predmeti (1. semestar) (3. semestar)
[FER2-HR] Programsko inženjerstvo i informacijski sustavi - profil
Predmeti specijalizacije profila (3. semestar)
[FER2-HR] Računalno inženjerstvo - profil
Predmeti specijalizacije profila (3. semestar)
[FER2-HR] Telekomunikacije i informatika - profil
Predmeti specijalizacije profila (3. semestar)

Ishodi učenja

  1. identificirati obilježja velikih podataka
  2. usporediti raspodijeljene algoritme za obradu velike količine podataka
  3. razviti jednostavne algoritme za raspodijeljenu obradu velike količine podataka
  4. primijeniti tehnologije otvorenog koda za raspodijeljenu obradu i pohranu velike količine podataka
  5. razviti raspodijeljeni sustav za preporučivanje
  6. razviti sustav za raspodijeljenu obradu toka podataka
  7. analizirati velike mreže

Oblici nastave

Predavanja

Nastava na predmetu organizirana je u dva nastavna ciklusa. Prvi nastavni ciklus sastoji se od 7 tjedana nastave i međuispita dok drugi ciklus sadrži 6 tjedana nastave i završni ispit. Nastava se provodi kroz 15 tjedana s tjednim opterećenjem od 2 školska sata.

Samostalni zadaci

Studenti samostalno rješavaju odabrane praktične zadatke kao pripremu za laboratorijske vježbe.

Laboratorij

Studenti samostalno rješavaju odabrane praktične zadatke za laboratorijske vježbe.

Tjedni plan nastave

  1. Procjena učinka raspodijeljenih sustava, Veliki podatci - načela, Pogreške i oporavak
  2. Vanjski spremnici podataka, fizička organizacija, Sustavi za upravljanje raspodijeljenim bazama podataka, Upravljanje kopijama podataka i modeli dosljednosti
  3. Razmjena vremena i prostora u algoritmima , Programski posrednički sloj za raspodijeljene sustave, Procjena učinka raspodijeljenih sustava, Dinamička analiza distribuiranih sustava (paralelizam, sinkronizacija i simulacija), Višestruka simultana računanja, Paralelizam, komunikacija i koordinacija, Programski konstrukti za paralelizam, (en) Parallel algorithmic patterns (divide-and-conquer, map and reduce, master-workers, others)
  4. Razmjena vremena i prostora u algoritmima , Strategije odabira prikladne podatkovne strukture, Programski posrednički sloj za raspodijeljene sustave, Procjena učinka raspodijeljenih sustava, Dinamička analiza distribuiranih sustava (paralelizam, sinkronizacija i simulacija), Višestruka simultana računanja, Paralelizam, komunikacija i koordinacija, Programski konstrukti za paralelizam, (en) Parallel algorithmic patterns (divide-and-conquer, map and reduce, master-workers, others)
  5. (en) Information retrieval models (vector space, probabilistic, Boolean)
  6. (en) Web search (PageRank and HITS)
  7. Strategije odabira prikladne podatkovne strukture, Vanjski spremnici podataka, fizička organizacija, NoSQL baze podataka
  8. Međuispit
  9. Višestruka simultana računanja
  10. (en) Time series and sequences mining, Odloženo izračunavanje i beskonačni tokovi, """Transmission Control Protocol ""(TCP): poslužitelj i klijent. Konkurentnost. Aplikacijski protokoli temeljeni na protokolu TCP. ""Hypertext Transfer Protocol"" (HTTP) i ""File Transfer Protocol"" (FTP). Jednostavni HTTP poslužitelj", "Primjeri mrežnog programiranja u Javi i Pythonu"
  11. (en) Time series and sequences mining, Odloženo izračunavanje i beskonačni tokovi
  12. Programski posrednički sloj za raspodijeljene sustave, Veliki podatci - načela
  13. Posjeta
  14. Grupiranje, Centralnost, Distribucija stupnja, Korelacija stupnja, Struktura zajednica i dijametar mreža, (en) Structure of social network graphs, (en) Social network analysis
  15. Završni ispit

Literatura

(.), Tom White (2015.), Hadoop: The Definitive Guide, "O'Reilly Media, Inc.",
(.), Donald Miner, Adam Shook (2012.), MapReduce Design Patterns, "O'Reilly Media, Inc.",
(.), Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia (2015.), Learning Spark, "O'Reilly Media, Inc.",
(.), Jimmy Lin, Chris Dyer (2010.), Data-intensive Text Processing with MapReduce, Morgan & Claypool Publishers,
(.), Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman (2014.), Mining of Massive Datasets, Cambridge University Press,
(.), Michael Manoochehri (2013.), Data Just Right, Addison-Wesley,

Za studente

Izvedba

ID 222765
  Zimski semestar
5 ECTS
R1 Engleski jezik
R1 E-učenje
30 Predavanja
0 Seminar
0 Auditorne vježbe
13 Laboratorijske vježbe
0 Konstrukcijske vježbe
0 Vježbe tjelesnog odgoja

Ocjenjivanje

izvrstan
vrlo dobar
dobar
dovoljan