Raspodijeljena obrada velikih podataka

Opis predmeta

Uvod u raspodijeljenu obradu velike količine podataka. Raspodijeljena pohrana velike količine podataka. Raspodijeljeni datotečni sustavi. Programski model MapReduce. Oblikovni obrasci u programskom modelu MapReduce. Raspodijeljena obrada velike količine tekstualnih podataka. Učinkovito pretraživanje velikih tekstualnih kolekcija. Analiza poveznica i velikih mreža. Raspodijeljena pohrana velike količine strukturiranih podataka. Sustavi za preporučivanje objekata u raspodijeljenom okruženju. Raspodijeljena obrada velike količine podataka programiranjem temeljenim na protjecanju podataka (dataflow programming). Raspodijeljena obrada tokova podataka u stvarnom vremenu. Raspodijeljeno strojno učenje. Raspodijeljena analiza društvenih mreža.

Ishodi učenja

  1. identificirati obilježja velikih podataka
  2. usporediti raspodijeljene algoritme za obradu velike količine podataka
  3. razviti jednostavne algoritme za raspodijeljenu obradu velike količine podataka
  4. primijeniti tehnologije otvorenog koda za raspodijeljenu obradu i pohranu velike količine podataka
  5. razviti raspodijeljeni sustav za preporučivanje
  6. razviti sustav za raspodijeljenu obradu toka podataka
  7. analizirati velike mreže

Oblici nastave

Predavanja

Samostalni zadaci

Laboratorij

Tjedni plan nastave

  1. Procjena učinka raspodijeljenih sustava, Veliki podatci - načela, Pogreške i oporavak
  2. Vanjski spremnici podataka, fizička organizacija, Sustavi za upravljanje raspodijeljenim bazama podataka, Upravljanje kopijama podataka i modeli dosljednosti
  3. Razmjena vremena i prostora u algoritmima , Programski posrednički sloj za raspodijeljene sustave, Procjena učinka raspodijeljenih sustava, Dinamička analiza distribuiranih sustava (paralelizam, sinkronizacija i simulacija), Višestruka simultana računanja, Paralelizam, komunikacija i koordinacija, Programski konstrukti za paralelizam, (en) Parallel algorithmic patterns (divide-and-conquer, map and reduce, master-workers, others)
  4. Razmjena vremena i prostora u algoritmima , Strategije odabira prikladne podatkovne strukture, Programski posrednički sloj za raspodijeljene sustave, Procjena učinka raspodijeljenih sustava, Dinamička analiza distribuiranih sustava (paralelizam, sinkronizacija i simulacija), Višestruka simultana računanja, Paralelizam, komunikacija i koordinacija, Programski konstrukti za paralelizam, (en) Parallel algorithmic patterns (divide-and-conquer, map and reduce, master-workers, others)
  5. (en) Information retrieval models (vector space, probabilistic, Boolean)
  6. (en) Web search (PageRank and HITS)
  7. Strategije odabira prikladne podatkovne strukture, Vanjski spremnici podataka, fizička organizacija, NoSQL baze podataka
  8. Međuispit
  9. Višestruka simultana računanja
  10. (en) Time series and sequences mining, Odloženo izračunavanje i beskonačni tokovi, """Transmission Control Protocol ""(TCP): poslužitelj i klijent. Konkurentnost. Aplikacijski protokoli temeljeni na protokolu TCP. ""Hypertext Transfer Protocol"" (HTTP) i ""File Transfer Protocol"" (FTP). Jednostavni HTTP poslužitelj", "Primjeri mrežnog programiranja u Javi i Pythonu"
  11. (en) Time series and sequences mining, Odloženo izračunavanje i beskonačni tokovi
  12. Programski posrednički sloj za raspodijeljene sustave, Veliki podatci - načela
  13. Posjeta
  14. Grupiranje, Centralnost, Distribucija stupnja, Korelacija stupnja, Struktura zajednica i dijametar mreža, (en) Structure of social network graphs, (en) Social network analysis
  15. Završni ispit

Studijski programi

Sveučilišni diplomski
Audiotehnologije i elektroakustika (profil)
Izborni predmeti (1. semestar)
Automatika i robotika (profil)
Izborni predmeti (1. semestar)
Elektroenergetika (profil)
Izborni predmeti (1. semestar)
Elektroničko i računalno inženjerstvo (profil)
Izborni predmeti (1. semestar)
Elektronika (profil)
Izborni predmeti (1. semestar)
Elektrostrojarstvo i automatizacija (profil)
Izborni predmeti (1. semestar)
Informacijsko i komunikacijsko inženjerstvo (profil)
Izborni predmeti (1. semestar)
Komunikacijske i svemirske tehnologije (profil)
Izborni predmeti (1. semestar)
Programsko inženjerstvo i informacijski sustavi (profil)
Predmeti specijalizacije profila (3. semestar)
Računalno inženjerstvo (profil)
Izborni predmeti (1. semestar) Predmeti specijalizacije profila (3. semestar)
Računalno modeliranje u inženjerstvu (profil)
Izborni predmeti (1. semestar)
Računarska znanost (profil)
Izborni predmeti (1. semestar)
Telekomunikacije i informatika (profil)
Predmeti specijalizacije profila (3. semestar)
Znanost o podacima (profil)
Izborni predmeti (1. semestar)

Literatura

(.), Tom White (2015.), Hadoop: The Definitive Guide, "O'Reilly Media, Inc.",
(.), Donald Miner, Adam Shook (2012.), MapReduce Design Patterns, "O'Reilly Media, Inc.",
(.), Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia (2015.), Learning Spark, "O'Reilly Media, Inc.",
(.), Jimmy Lin, Chris Dyer (2010.), Data-intensive Text Processing with MapReduce, Morgan & Claypool Publishers,
(.), Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman (2014.), Mining of Massive Datasets, Cambridge University Press,
(.), Michael Manoochehri (2013.), Data Just Right, Addison-Wesley,

Za studente

Izvedba

ID 222765
  Zimski semestar
5 ECTS
R3 Engleski jezik
R1 E-učenje
30 Predavanja
13 Laboratorijske vježbe