The page provides a list of national and international projects where FER participates or has participated as a project coordinator or partner.
Project database
Projects
Project
Acronym:
BILAT-HR-SLO-SNAJDER-2015
Name:
Detection and Analysis of Offensive Language in User-Generated Content
Project status:
From: 2015-04-10
To: 2015-06-10
(Completed)
Contract number:
-
Action line:
-
Type (Programme):
Ostali domaći
Instrument:
Ostalo
Project cost:
-
Project funding:
-
Project coordinator
Organisation Name:
-
Organisation adress:
-
Organisation country:
-
Contact person name:
-
Contact person email:
Croatian partner
Organisation name:
-
Organisation address:
-
Contact person name:
Contact person tel:
-
Contact person fax:
-
Contact person e-mail:
Partners
Organisation name | Country |
---|---|
Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva | Croatia |
Short description of project
Korisnici druStvenih medija nerijetko imaju dojam da su zasticeni potpunom anonimnoscu. Posljedica toga jest
znaCajna prisutnost uvredljiva jezika u internetskoj komunikaciji. Otkrivanje i analiza uvredljivoga tekstnog
sad,.zaja od iznimnog je drustvenog znacenja. 5 jedne strane, analiza uvredljivoga jezika predmetom je
istrazivanja onih koji se bave drustvenim aspektima mrezne komunikacije kao i institucija koje pramicu kulturu
dijaloga i slobodu govora. Istovremeno, otkrivanje uvredljivoga jezika jedan je od kljucnih zadataka odgovornog
upravljanja drustvenim medijima. Nairne, zbog rastute kolicine sadriaja na drustvenim medijima nije viSe moguce
ruena nadgledati korisnicku komunikaciju, a jednostavni su se pristupi temeljeni na indikativnim kljucnim rijeeima
pokazali ograniceno uCinkoviti buduCi da ih je moguce lako zaobici.
BuduCi da je otkrivanje uvredljivog jezika visoko kontekstno ovisno te iziskuje pozadinsko znanje, one je sa
stajaliSta obrade prirodnog jezika (engl. natural language processing, NLP) vrlo izazovan zadatak. Najuspjesniji
sustavi oslanjaju se na strojno ucenje i problemu pristupaju kao binarnome klasifikacijskom zadataku ("uvredljiv"
naspram "neuvredljiv" tekst). Premda su takvi sustavi uspjesniji od onih temeljenih na kljucnim rijeeima, njihov je
osnovni problem niska osjetljivost uslijed nemogucnosti otkrivanja suptilnijih oblika uvredljivoga jezika. K tome,
jos ne postoje istrazivanja koja bi se bavila strojnom analizom i otkrivanjem uvredljivoga teksta u hrvatskome i
slovenskome jeziku.
OptI I 5PECIFICNI CIUEVI PROJEKTA
Opei cilj predlozenog projekta jest omoguCiti strojno otkrivanje i analizu uvredljivoga jezika u korisnicki
generiranome sadriaju na hrvatskome i slovenskome jeziku. Specificni cilj projekta jest razvaj novih NLP modela i
alata temeljenih na strojnome ucenju za ucinkovitu klasifikaciju uvredljivoga teksta (KUT), cija ce tocnost
znacajno nadmasiti tocnost metoda temeljenih na kljucnim rijeeima. Pretpostavka istrazivanja jest da vee i
osnovni modeli temeljeni na strojnome ucenju mogu poluciti dobrim rezultatima, a da su daljnja poboljSanja
moguca koristenjem razradenijih znacajki i tehnika dubokoga ucenja. NaSa su glavna istrazivacka pitanja tehnicke
i lingvisticke prirode:
• Tehnicka:
• Pl: Maze Ii KUT model prepoznati razliCite finije tipove uvredljivoga teksta i to neovisno a dameni?
• P2: Kako mozemo iskoristiti znanje a kanverzacijskoj strukturi (nit diskusije)?
• P3: U kojoj mjeri duboko ucenje moze poboljSati uspjesnost KUT modela?
• Jezicna:
• P4: Koje su jezicne znacajke indikativne za uvredljiv jezik'
• PS: Jesu Ii one univerzalne iii su pak kulturoloski, jezicna, druStveno iii tematski uvjetavane?
• P6: Koliko su karisnici druStvenih medija asjetljivi na uvredljiv jezik i kaka na njega reagiraju?
METODOLOGUA
Predlozeni projekt interdisciplinarnog je karaktera i oslanja se na komplementarnu strucnost dvaju timova u
podruCju racunalne i korpusne lingvistike (51 tim) i statistickog NLP-a i strojnog ucenja (HR tim). Aktivnosti na
projektu podijeljene su u tri faze:
Faza 1: Izgradnja skupova podataka (vodi 51 tim; M1-M12)
Skupove za ucenje i ispitivanje modela za slovenski jezik izgradit cemo uzorkovanjem i rucnim oznacavanjem
korpusa JANES od 15M pojavnica, koji sadrZi komentare na clanke sa slovenskih novinskih portala, a koje su
administratori obrisali jer su bili uvredljivoga sadrZaja. 51ican ce korpus biti izgraden i za hrvatski (vee je
izgradena pokusna inacica karpusa 5 1000 rucna aznacenih kamentara).
Faza 2: Modeli i vrednovanje (vodi HR tim; M6-M17)
U ovoj cemo se fazi osloniti na tehnike nadziranoga strojnog ucenja (5U). Najprije cemo razmotriti tradicionalne
" plitke" modele 5U, posebice logisticku regresiju, koja omogucava detaljnu analizu znacajki (povezano s P4 iPS).
Zatim cemo razmotriti modele dubokog ucenja (povezano 5 P3), koji su se pokazali iznimno ucinkovitima za
izgradnju semantickih reprezentacija. Konacno, eksperimentirat cema 5 klasifikacijam u vise finijih klasa
(povezano s P1), analizirati utjecaj strukture rasprave na uspje;;nost klasifikacije (povezano 5 P2) te ispitati
modele na korpusu tvitova i foruma kako bismo ocijenili njihovu robusnost u ovisnosti a domeni.
Faza 3: Lingvisticka analiza (vodi 51 tim; M13-M24)
Na temelju rezultata strojne klasifikacije uvredljivoga teksta provest cerna detaljnu i sveobuhvatnu analizu
najistaknutijih jezicnih znaCajki uvredl'ivoga jezika. Nacinit cemo i usooredbu rezultata izmedu iezika tema korisnickih profila te usporedbu rezultata kroz vrijeme, s ciljem dobivanja uvida u kulturoloske, situacijske i korisnicki specificne aspekte uvredljive komunikacije na internetu.
oCEKIVANI REZULTATI I NJIHOV UCINAK
Rezultate projekta namjeravamo objaviti na medunarodnim konferencijama i radionicama NLP-a za slavenske
jezike (LREC 2015, 15-JT 2016, BSNLP 2017). Rezultati ce biti od izravne koristi za istrazivace u podrucju
sociolingvistike i jezicnih tehnologija za slovenski i hrvatski jezik, ali ce biti i ad komercijalnog znacaja za
pruzatelje usluga u domeni novinskog i forumskog sadriaja, a koji se jos uvijek oslanjaju na rucno upravljanje
korisnickom komunikacijom. Resursi i alati razvijeni U okviru ovoga projekta bit ce javno dostupni pod licencijom
Creative Commons BY 4.0 kroz infrastrukturu CLARIN.
ZNACAJ I PERSPEKTIVE
Predlozeno je istraiivanje usuglaSeno 5 istrazivackim planovima obaju timova (51: analiza nestandardnoga
slovenskog jezika, HR: tekstna analitika drustvenih medija). Na sirem planu, ciljevi projekta uskladen; su s
relevantnim strateSkim inicijativama EU, posebice 5 Digitalnom Agendom za Europu, cime aba tima izravno jaeaju
svoj potencijal za sudjelovanje u buduCim H2020 pozivima, npr., unutar teme "Veliki podatci & ukljuciva ;
promisljenja drustva". Konacno, predlozena ce sur~~nja posebno angaz;rati mlade istrazivace (oba vod;telja
Droiekta kao i vecina suradnika mladi su istrazivaci l.
Short description of the task performed by Croatian partner
-