Project database

The page provides a list of national and international projects where FER participates or has participated as a project coordinator or partner.


Projects

   

Project

Acronym:
BILAT-HR-SLO-SNAJDER-2015 
Name:
Detection and Analysis of Offensive Language in User-Generated Content 
Project status:
From: 2015-04-10 To: 2015-06-10 (Completed)
Contract number:
Action line:
Type (Programme):
Ostali domaći 
Instrument:
Ostalo 
Project cost:
-
Project funding:
-

Project coordinator

Organisation Name:
Organisation adress:
Organisation country:
Contact person name:
Contact person email:
 

Croatian partner

Organisation name:
Organisation address:
Contact person name:
Contact person tel:
Contact person fax:
Contact person e-mail:
 

Partners

Organisation name Country
Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva  Croatia 

Short description of project

Korisnici druStvenih medija nerijetko imaju dojam da su zasticeni potpunom anonimnoscu. Posljedica toga jest znaCajna prisutnost uvredljiva jezika u internetskoj komunikaciji. Otkrivanje i analiza uvredljivoga tekstnog sad,.zaja od iznimnog je drustvenog znacenja. 5 jedne strane, analiza uvredljivoga jezika predmetom je istrazivanja onih koji se bave drustvenim aspektima mrezne komunikacije kao i institucija koje pramicu kulturu dijaloga i slobodu govora. Istovremeno, otkrivanje uvredljivoga jezika jedan je od kljucnih zadataka odgovornog upravljanja drustvenim medijima. Nairne, zbog rastute kolicine sadriaja na drustvenim medijima nije viSe moguce ruena nadgledati korisnicku komunikaciju, a jednostavni su se pristupi temeljeni na indikativnim kljucnim rijeeima pokazali ograniceno uCinkoviti buduCi da ih je moguce lako zaobici. BuduCi da je otkrivanje uvredljivog jezika visoko kontekstno ovisno te iziskuje pozadinsko znanje, one je sa stajaliSta obrade prirodnog jezika (engl. natural language processing, NLP) vrlo izazovan zadatak. Najuspjesniji sustavi oslanjaju se na strojno ucenje i problemu pristupaju kao binarnome klasifikacijskom zadataku ("uvredljiv" naspram "neuvredljiv" tekst). Premda su takvi sustavi uspjesniji od onih temeljenih na kljucnim rijeeima, njihov je osnovni problem niska osjetljivost uslijed nemogucnosti otkrivanja suptilnijih oblika uvredljivoga jezika. K tome, jos ne postoje istrazivanja koja bi se bavila strojnom analizom i otkrivanjem uvredljivoga teksta u hrvatskome i slovenskome jeziku. OptI I 5PECIFICNI CIUEVI PROJEKTA Opei cilj predlozenog projekta jest omoguCiti strojno otkrivanje i analizu uvredljivoga jezika u korisnicki generiranome sadriaju na hrvatskome i slovenskome jeziku. Specificni cilj projekta jest razvaj novih NLP modela i alata temeljenih na strojnome ucenju za ucinkovitu klasifikaciju uvredljivoga teksta (KUT), cija ce tocnost znacajno nadmasiti tocnost metoda temeljenih na kljucnim rijeeima. Pretpostavka istrazivanja jest da vee i osnovni modeli temeljeni na strojnome ucenju mogu poluciti dobrim rezultatima, a da su daljnja poboljSanja moguca koristenjem razradenijih znacajki i tehnika dubokoga ucenja. NaSa su glavna istrazivacka pitanja tehnicke i lingvisticke prirode: • Tehnicka: • Pl: Maze Ii KUT model prepoznati razliCite finije tipove uvredljivoga teksta i to neovisno a dameni? • P2: Kako mozemo iskoristiti znanje a kanverzacijskoj strukturi (nit diskusije)? • P3: U kojoj mjeri duboko ucenje moze poboljSati uspjesnost KUT modela? • Jezicna: • P4: Koje su jezicne znacajke indikativne za uvredljiv jezik' • PS: Jesu Ii one univerzalne iii su pak kulturoloski, jezicna, druStveno iii tematski uvjetavane? • P6: Koliko su karisnici druStvenih medija asjetljivi na uvredljiv jezik i kaka na njega reagiraju? METODOLOGUA Predlozeni projekt interdisciplinarnog je karaktera i oslanja se na komplementarnu strucnost dvaju timova u podruCju racunalne i korpusne lingvistike (51 tim) i statistickog NLP-a i strojnog ucenja (HR tim). Aktivnosti na projektu podijeljene su u tri faze: Faza 1: Izgradnja skupova podataka (vodi 51 tim; M1-M12) Skupove za ucenje i ispitivanje modela za slovenski jezik izgradit cemo uzorkovanjem i rucnim oznacavanjem korpusa JANES od 15M pojavnica, koji sadrZi komentare na clanke sa slovenskih novinskih portala, a koje su administratori obrisali jer su bili uvredljivoga sadrZaja. 51ican ce korpus biti izgraden i za hrvatski (vee je izgradena pokusna inacica karpusa 5 1000 rucna aznacenih kamentara). Faza 2: Modeli i vrednovanje (vodi HR tim; M6-M17) U ovoj cemo se fazi osloniti na tehnike nadziranoga strojnog ucenja (5U). Najprije cemo razmotriti tradicionalne " plitke" modele 5U, posebice logisticku regresiju, koja omogucava detaljnu analizu znacajki (povezano s P4 iPS). Zatim cemo razmotriti modele dubokog ucenja (povezano 5 P3), koji su se pokazali iznimno ucinkovitima za izgradnju semantickih reprezentacija. Konacno, eksperimentirat cema 5 klasifikacijam u vise finijih klasa (povezano s P1), analizirati utjecaj strukture rasprave na uspje;;nost klasifikacije (povezano 5 P2) te ispitati modele na korpusu tvitova i foruma kako bismo ocijenili njihovu robusnost u ovisnosti a domeni. Faza 3: Lingvisticka analiza (vodi 51 tim; M13-M24) Na temelju rezultata strojne klasifikacije uvredljivoga teksta provest cerna detaljnu i sveobuhvatnu analizu najistaknutijih jezicnih znaCajki uvredl'ivoga jezika. Nacinit cemo i usooredbu rezultata izmedu iezika tema korisnickih profila te usporedbu rezultata kroz vrijeme, s ciljem dobivanja uvida u kulturoloske, situacijske i korisnicki specificne aspekte uvredljive komunikacije na internetu. oCEKIVANI REZULTATI I NJIHOV UCINAK Rezultate projekta namjeravamo objaviti na medunarodnim konferencijama i radionicama NLP-a za slavenske jezike (LREC 2015, 15-JT 2016, BSNLP 2017). Rezultati ce biti od izravne koristi za istrazivace u podrucju sociolingvistike i jezicnih tehnologija za slovenski i hrvatski jezik, ali ce biti i ad komercijalnog znacaja za pruzatelje usluga u domeni novinskog i forumskog sadriaja, a koji se jos uvijek oslanjaju na rucno upravljanje korisnickom komunikacijom. Resursi i alati razvijeni U okviru ovoga projekta bit ce javno dostupni pod licencijom Creative Commons BY 4.0 kroz infrastrukturu CLARIN. ZNACAJ I PERSPEKTIVE Predlozeno je istraiivanje usuglaSeno 5 istrazivackim planovima obaju timova (51: analiza nestandardnoga slovenskog jezika, HR: tekstna analitika drustvenih medija). Na sirem planu, ciljevi projekta uskladen; su s relevantnim strateSkim inicijativama EU, posebice 5 Digitalnom Agendom za Europu, cime aba tima izravno jaeaju svoj potencijal za sudjelovanje u buduCim H2020 pozivima, npr., unutar teme "Veliki podatci & ukljuciva ; promisljenja drustva". Konacno, predlozena ce sur~~nja posebno angaz;rati mlade istrazivace (oba vod;telja Droiekta kao i vecina suradnika mladi su istrazivaci l.  

Short description of the task performed by Croatian partner