Vihapuheen havaitseminen ja torjunta luonnollisen kielen käsittelyn (NLP) avulla: enkooderimalli, resurssien kehittäminen ja aineiston augmentointi
Väitöstilaisuuden tiedot
Väitöstilaisuuden päivämäärä ja aika
Väitöstilaisuuden paikka
Oulun yliopisto (Linnanmaan kampus), auditorio L10
Väitöksen aihe
Vihapuheen havaitseminen ja torjunta luonnollisen kielen käsittelyn (NLP) avulla: enkooderimalli, resurssien kehittäminen ja aineiston augmentointi
Väittelijä
Tekniikan maisteri, tietotekniikka Md Saroar Jahan
Tiedekunta ja yksikkö
Oulun yliopiston tutkijakoulu, Tieto- ja sähkötekniikan tiedekunta, Konenäön ja signaalianalyysin tutkimuskeskus
Oppiaine
Tohtorintutkimus tietojenkäsittelyn alalla
Vastaväittäjä
Professori Dr. Moncef Gabbouj, Tampereen yliopisto
Kustos
Professori Dr. Mourad Oussalah, Oulun yliopisto
Vihapuheen tunnistaminen ja vähentäminen luonnollisen kielen käsittelyn avulla
Tämä väitöskirja tutkii kasvavaa haastetta tunnistaa ja käsitellä loukkaavaa sisältöä sosiaalisen median alustoilla. Näiden alustojen anonymiteetti ja helppo saavutettavuus ovat tehneet vihapuheesta kiireellisen huolenaiheen yhteiskunnalle, yksilöille, päättäjille ja tutkijoille. Huolimatta yrityksistä kehittää automaattisia tunnistusmenetelmiä, suorituskyky pysyy haastavana, mikä edellyttää lisätutkimusta. Tämä väitöskirja tarjoaa syvällisen tarkastelun loukkaavan sisällön tunnistamisesta, sisältäen parhaat käytännöt ja resurssien luomisen automaattisen tunnistuksen tehokkuuden edistämiseksi.
Tutkimus alkaa systemaattisella kirjallisuuskatsauksella, joka keskittyy NLP:hen ja syväoppimisteknologioihin, terminologiaan, käsittelyprosessiin ja käytettyihin yleisiin menetelmiin , painottaen syväoppimisarkkitehtuuria. Olemassa olevat katsaukset käsitellään laajasti, rajoitukset tunnistetaan ja tulevia tutkimussuuntia ehdotetaan.
Toinen tavoite sisältää enkooderi-mallin resurssien, tekniikoiden ja aineistojen kehittämisen. Erityisesti vähäresurssisille kielille tarkoitetut resurssit näyttävät olevan niukkoja. Ehdotetut menetelmät ja löydökset pyrkivät edistämään tehokkaampien työkalujen ja strategioiden luomista vihapuheen torjumiseksi ja turvallisemman, osallistavamman verkkoympäristön edistämiseksi. Osana tutkimustuloksia tämä väitöskirja esittelee kolme vertailuaineistoa bengalin, suomen ja englannin kielillä. Se esittelee myös alakohtaisen esikoulutetun mallin bengalinkielisen vihapuheen tunnistamiseen, nimeltä BanglaHateBERT. Tämä malli osoitti huomattavaa parannusta vihapuheen tunnistamisessa verrattuna olemassa oleviin monikielisiin ja bengalinkielisiin malleihin.
Kolmas painopiste tässä väitöskirjassa on aineiston augmentointi. Tämä väitöskirja esittelee vertailevan tutkimuksen erilaisista datan rikastamisstrategioista ja esittelee uusia tekniikoita aineiston augmentointiin ja parantamiseen.
Tutkimus alkaa systemaattisella kirjallisuuskatsauksella, joka keskittyy NLP:hen ja syväoppimisteknologioihin, terminologiaan, käsittelyprosessiin ja käytettyihin yleisiin menetelmiin , painottaen syväoppimisarkkitehtuuria. Olemassa olevat katsaukset käsitellään laajasti, rajoitukset tunnistetaan ja tulevia tutkimussuuntia ehdotetaan.
Toinen tavoite sisältää enkooderi-mallin resurssien, tekniikoiden ja aineistojen kehittämisen. Erityisesti vähäresurssisille kielille tarkoitetut resurssit näyttävät olevan niukkoja. Ehdotetut menetelmät ja löydökset pyrkivät edistämään tehokkaampien työkalujen ja strategioiden luomista vihapuheen torjumiseksi ja turvallisemman, osallistavamman verkkoympäristön edistämiseksi. Osana tutkimustuloksia tämä väitöskirja esittelee kolme vertailuaineistoa bengalin, suomen ja englannin kielillä. Se esittelee myös alakohtaisen esikoulutetun mallin bengalinkielisen vihapuheen tunnistamiseen, nimeltä BanglaHateBERT. Tämä malli osoitti huomattavaa parannusta vihapuheen tunnistamisessa verrattuna olemassa oleviin monikielisiin ja bengalinkielisiin malleihin.
Kolmas painopiste tässä väitöskirjassa on aineiston augmentointi. Tämä väitöskirja esittelee vertailevan tutkimuksen erilaisista datan rikastamisstrategioista ja esittelee uusia tekniikoita aineiston augmentointiin ja parantamiseen.
Luotu 7.10.2025 | Muokattu 8.10.2025