Vihapuheen havaitseminen ja torjunta luonnollisen kielen käsittelyn (NLP) avulla: enkooderimalli, resurssien kehittäminen ja aineiston augmentointi

Väitöstilaisuuden tiedot

Väitöstilaisuuden päivämäärä ja aika

Väitöstilaisuuden paikka

Oulun yliopisto (Linnanmaan kampus), auditorio L10

Väitöksen aihe

Vihapuheen havaitseminen ja torjunta luonnollisen kielen käsittelyn (NLP) avulla: enkooderimalli, resurssien kehittäminen ja aineiston augmentointi

Väittelijä

Tekniikan maisteri, tietotekniikka Md Saroar Jahan

Tiedekunta ja yksikkö

Oulun yliopiston tutkijakoulu, Tieto- ja sähkötekniikan tiedekunta, Konenäön ja signaalianalyysin tutkimuskeskus

Oppiaine

Tohtorintutkimus tietojenkäsittelyn alalla

Vastaväittäjä

Professori Dr. Moncef Gabbouj, Tampereen yliopisto

Kustos

Professori Dr. Mourad Oussalah, Oulun yliopisto

Lisää tapahtuma kalenteriin

Vihapuheen tunnistaminen ja vähentäminen luonnollisen kielen käsittelyn avulla

Tämä väitöskirja tutkii kasvavaa haastetta tunnistaa ja käsitellä loukkaavaa sisältöä sosiaalisen median alustoilla. Näiden alustojen anonymiteetti ja helppo saavutettavuus ovat tehneet vihapuheesta kiireellisen huolenaiheen yhteiskunnalle, yksilöille, päättäjille ja tutkijoille. Huolimatta yrityksistä kehittää automaattisia tunnistusmenetelmiä, suorituskyky pysyy haastavana, mikä edellyttää lisätutkimusta. Tämä väitöskirja tarjoaa syvällisen tarkastelun loukkaavan sisällön tunnistamisesta, sisältäen parhaat käytännöt ja resurssien luomisen automaattisen tunnistuksen tehokkuuden edistämiseksi.

Tutkimus alkaa systemaattisella kirjallisuuskatsauksella, joka keskittyy NLP:hen ja syväoppimisteknologioihin, terminologiaan, käsittelyprosessiin ja käytettyihin yleisiin menetelmiin , painottaen syväoppimisarkkitehtuuria. Olemassa olevat katsaukset käsitellään laajasti, rajoitukset tunnistetaan ja tulevia tutkimussuuntia ehdotetaan.

Toinen tavoite sisältää enkooderi-mallin resurssien, tekniikoiden ja aineistojen kehittämisen. Erityisesti vähäresurssisille kielille tarkoitetut resurssit näyttävät olevan niukkoja. Ehdotetut menetelmät ja löydökset pyrkivät edistämään tehokkaampien työkalujen ja strategioiden luomista vihapuheen torjumiseksi ja turvallisemman, osallistavamman verkkoympäristön edistämiseksi. Osana tutkimustuloksia tämä väitöskirja esittelee kolme vertailuaineistoa bengalin, suomen ja englannin kielillä. Se esittelee myös alakohtaisen esikoulutetun mallin bengalinkielisen vihapuheen tunnistamiseen, nimeltä BanglaHateBERT. Tämä malli osoitti huomattavaa parannusta vihapuheen tunnistamisessa verrattuna olemassa oleviin monikielisiin ja bengalinkielisiin malleihin.

Kolmas painopiste tässä väitöskirjassa on aineiston augmentointi. Tämä väitöskirja esittelee vertailevan tutkimuksen erilaisista datan rikastamisstrategioista ja esittelee uusia tekniikoita aineiston augmentointiin ja parantamiseen.
Luotu 7.10.2025 | Muokattu 8.10.2025