Tekoäly apuna koltansaamen ja pohjoissaamen digitaalisten sanakirjojen toimitustyössä

Tekoäly apuna koltansaamen ja pohjoissaamen digitaalisten sanakirjojen toimitustyössä

Oulun yliopiston Giellagas-instituutti julkaisee koltansaamen ja pohjoissaamen sanakirjat digitaalisina. Tekijät ovat hyödyntäneet työssä tekoälyä.

Sanakirjojen kehitys ja niiden digitalisointi ovat osa vähemmistökielten kuvausta ja elvytystä. Digitalisoinnin ansiosta kieliä voidaan nykyaikaistaa ja käännettyjen sanojen määrää lisätä verrattuna painettuihin sanakirjoihin. Digitaalisessa muodossa olevaa sanakirjaa on helppo täydentää, laajentaa ja korjata sitä mukaa kuin tiedot kielen sanavaroista ja kirjakielen normeista täsmentyvät.

Esimerkiksi koltansaame on kehittyvä kirjakieli, jonka kirjallinen käyttö on viime vuosina laajentunut uusille alueille. Sanasto on merkittävästi kasvanut, ja sen uudistuminen on ollut erityisen nopeaa viimeisen vuosikymmenen aikana.

Oulun yliopistossa on aloitettu tänä vuonna koltansaamen pääaineopetus.

”Koltansaamen digitaalisen sanakirjan merkitys on erittäin suuri. Näin ajantasaista, nykykieltä sisältävää sanakirjaa ei koltansaamessa ole lainkaan. Digitaalisen sanakirjan julkaiseminen on merkittävä edistysaskel myös opetuksen kannalta. Tärkeää on myös se, että kolttasaamelaiset itse ovat olleet mukana tekemässä tätä työtä”, Giellagas-instituutin johtaja Anni-Siiri Länsman toteaa.

Digitaalisten sanakirjojen toteutuksessa on käytetty pienten kielten sanakirjatyötä varten Helsingin yliopistossa kehitettyä Veʹrdd-työkalua. Työkalu hyödyntää tekoälyä, joka muun muassa taivuttaa sanoja automaattisesti eri muotoihin. Tekoäly säästää sanakirjatyöhön kuluvaa aikaa, sillä jokaisen sanan kaikkia taivutusmuotoja ei tarvitse kirjoittaa käsin. Käyttäjällä on myös mahdollisuus korjata tekoälyn tuottamia virheellisiä muotoja.

Sanakirjan koneluettavuus mahdollistaa sen, että korjaukset voidaan syöttää takaisin tekoälylle, jolloin sen käsitys kielen taivutusmuodoista tarkentuu. Samaa tekoälyä ja Ve’rddillä tuotettua sanastoa voidaan käyttää suoraan myös oikolukusovelluksissa ja kielenopetusohjelmissa.

Digitaalisessa suomi–koltansaame-sanakirjassa suomenkielisten hakusanojen määrä on yli 16 000 ja koltankielisten vastineiden lähes 19 000. Digitaalisessa pohjoissaame–suomi-sanakirjassa on runsaat 50 000 hakusanaa. Sen käsikirjoituksen on tehnyt emeritusprofessori Pekka Sammallahti aikaisempien sanakirjojensa (1989 ja 1993) pohjalta.

Digitaaliset sanakirjat julkaistaan Tromssan yliopiston saamen kieliteknologian keskuksen Giellateknon ja Divvun-projektin alustalla:
suomi–koltansaame-sanakirja https://saan.oahpa.no/fin/sms/
pohjoissaame–suomi-sanakirja http://satni.org/sammallahtismefin

Digitaalisten sanakirjojen julkaisutilaisuus pidetään 25.8.2020 klo 10 ja sitä voi seurata osoitteessa https://oulu.zoom.us/j/69319349687

Molempien sanakirjojen toimitustyö on tehty pääosin opetus- ja kulttuuriministeriön Oulun yliopiston Giellagas-instituutille myöntämän erityisrahoituksen turvin. Suomi–koltansaame-sanakirjan toteutus on Oulun yliopiston Giellagas-instituutin, Helsingin yliopiston, Tromssan yliopiston ja Saamelaiskäräjien yhteistyötä.

Giellagas-instituutilla on valtakunnallinen vastuu järjestää ja edistää saamen kielen ja saamelaisen kulttuurin ylintä opetusta ja tutkimusta Suomessa.

 

Viimeksi päivitetty: 4.11.2020