Tekoäly apuna koltansaamen ja pohjoissaamen digitaalisten sanakirjojen toimitustyössä

Oulun yliopiston Giellagas-instituutti julkaisee koltansaamen ja pohjoissaamen sanakirjat digitaalisina. Tekijät ovat hyödyntäneet työssä tekoälyä.

Sanakirjojen kehitys ja niiden digitalisointi ovat osa vähemmistökielten kuvausta ja elvytystä. Digitalisoinnin ansiosta kieliä voidaan nykyaikaistaa ja käännettyjen sanojen määrää lisätä verrattuna painettuihin sanakirjoihin. Digitaalisessa muodossa olevaa sanakirjaa on helppo täydentää, laajentaa ja korjata sitä mukaa kuin tiedot kielen sanavaroista ja kirjakielen normeista täsmentyvät.

Esimerkiksi koltansaame on kehittyvä kirjakieli, jonka kirjallinen käyttö on viime vuosina laajentunut uusille alueille. Sanasto on merkittävästi kasvanut, ja sen uudistuminen on ollut erityisen nopeaa viimeisen vuosikymmenen aikana.

Oulun yliopistossa on aloitettu tänä vuonna koltansaamen pääaineopetus.

”Koltansaamen digitaalisen sanakirjan merkitys on erittäin suuri. Näin ajantasaista, nykykieltä sisältävää sanakirjaa ei koltansaamessa ole lainkaan. Digitaalisen sanakirjan julkaiseminen on merkittävä edistysaskel myös opetuksen kannalta. Tärkeää on myös se, että kolttasaamelaiset itse ovat olleet mukana tekemässä tätä työtä”, Giellagas-instituutin johtaja Anni-Siiri Länsman toteaa.

Digitaalisten sanakirjojen toteutuksessa on käytetty pienten kielten sanakirjatyötä varten Helsingin yliopistossa kehitettyä Veʹrdd-työkalua. Työkalu hyödyntää tekoälyä, joka muun muassa taivuttaa sanoja automaattisesti eri muotoihin. Tekoäly säästää sanakirjatyöhön kuluvaa aikaa, sillä jokaisen sanan kaikkia taivutusmuotoja ei tarvitse kirjoittaa käsin. Käyttäjällä on myös mahdollisuus korjata tekoälyn tuottamia virheellisiä muotoja.

Digitaaliset sanakirjat julkaistaan Tromssan yliopiston saamen kieliteknologian keskuksen Giellateknon ja Divvun-projektin alustalla:

Lue koko uutinen

Viimeksi päivitetty: 25.8.2020