ICLFI-korpus

ICLFI-korpus

Kansainvälinen oppijansuomen korpus, International Corpus of Learner Finnish (ICLFI) sisältää suomi vieraana kielenä -materiaalia, joka on tuotettu pääasiassa harjoituskirjoituksina luokkahuonetilanteissa yli kahdessakymmenessä ulkomaisessa yliopistossa. Aineiston koko on tällä hetkellä noin miljoona sanetta. Aineisto on taitotasoarvioitu (vähintään kahden arvioijan tekemänä, Common European Framework of Reference for Languages -asteikon mukaisesti), lemmatisoitu ja kieliopillisesti annotoitua. Tämä versio on siirretty Tekstipankin Korp-alustalle vuoden 2015 alussa. Korpuksen käyttö Korpissa edellyttää käyttöoikeuksia, jotka saat hakemalla niitä Korpista löytyvän linkin kautta.

Korpuksen kuvailutiedot Meta-Share-sivustolla.

Vuoden 2013 alussa aloitettiin aineiston virhekoodauksen suunnittelu ja virhekoodaus. Tällä hetkellä valmiina on virhekoodisto ja noin 180 000 saneen virhekoodattu osakorpus. Virhekoodisto, tilastoja ja korpuksen käyttöön liittyviä ohjeita löytyy ICLFI-manuaalista.

Aineiston kokonaistavoitteena on n. 3 miljoonan saneen ainakin osittain oppijoiden lähtökielten mukaan balansoitu aineisto. Aineiston keräämistä tullaan tehostamaan verkkokeräyksen avulla.

Korpuksesta on myös olemassa opiskelijan tuntimäärän mukaiseen taitotasoon (alkeet, keskitaso ja edistyneet) perustuva versio ja annotoimaton raakatekstiversio.

Viimeksi päivitetty: 2.11.2016