Työpajat ja tutoriaalit / Workshops and tutorials

Multimodaalisen aineiston litterointi, visualisointi ja analyysi PERUTTU
(Transcription, visualization and analysis of multimodal data *in English below* CANCELLED)

Järjestäjät: Ivana Kováčová (ivana.kovacova[AT]oulu.fi), Katriina Rantala (katriina.rantala[at]student.oulu.fi). Työpajaan osallistumisesta kiinnostuneita pyydetään lähettämään abstrakti järjestäjille 31.3.2019 mennessä.

Digitaalisen teknologian jatkuvan kehityksen vaikutus keskustelunanalyyttiseen tutkimukseen on ollut viime vuosina merkittävää. Ääninauhoituksiin verrattuna videoaineistot mahdollistavat sosiaalisen vuorovaikutuksen tarkemman tarkastelun. Keskustelunanalyysiä käyttävät tutkijat kiinnittävät huomiota puheen lisäksi myös muihin multimodaalisiin keinoihin, joista ihmisten välinen vuorovaikutus rakentuu. Keskustelunanalyyttisessä tutkimuksessa multimodaalisuudella viitataan kaikkiin näihin resursseihin, joilla vuorovaikutuksen osallistujat muodostavat toimintaansa ja rakentavat yhteisymmärrystä. Näihin resursseihin kuuluu puheen lisäksi esimerkiksi prosodiaa, eleitä, katseitä, kasvojen ilmeitä, kehon asentoja ja liikkeitä sekä kosketuksia ja esineiden käsittelemistä. (Goodwin 2000; Mondada 2014.)

Puheen litterointiin käytetään keskustelunanalyyttisessä tutkimuksessa suhteellisen vakiintunutta merkintätapaa (Jefferson 2004), mutta kehollisen toiminnan litterointitapa ei ole vielä niin vakiintunut. Multimodaalinen litteraatti pyrkii kuvaamaan, kuinka toimintaan ja vuorovaikutukseen käytettyjen keinojen, kuten eleiden, vaiheet ja yksityiskohdat sijoittuvat ajallisesti suhteessa toisiinsa (Mondada 2018). Kuvaamiseen käytetään niin visuaalisia kuin tekstuaalisia elementtejä. Kehollista toimintaa voidaan kuvata sanallisesti ja kuvien avulla sekä esimerkiksi Mondadan kehittämän multimodaalisen litterointitavan mukaan. Litteraatin tekemiseen liittyy kuitenkin valintoja, koska kaiken multimodaalisen toiminnan merkitseminen voi tehdä litteraatista pitkän ja vaikeasti luettavan.

Työpajamme tavoitteena on pohtia eri käytäntöjä, joiden avulla multimodaaliset aineistot litteroidaan ja visualisoidaan. Työpaja kokoaa yhteen tutkijoita, jotka tarkastelevat kehollisten resurssien käyttöä eri vuorovaikutustilanteissa. Tavoitteemme on nostaa keskustelua muun muassa siitä, mitkä ovat kehollisten resurssien eri litterointi- ja visualisointitapojen edut ja haitat, sekä siitä, mitä pitäisi ottaa huomioon litterointitapaa valittaessa. Jatko-opiskelijoiden ja tutkijoiden lisäksi tervetulleita osallistumaan ovat myös perustutkinto-opiskelijat. Työpajan kieliä ovat suomi ja englanti. Työskentelytapana ovat osallistujien esitelmät ja niiden pohjalta heräävä keskustelu. Toivomme työpajaan esitelmiä, joiden tutkimuskohteena on multimodaalinen vuorovaikutus. Erityyppiset aiheet ja aineistot ovat tervetulleita. Työpajaa voi tulla seuraamaan myös ilman omaa esitystä.

Lähteet

Goodwin, Charles. 2000. Action and embodiment within situated human interaction. Journal of Pragmatics 32, pp. 1489–1522.
Jefferson, Gail. 2004. Glossary of transcript symbols with an introduction. In G. H. Lerner (Ed.) Conversation Analysis: Studies from the first generation, pp. 13–23. Philadelphia: John Benjamins.
Mondada, Lorenza. 2014. The local constitution of multimodal resources for social interaction. Journal of Pragmatics 65, pp. 137–156.
Mondada, Lorenza. 2018. Multiple temporalities of language and body in interaction: Challenges for transcribing multimodality. Research on Language and Social Interaction 51(1), pp. 85–106.

Transcription, visualization and analysis of multimodal data
(Multimodaalisen aineiston litterointi, visualisointi ja analyysi *suomeksi ylhäällä*)

Organizers: Ivana Kováčová (ivana.kovacova[AT]oulu.fi), Katriina Rantala (katriina.rantala[at]student.oulu.fi). If you wish to participate in the workshop, please send your abstract to the organizers by March 31, 2019.

Continuing development of digital technologies has had remarkable impact on conversation- analytic research in last decades. Video recordings have given researchers more possibilities to examine wider spectrum of multimodal resources, from which human interaction is made up. In conversation-analytic research multimodality refers to the compound of resources that participants use to form their actions and to co-construct mutual understanding. Besides speech, multimodal resources include for example prosody, gestures, gaze, face expressions, body postures and movements as well as manipulations of objects (Goodwin 2000; Mondada 2014).

Relatively conventionalized Jefferson’s (2004) transcription system is nowadays used to transcribe talk, however the transcription system for embodied conduct is not so conventionalized yet. Multimodal transcription aims to describe how different resources, e.g. gesture phases and shifts of gaze, are sequentially organized in time (Mondada 2018). This can be done both textually, for example with the use of Mondada’s transcription conventions, and visually, for example with the use of various signs or pictures. When choosing the right form of representation, researchers are often faced with different choices and challenges in order to make the transcript both detailed and accessible for the reader.

The aim of our workshop is to explore different ways of transcription and visualization of multimodal data. We invite researches, who examine different kinds of interactional situations to tell about their research and the ways they transcribe the analyzed data. Presenters can for example consider disadvantages and advantages of different transcription systems, or show examples from their data, which can be discussed in the group. All kinds of data and research topics are embraced. It is also possible to participate in the workshop without the presentation. Presentations can be in Finnish or in English.

References

Goodwin, Charles. 2000. Action and embodiment within situated human interaction. Journal of Pragmatics 32, pp. 1489–1522.
Jefferson, Gail. 2004. Glossary of transcript symbols with an Introduction. In G. H. Lerner (Ed.) Conversation Analysis: Studies from the first generation, pp. 13–23. Philadelphia: John Benjamins.
Mondada, Lorenza. 2014. The local constitution of multimodal resources for social interaction. Journal of Pragmatics 65, pp. 137–156.
Mondada, Lorenza. 2018. Multiple Temporalities of Language and Body in Interaction: Challenges for Transcribing Multimodality. Research on Language and Social Interaction 51(1), pp. 85–106.

Kansalliskirjaston data haltuun

Kansalliskirjasto on aktiivinen ja tunnettu toimija digitaalisten ihmistieteiden kentällä. Kirjasto tarjoaa monipuolisia data-aineistoja, asettaa niitä tutkimuksen käyttöön ja on osaava tutkimuksen kumppani. Kansalliskirjaston käyttöön asettamista digitoiduista aineistoista ja niistä tuotetuista datapaketeista hyötyvät digitaalisten ihmistieteiden tutkijat eri aloilla.

Digitoinnit, siitä syntyvä data ja datan käsittelyyn tarvittavat välineet antavat datalähtöiselle tutkimukselle uusia mahdollisuuksia, joiden kartoittaminen ja tutkijan odotusten havaitseminen ovat työpajojen tavoitteina. Työpajoissa tarjotaan mahdollisuus keskustella digitaalisten aineistojen käytöstä ja niihin liittyvistä odotuksista Kansalliskirjaston asiantuntijoiden opastuksella.

Työpajoja edeltää Kansalliskirjaston sähköisiä aineistoja esittelevä puheenvuoro ja kolme lyhyttä demoa, joissa esitellään, miten Kansalliskirjaston tuottamaa dataa on hyödynnetty tutkimuksessa. Demoesityksissä käydään läpi 1) Kansalliskirjaston laajimman verkkokokoelman, digi.kansalliskirjasto.fi:n, tarjoamia aineistoja digitaalisten ihmistieteiden tutkimukselle ja 2) uralilaisten kielten verkkokokoelman Fenno-Ugrican käyttömahdollisuuksia ja 3) tutustutaan linkitetyn Fennican sekä ontologiapalvelu Finton sisältöihin.

Työpajoissa tunnistetaan Kansalliskirjaston tarjoaman avoimen datan mahdollisuuksia ja pyritään pohtimaan, miten omaa tutkimusaihetta voisi lähestyä Kansalliskirjaston tuottaman datan avulla.

työpajan aihe ja tavoite: Tavoitteena on antaa yleiskuvaus Kansalliskirjaston tuottamista aineistoista ja tarjota muutamia käytännönläheisiä esimerkkejä aineistoista tuotetun datan hyödyntämisestä tutkimuksessa sekä haastaa tutkija pohtimaan omaa tutkimusaihettaan suhteessa Kansalliskirjaston aineistoihin.

työpajan kielet: suomi

työpajan järjestäjät: Tuula Pääkkönen, Juha Rautiainen, Jussi-Pekka Hakkarainen (jussi-pekka.hakkarainen[AT]helsinki.fi)

työpajan työskentelytapa: 1) Esittelevä yleiskatsaus Kansalliskirjaston tarjoamiin aineistoihin ja dataan, 2) kohdennetut demot x 3 (Digi, Fenno-Ugrica, Finto ja Fennica) ja 3) työpajat pienryhmissä. Työpaja on avoin kaikille konferenssin osallistujille eikä edellytä valmistautumista ennakkoon.

Tieteen termipankki opiskelijan, opettajan ja tutkijan työvälineenä

Helsingin yliopistossa kehitettävä ja ylläpidettävä Tieteen kansallinen termipankki (http://tieteentermipankki.fi) rakentaa kaikkien Suomessa harjoitettavien tieteenalojen yhteistä, avointa ja jatkuvasti päivitettävää termitietokantaa tiedeyhteisön ja kansalaisten käyttöön. Tutoriaalin tavoitteena on esitellä Tieteen termipankin lähtökohtia, sisältöä, toimintoja ja käyttöä eri näkökulmista. Tutoriaalissa opastetaan ja ohjeistetaan termipankin hyödyntämistä opiskelun, opetuksen ja tutkimuksen tukena sekä sisällön tuottamista termipankin asiantuntijaryhmän jäsenenä.

Termipankki on semanttinen mediawikialusta, jossa eri tieteenalojen asiantuntijat julkaisevat tietoa alansa käsitteistä ja erikoissanastosta: termien suomenkielisiä nimityksiä ja käännösvastineita, määritelmiä ja selityksiä, havainnekuvia ja linkkejä tekstiesimerkkeihin. Termityötä tehdään talkoistamalla. Samalla tarjoutuu mahdollisuus käydä monitieteistä keskustelua käsitteenmuodostuksesta. Keskusteluun voivat osallistua kaikki termipankkiin omalla nimellään rekisteröityneet käyttäjät.

Termipankkiin päivitetään jatkuvasti tieteenalojen ajantasaista termistöä, mikä on elävän ja kehittyvän tieteen kielen perusedellytys. Termityö vakiinnuttaa käsitteitä luomalla yhteisesti sovittuja suosituksia siitä, mitä tieteellisillä termeillä tarkoitetaan. Yhdenmukainen termistö helpottaa ja selkeyttää viestintää sekä vähentää väärinkäsityksiä niin asiantuntijoiden kesken kuin asiantuntijoiden ja maallikoidenkin välillä. Termipankkiin kootut termit auttavat ymmärtämään tiettyä tieteenalaa ja sen piirissä tehtävää tutkimusta, mutta myös tieteenalojen välisiä yhteyksiä.

Tutoriaalin kielenä on suomi ja kohderyhmänä ovat perustutkinto- ja jatko-opiskelijat, opettajat sekä tutkijat. Tutoriaali sisältää termipankin sisältöä ja alustaa esittelevän johdantoluennon demonstraatioineen, lyhyen johdatuksen termityöhön ja käsiteanalyysiin sekä osallistujien toiveiden ja tarpeiden mukaan räätälöitäviä osioita. Tutoriaalin osallistujien toivotaan luovan termipankkiin etukäteen käyttäjätunnuksen (muotoa: Etunimi Sukunimi), minkä jälkeen jatko-opiskelijat ja tutkijat voivat halutessaan pyytää pääsyä termipankissa jo toimiviin asiantuntijaryhmiin ja kokeilla esimerkiksi käsitesivujen luomista ja muokkaamista termipankissa. Osallistujat voivat tuoda tutoriaaliin myös oman tieteenalansa käsitteistöön liittyviä ongelmatapauksia ja erityiskysymyksiä yhdessä ratkottaviksi.

Tutoriaali on avoin kaikille kiinnostuneille. Osallistujia pyydetään kuitenkin ilmoittautumaan sähköpostitse tutoriaalin järjestäjälle (sekä erikseen itse konferenssiin) 31.7.2019 mennessä.

Tutoriaalin järjestäjä:

Johanna Enqvist (johanna.enqvist[AT]helsinki.fi), FT Tutkimuskoordinaattori / PhD Research coordinator
Tieteen termipankki / The Helsinki Term Bank for the Arts and Sciences
Digitaalisten ihmistieteiden osasto / The Department of Digital Humanities
University of Helsinki

Presenting text similarities by Multidimensional Scaling

http://www.tlu.ee/~jaagup/dt/oulu2019.html

In texts, we can measure various properties that help to reveal language use patterns, e.g. the proportion of specific phonemes, words, parts of speech and n-grams. Multidimensional Scaling (MDS) is a group of algorithms for handling such data with a large amount of properties, more specifically for visualizing the level of similarity between objects (in our case, individual texts) based on several parameters. The R and Python programming languages have libraries for MDS, specific modifications for the algorithms can also be written directly in a programming language.

MDS can be used in comparative text analysis to define the variables that best distinguish, for example, texts of different genres (e.g. journalistic and fiction texts), texts written by native speakers and second language learners, texts written by language learners with a different proficiency level or first language, and fiction texts written by different authors. An interactive and entertaining possibility that MDS offers for educational purposes is that students can compare their writings with each other and with diverse marker texts, such as fiction by well-known authors, newspaper articles of radio broadcasts, so that the distances between texts are shown in scatterplots.

In the workshop, we will show how to use MDS for comparing different texts in the R environment for statistical computing and graphics, how parameter weights can be changed and how they affect the similarities of texts. The duration of the workshop is about 90 minutes. The main language is English, although Finnish can additionally be used for giving instructions, asking and answering questions.

Everyone interested in statistical text analysis is welcome to participate. Former experience of using R is not required. However, the software environment should be downloaded prior to the workshop.

The organizers of the workshop:

Jaagup Kippar (jaagup.kippar[AT]tlu.ee)
Annika Loor (annika.loor[AT]tlu.ee)
Kaisa Norak (kaisa.norak[AT]tlu.ee)

Tools and services in the Language Bank of Finland

Topic and goals

This tutorial aims to provide the audience with an overview of the Language Bank of Finland, i.e., the collection of corpora, tools and services provided by FIN-CLARIN. The participants will also have a chance to try out some of the tools and new features during a hands-on session. The tutorial is intended for anyone interested in digital research methods, and all conference guests are welcome to participate.

In addition to versatile corpus search, the Language Bank offers tools for processing and analyzing various types of data that contain text or speech. Many of these tools can be used via an online platform called Mylly. Mylly allows users to upload their own datasets to their personal workspaces and to process, analyze and visualize their data without having to manually type complicated commands. Mylly also keeps track of the user’s workflow automatically. Mylly is an open platform where it is possible to add new tools on request.

Materials for the tutorial: https://www.kielipankki.fi/support/tutorials/

Further information about the Language Bank of Finland can be found at https://www.kielipankki.fi.

Mode of organization and program design

The tutorial will begin with a general overview of the Language Bank of Finland and continue with a number of demonstrations and examples presented by FIN-CLARIN staff members. After the demonstrations, a hands-on session will be arranged for those participants who are interested in taking a guided tour of the tools. During the hands-on session, it will also be possible to ask more specific technical questions concerning the tools.

Language of the tutorial

English; however, the hands-on session can be flexible between Finnish and English

Organizers and contact persons

Krister Lindén (krister.linden[AT]helsinki.fi), FIN-CLARIN / University of Helsinki (Chair)
Mietta Lennes (mietta.lennes[AT]helsinki.fi), FIN-CLARIN / University of Helsinki

Challenges and Developments in Preserving and Publishing of Large Audio/Video Data

Introduction

Over the past decades archiving and publishing of datasets, corpora and collections of audiovisual research data has become standard procedure in many academic fields. Building scalable infrastructure and workflows that consider requirements by the scientific target group (e.g. FAIR data principles) has been a challenge for data centres and research infrastructures. One of the first pioneers in this area was The Language Archive Tools (LAT) publishing platform. It was developed at the Max Planck Institute for Psycholinguistics in Nijmegen with the language research community in mind. LAT is used all over the world, also in the locations of the workshop organisers in Cologne (CLARIN-D), Lund (SWE-CLARIN) and Helsinki (FIN-CLARIN). Unfortunately it is no longer maintained and needs to be replaced.

A feasible replacement is open source repository software like Fedora Commons. Although they are geared towards standards in research data management and provide key functionalities they require a great deal of customizing and specialized staff for maintenance. Presently there is no turn-key solution for specialized research data. Repository software does not always integrate well into existing infrastructure and established processes. The University of Cologne has developed a more lightweight approach that builds on basic services at the local computing centre but still fully adheres to standards in research data management.

Topic and goals of the workshop/tutorial

The workshop has three aims:

  1. Presentation of the LAT based audiovisual archives in the three CLARIN locations.
  2. Discussion of present and envisioned needs of the respective CLARIN centres from a broad angle, for example scientific focus but also resourcing requirements.
  3. Exploring the storage solutions and workflows developed at the respective centres to replace their LAT instances.

One focus of the workshop will be the solution developed at the University of Cologne (KA3) for storage, search and publication of audiovisual data. KA3 offers a clear path from possibly large archive copies of data to derived versions for use over the web. It implements the IIIF audio/video API and makes it possible to store original data in the highest possible resolution and access it in compressed formats more suitable for web based applications.

The KA3 frontend and backend are intended to be published as open source.

The technology will be tested at the Language Bank of Finland in Spring 2019, experiences of this pilot will be discussed and mirrored against the requirements in Lund.

Topic coverage

  • The workshop covers the following desired topics with a focus on the topics in bold.
  • Compiling digital databases and infrastructures
  • Digital data for less commonly used languages
  • Digital data and research as pedagogical resources
  • Search engines for digital data
  • Annotating digital data
  • Future technologies and innovations , e.g. virtual research environments

Intended audience

  • Infrastructure providers that already now provide audiovisual archives like MPI’s LAT
  • Infrastructure providers that are interested in setting up an audiovisual archive.
  • Data providers and researchers that would like to get a deeper understanding about the challenges and solutions for storage and provision of large datasets.

30 participants can be accommodated. They sign up for the workshop as part of the general registration process for the conference.

Workshop/tutorial organizers and contact persons

Jonathan Blumtritt (jonathan.blumtritt[AT]uni-koeln.de), University of Cologne (Chair)
Felix Rau, University of Cologne
Jens Larsson, Lund University Humanities Lab
Martin Matthiesen, CSC / The Language Bank of Finland

Language of the workshop

English

Mode of organization and program design

Viimeksi päivitetty: 13.8.2019