Aineiston keruu ja analyysi

Dokumentaatio tutkimuksen aikana

Oleelliset kysymykset: Miten dokumentoin aineistoni siten, että se on sekä minun että muiden löydettävissä, saavutettavissa ja käytettävissä myös huomenna, viikon kuluttua ja vielä vuosien päästä? Jos täysin tuntematon tutkija löytäisi aineistoni, hahmottaisiko hän, mistä siinä on kyse? Mitä minun tulee tehdä, jotta hän ymmärtäisi ja pystyisi käyttämään aineistoani?

Dokumentaatio on aineiston menetelmien, kokoamisen ja käsittelyn ajantasaista kuvailua tutkimuksen aikana. Suurin osa dokumentaatiosta on yksinkertaisesti hyvää tieteellistä käytäntöä, jota toteutat jo nyt päivittäin tutkimuksen arjessa. Dokumentaatiota on muun muassa

  • muuttujien ja keskeisen sanaston sekä mittayksiköiden kirjallinen kuvailu
  • taulukkomuotoinen inventaario haastattelujen perustiedoista, asetelmasta ja toteutuksesta
  • koodikirjat, kenttä- ja laboratoriopäiväkirjat
  • teknisten laitteiden tuottama tekninen metatieto kuten kalibraatiot.

Dokumentaatiota on tärkeää pitää jatkuvasti ajan tasalla. Yhtä aikaa aineistotyön kanssa tehtynä se on pieni vaiva, mutta jälkikäteen käytännössä mahdotonta.

Tutkimuksen perusaineistoja kerätään mm. kyselylomakkeilla, haastatteluilla, videoimalla sekä erilaisilla laitteilla ja antureilla. Erilaiset mittaus- ja tiedonkeruutavat tuottavat erilaisia metatieto- ja tiedostoformaatteja. Aineiston analyysivaiheessa raaka-aineistosta tuotetaan empiirisen tutkimuksen varsinaiset tulokset. Kun raaka-aineistoa käsitellään, yhdistellään ja analysoidaan, syntyy erilaisia työstö- ja tulosaineistoja. Tutkimuksen sujuvuuden ja toistettavuuden kannalta on tärkeää, että syntyviä aineistoja käsitellään ja kuvaillaan hallitusti ja yhteistyökumppanien etukäteen sopimalla tavalla.

Hyviä käytäntöjä

  • Säilytä kuvailutieto erillisissä tiedostoissa (esim. Readme-tiedostot, inventaarioexcelit) aineiston yhteydessä alakansiossa, jolle annat nimen /DOCUMENTATION. Tämä on tärkeää, jotta dokumentoivat tiedostot löytää sellainenkin henkilö, joka ei tunne aineiston rakennetta tarkemmin.
  • Suunnittele, millaista dokumentaatiota tuotat ja mistä sen löytää, jollet käytä /DOCUMENTATION-alakansiota. Mikäli mahdollista, käytä dokumentaatiossa oman alasi metadatastandardeja.
  • Sovi tutkimusryhmän kesken jo tutkimuksen suunnitteluvaiheessa yhtenäinen käytäntö tiedostojen ja kansioiden nimeämiselle.
  • Sovi yhtenäinen tapa, jolla tallennatte tiedostot kansioihin ja alakansioihin. Looginen kansiorakenne tehostaa työtä ja vähentää katoamisriskiä.
  • Käytä avoimia tiedostoformaatteja kaupallisten formaattien sijaan. Avoimet, standardimuotoiset tiedostoformaatit takaavat parhaiten tietojen saavutettavuuden vielä useiden vuosien kuluttua. Esimerkkejä löydät esim. UK Data Servicen formaattivertailutaulukosta.

Tieteenalakohtaisia ohjeita [täydentyy kevään 2021 aikana]


Metadatan laatiminen ja päivittäminen

Metadata on yleistä bibliografista kuvailutietoa tutkimusaineistosta (esim. nimi, omistaja, tekijät, jakelija, aikaväli, lyhyt kuvaus, sijainti, lisenssitiedot jne.) Se on kuin aineiston käyntikortti, jolla kuvaat toisille, mistä aineistossasi on kyse. Ajantasainen metadata on avain aineiston löydettävyyteen ja saavutettavuuteen. JYU sekä useimmat rahoittajat edellyttävät vähintään metadatan julkaisemista, vaikkei itse aineistoa voitaisi perustellusta syystä julkaista. Tutkimuksen edetessä metatiedot on hyvä pitää jatkuvasti ajan tasalla. Tällöin ne pysyvät hallittavissasi eivätkä tuota merkittävästi lisätyötä.

Jyväskylän yliopistossa metadataa ylläpidetään tutkimustietojärjestelmä Converiksen Tutkimusaineisto-osiossa. Jokaisesta tutkimusaineistosta on hyvä laatia Converikseen kuvailutiedot sisältävä kirjaus. Kun kuvailet aineistoja, jaottele ne sellaisiksi kokonaisuuksiksi, että voit kuvailla kunkin datasetin yksiselitteisesti. Tarkemmin kuvailtuja aineistoja voit niputtaa Converiksessa suuremmiksi kokonaisuuksiksi laajemman emoaineiston alle. Kun kirjaat aineistosi metatiedot Converikseen, voit samalla tilata Converiksen kautta tukea aineistonhallinnan kysymyksiisi yliopiston aineistoasiantuntijoilta. Yksityiskohtaiset ohjeet metadatan kirjaamiseksi tutkimuksesi eri vaiheissa löydät metadatan kirjausohjeista (Intranet Unossa).


Aineiston laatu ja eheys

Aineiston yhtenäisyydestä ja laadusta huolehtiminen on tärkeä osa aineistonhallintaa. Suunnittele ja kuvaa aineistonhallintasuunnitelmassasi laadunvarmistusta koskevat vaatimukset sekä toimenpiteet, joilla turvaat sen, ettei aineisto katoa tai korruptoidu sen käsittelyn ja säilytyksen aikana. Aineistotyypistä, laitteistosta ja menetelmistä riippuen eheyttä ja laatua voidaan varmistaa esimerkiksi

  • kalibroimalla mittausvälineitä havaintotarkkuuden ja -skaalan monitoroimiseksi
  • tarkistuttamalla litteroitu haastatteluaineisto ulkopuolisella asiantuntijalla
  • käyttämällä alan standardoituja menetelmiä, laitteita ja ohjelmistoja
  • ottamalla datasta tarkistussumma puuttuvien tai poikkeavien arvojen havaitsemiseksi.

Versionhallinta

Versionhallinta on keskeinen osa aineiston dokumentaatiota ja sen eheyden varmistamista. Yksinkertaisin manuaalinen keino versionhallintaan on tiedostojen nimeäminen siten, että version numero merkitään nimen loppuun. Monet ohjelmistot myös tuottavat automaattista versiolokia, joten on hyvä tutustua käytetyn järjestelmän asetuksiin. Sovi tutkimusryhmän kanssa yhtenäinen käytäntö versioiden nimeämiseen ja versioiden synkronointiin sekä siihen, montako versiota aineistosta tuotetaan ja säilytetään. Jyväskylän yliopisto tarjoaa GitLab-palvelua koodin versionhallintaan.


Pseudonymisointi ja anonymisointi

Kun käsittelet tutkimuksessasi henkilötietoja, huolehdi niiden pseudonymisoinnista tai mahdollisuuksien mukaan anonymisoinnista. Henkilötiedot ovat pseudonyymejä, kun suorat tunnisteet on korvattu koodilla tai peitenimillä, ja koodiavainta säilytetään erillään analyysiaineistosta. Aineiston arkaluonteisuuden asteesta riippuen pseudonymisointi saattaa riittää suojauskeinoksi tutkimushankkeen aikana, kunhan koodiavainta säilytetään arkaluonteiselle aineistolle soveltuvassa paikassa ja sen pääsyoikeudet ja käsittelytavat on selkeästi sovittu ja määritelty. Tietosuojalainsäädännössä suositellaan suorien tunnisteiden hävittämistä heti siinä vaiheessa, kun niitä ei enää tarvita tutkimuksen tarkoitusta varten.

Anonymisointi tarkoittaa, että aineiston tietoja ei voida kohtuullisin ponnistuksin yhdistää yksittäiseen luonnolliseen henkilöön, eli kaikki tunnisteelliset tiedot on poistettu. Aineiston koosta ja laadusta riippuen tämä vaatii aikaa ja muita resursseja, joten toimenpiteet on hyvä suunnitella mahdollisimman varhaisessa vaiheessa ja kirjata aineistonhallintasuunnitelmaan. Tietoarkiston Aineistonhallinnan käsikirjassa on seikkaperäiset ohjeet määrällisten ja laadullisten aineistojen anonymisoinnin suunnitteluun ja toteuttamiseen.