Aineiston keruu ja analyysi
Haastatteluaineistojen keruu
- Keräätkö julkista tietoa (esim. arkistot, rekisterit)? Voit käyttää mitä tahansa välinettä. Huolehdi, että kopioit aineiston yliopiston tallennuspalveluihin mahdollisimman pian keruun jälkeen.
- Keräätkö ns. tavallisia eli ei-arkaluonteisia henkilötietoja? Käytä MS Teamsia tai yliopiston salauksilla suojattua laitetta. Tutustu ohjeeseen salassa pidettävän tiedon käsittelystä (Intranet Unossa).
- Keräätkö erityisiin henkilötietoryhmiin kuuluvia henkilötietoja tai muutoin arkaluonteisia tietoja? Käytä Zoomia tai yliopiston salauksilla suojattuja laitteita. Tutustu ohjeeseen salassa pidettävän tiedon käsittelystä (Intranet Unossa).
Haastattelut Zoomilla ja Teamsilla
Käytä haastatteluaineistojen keruussa Zoomia tai MS Teamsia, sillä yliopisto tarjoaa niiden käyttöön tukea, ja niiden asetukset on säädetty vastaamaan yliopiston vaatimuksia. Vaihtoehtoisesti voit käyttää yliopiston suojattua laitetta, jota voit tiedustella yksiköstäsi tai Digipalveluista.
Käytä aina Zoomia tai vaihtoehtoisesti yliopiston laitteella (nauhuri, puhelin tai kannettava tietokone), kun keräät haastattelussa erityisiin henkilötietoryhmiin kuuluvia henkilötietoja ja muutoin arkaluonteisia tai salassa pidettäviä tietoja. Ohjeet Zoomin käytöstä haastattelujen tietoturvalliseen tallentamiseen, siirtoon ja säilytykseen löydät intranet Unosta. Yliopiston laitteita käytettäessä huolehdi siitä, että nauhuri salaa tallennettavan sisällön, salaat erikseen puhelimen muistikortin puhelimen asetuksista, ja että käyttämäsi kannettavan tietokoneen tallennustila on salattu. Lisätietoa näistä löydät Intranet Unosta.
Ns. tavallisia, ei-arkaluonteisia henkilötietoja sisältävän haastatteluaineiston voit kerätä MS Teamsilla.
Haastattelut älypuhelimella
Älypuhelimen ominaisuudet kuten datan siirtyminen palveluntarjoajan pilvitallennustilaan vaarantavat salassa pidettävän aineiston turvallisuuden. Huomioi nämä, kun tallennat älypuhelimella haastatteluja, jotka sisältävät henkilötietoja ja/tai salassa pidettävää tietoa:
- Poista puhelimesta synkronointi valmistajan tai Googlen pilvipalveluihin.
- Siirrä tallenteet turvalliseen talletuspaikkaan (CollabRoom) ja poista ne puhelimesta.
- Käytä puhelimen lukitsemiseen salasanaohjeen mukaista, vähintään 6 merkin pituista PIN koodia.
- Aseta näytön aikakatkaisu on 30 sekuntiin.
- Ilmoita laitteen katoamisesta viipymättä Digipalveluiden palvelupisteeseen: palvelupiste@jyu.fi, puhelin 041 260 3600.
- Jos haastattelut sisältävät arkaluonteisia henkilötietoja tai käsiteltävä tieto on yliopiston ohjeen mukaista salaista tietoa, käytä lisäksi puhelimen lukitsemiseen 14 merkin mittaista salasanaa.
Litterointi
Ei-arkaluonteiset aineistot: Jyväskylän yliopiston O365:en pilvisovelluspakettiin sisältyvä MS Word Online soveltuu.
Arkaluonteisten aineistojen litteroinnin työkaluja testataan JYUssa keväällä 2023 (Whisper AI). Jos epäröit, mitä työkalua käyttää erityisryhmien henkilötietoja sisältävän tai muulla tavalla arkaluonteisen aineistosi litterointiin, ota yhteyttä Avoimen tiedon keskukseen: researchsupport-osc@jyu.fi.
Lisää tietoa litteroinnin periaatteista tutkimuksen kannalta löydät Tietoarkiston Laadullisen tutkimuksen menetelmäoppaasta.
Dokumentaatio tutkimuksen aikana
Tästä löydät johdattavat ohjeet siihen, mitä tutkimusaineistojen dokumentaatio tarkoittaa. tarkemmat ohjeet ja case-esimerkit löydät JYUn Dokumentaatio-oppaasta.
Oleelliset kysymykset: Miten dokumentoin aineistoni siten, että se on sekä minun että muiden löydettävissä, saavutettavissa ja käytettävissä myös huomenna, viikon kuluttua ja tarvittaessa vuosien päästä? Jos tuntematon tutkija löytäisi aineistoni, hahmottaisiko hän, mistä siinä on kyse? Mitä tietoja minun tulee kirjata ylös, jotta hän ymmärtäisi ja pystyisi käyttämään aineistoani?
Dokumentaatio on aineiston menetelmien, kokoamisen, rakenteen ja käsittelyn ajantasaista kuvailua tutkimuksen aikana. Sitä voi tutkimuksesta riippuen olla mm.
- muuttujien ja keskeisen sanaston sekä mittayksiköiden kirjallinen kuvailu
- taulukkomuotoinen inventaario haastattelujen perustiedoista, asetelmasta ja toteutuksesta
- koodikirjat, kenttä- ja laboratoriopäiväkirjat
- teknisten laitteiden tuottama tekninen metatieto kuten kalibraatiot.
Tutkimuksen perusaineistoja kerätään mm. kyselylomakkeilla, haastatteluilla, videoimalla sekä erilaisilla laitteilla ja antureilla. Erilaiset mittaus- ja tiedonkeruutavat tuottavat erilaisia metatieto- ja tiedostoformaatteja. Aineiston analyysivaiheessa raaka-aineistosta tuotetaan empiirisen tutkimuksen varsinaiset tulokset. Kun raaka-aineistoa käsitellään, yhdistellään ja analysoidaan, syntyy erilaisia työstö- ja tulosaineistoja. Tutkimuksen sujuvuuden ja toistettavuuden kannalta on tärkeää, että kuvailet näitä syntyviä aineistoja suunnitelmallisesti.
Miksi dokumentoida aineistoni?
- Ymmärrät itse vielä viikkoja ja kuukausia myöhemmin, mistä aineistossa on kyse. Pystyt inventoimaan ja arvioimaan sitä.
- Aineistosta tulee itsenäisesti ymmärrettävää ja siten uudelleenkäytettävää.
- Tulokset ovat toistettavia aina raakadatasta lähtien.
- Aineistoasi ei käytetä tai tulkita aineistoasi tahattomasti väärin.
- Toteutat hyvää tieteellistä käytäntöä ja varmistat, että aineistosi on mahdollisimman FAIR.
Hyviä käytäntöjä
- Pidä dokumentaatiota jatkuvasti ajan tasalla. Yhtä aikaa aineistotyön kanssa tehtynä se on pieni vaiva, mutta jälkikäteen käytännössä mahdotonta.
- Luo jokaiselle yksittäiselle aineistokokonaisuudelle oma hakemisto, johon tallennat sekä itse aineistotiedostot että kuvailutiedostot (ks. esimerkki alla).
- Säilytä kuvailutieto erillisissä tiedostoissa (esim. Readme-tiedosto, inventaarioexcelit) aineiston yhteydessä alakansiossa, jolle annat nimen /DOCUMENTATION. Tämä on tärkeää, jotta dokumentoivat tiedostot löytää sellainenkin henkilö, joka ei tunne aineiston rakennetta tarkemmin.
- Sovi tutkimusryhmäläisten kesken jo tutkimuksen suunnitteluvaiheessa yhtenäinen käytäntö tiedostojen ja kansioiden nimeämiselle.
- Sovi yhtenäinen tapa, jolla tallennatte tiedostot kansioihin ja alakansioihin. Looginen kansiorakenne tehostaa työtä ja vähentää katoamisriskiä.
- Cornellin yliopistolla on erinomainen malli kattavasta Readme-tiedostopohjasta.
- Suunnittele, millaista dokumentaatiota tuotat ja mistä sen löytää, jollet käytä /DOCUMENTATION-alakansiota.
- Onko alallasi käytössä vakiintunut metadatastandardi? Hyödynnä sitä.
- Käytä avoimia tiedostoformaatteja kaupallisten formaattien sijaan. Avoimet, standardimuotoiset tiedostoformaatit takaavat parhaiten tietojen saavutettavuuden vielä useiden vuosien kuluttua. Esimerkkejä löydät esim. UK Data Servicen formaattivertailutaulukosta.
Tieteenalakohtaisia ohjeita
- Jos tutkimuksesi perustuu jo olemassa olevaan, esimerkiksi arkisto- tai rekisteriaineistoon, tutustu esim. Tietoarkiston Tutkimusmenetelmien verkkokäsikirjan ohjeisiin sen dokumentoinnista. Myös valmiiseen aineistoon perustuvasta hankkeesta on hyvä luoda sen kuvailutiedot sisältävä kirjaus tutkimustietojärjestelmä Converikseen (ks. "Metadatan laatiminen ja ylläpitäminen" edempänä). Näin täytät mahdolliset rahoittajan ehdot aineiston avaamiselle ja takaat työsi näkyvyyden.
- Laadullisten aineistojen kuvailun ohjepankin löydät täältä. Aineistojen käsittelyn ja dokumentoivan kirjoittamisen ohjeita löydät myös Tietoarkiston Tutkimusmenetelmien verkkokäsikirjan Laadullisesta käsikirjasta. Voit käyttää kuvailun koostamisen mallina Tietoarkiston laadullisten aineistojen aineisto-oppaan rakennetta (ks. esimerkki).
- Määrällisten aineistojen dokumentaation perusmuistilistan löydät Tietoarkiston Tutkimusmenetelmien verkkokäsikirjan Kvantitatiivisesta käsikirjasta.
- Luonnontieteiden aineistojen dokumentaatioon on saatavilla räätälöityjä ohjeita elämätieteiden RDMKit-aineistonhallintaoppaassa.
Metatietojen laatiminen ja päivittäminen
Metatiedot eli tutkimustason metadata (study-level metadata) on yleistä bibliografista kuvailutietoa tutkimusaineistosta (esim. nimi, omistaja, tekijät, jakelija, aikaväli, lyhyt kuvaus, sijainti, lisenssitiedot jne.) Se on kuin aineiston käyntikortti, jolla kuvaat toisille, mistä aineistossasi on kyse. Ajantasaiset metatiedot ovat avain aineiston löydettävyyteen ja saavutettavuuteen. Metatietojen julkaiseminen täyttää JYUn ja tutkimurahoittajien avoimuuden edellytyksen silloin, kun itse aineistoa ei voida perustellusta syystä julkaista. Tutkimuksen edetessä metatiedot on hyvä pitää jatkuvasti ajan tasalla. Tällöin ne pysyvät hallittavissasi eivätkä tuota merkittävästi lisätyötä.
Jyväskylän yliopistossa metatietoja ylläpidetään tutkimustietojärjestelmä Converiksen tutkimusaineisto-osiossa. Jokaisesta tutkimusaineistosta on hyvä laatia Converikseen kuvailutiedot sisältävä kirjaus. Kun kuvailet aineistoja, jaottele ne sellaisiksi kokonaisuuksiksi, että voit kuvailla kunkin datasetin yksiselitteisesti. Tarkemmin kuvailtuja aineistoja voit niputtaa Converiksessa suuremmiksi kokonaisuuksiksi laajemman emoaineiston alle. Kun kirjaat aineistosi metatiedot Converikseen, voit samalla tilata Converiksen kautta tukea aineistonhallinnan kysymyksiisi yliopiston aineistoasiantuntijoilta. Yksityiskohtaiset ohjeet metatietojen kirjaamiseksi tutkimuksesi eri vaiheissa löydät metatietojen kirjausohjeista (Intranet Unossa).
Videotutoriaali (4 min.): Mitä tietoja tutkimusaineistostani kirjaan Converikseen?
Videotutoriaali (1,5 min.): Miksi kirjaan ja julkaisen aineistoni metatiedot?
Videotutoriaali (1,5 min.): Missä vaiheessa tutkimusta kirjaan metatiedot?
Videotutoriaali (7 min.): Metatietojen kirjaaminen Converikseen: näin aloitat
Videotutoriaali (4 min.): Useasta osasta koostuvan tutkimusaineiston kuvailu
Aineiston laatu ja eheys
Aineiston yhtenäisyydestä ja laadusta huolehtiminen on tärkeä osa aineistonhallintaa. Suunnittele ja kuvaa aineistonhallintasuunnitelmassasi laadunvarmistusta koskevat vaatimukset sekä toimenpiteet, joilla turvaat sen, ettei aineisto katoa tai korruptoidu sen käsittelyn ja säilytyksen aikana. Aineistotyypistä, laitteistosta ja menetelmistä riippuen eheyttä ja laatua voidaan varmistaa esimerkiksi
- kalibroimalla mittausvälineitä havaintotarkkuuden ja -skaalan monitoroimiseksi
- tarkistuttamalla litteroitu haastatteluaineisto ulkopuolisella asiantuntijalla
- käyttämällä alan standardoituja menetelmiä, laitteita ja ohjelmistoja
- ottamalla datasta tarkistussumma puuttuvien tai poikkeavien arvojen havaitsemiseksi.
Versionhallinta
Versionhallinta on keskeinen osa aineiston dokumentaatiota ja sen eheyden varmistamista. Yksinkertaisin manuaalinen keino versionhallintaan on tiedostojen nimeäminen siten, että version numero merkitään nimen loppuun. Monet ohjelmistot myös tuottavat automaattista versiolokia, joten on hyvä tutustua käytetyn järjestelmän asetuksiin. Sovi tutkimusryhmän kanssa yhtenäinen käytäntö versioiden nimeämiseen ja versioiden synkronointiin sekä siihen, montako versiota aineistosta tuotetaan ja säilytetään. Jyväskylän yliopisto tarjoaa GitLab-palvelua koodin versionhallintaan.
Pseudonymisointi ja anonymisointi
Kun käsittelet tutkimuksessasi henkilötietoja, huolehdi niiden pseudonymisoinnista ja mikäli mahdollista, anonymisoinnista.
Milloin aineistoni on pseudonyymiä?
Pseudonymisointi tarkoittaa sitä, että suorat tunnisteet on korvattu koodilla tai peitenimillä. Koodiavainta säilytetään erillään analyysiaineistosta. Aineiston arkaluonteisuuden asteesta riippuen pseudonymisointi saattaa riittää suojauskeinoksi tutkimushankkeen aikana, kunhan koodiavainta säilytetään arkaluonteiselle aineistolle soveltuvassa paikassa ja sen pääsyoikeudet ja käsittelytavat on selkeästi sovittu ja määritelty.
Suorat tunnisteet (nimi, hetu, osallistujan sähköpostiosoite, kasvokuva, ääni) kannattaa pyrkiä hävittämään heti siinä vaiheessa, kun niitä ei enää tarvita tutkimuksen tarkoitusta varten.
Niin kauan kuin tiedot on mahdollista palauttaa tunnistettaviksi koodiavaimen tai muiden tietojen avulla, ne ovat pseudonyymejä, eivät anonyymejä, ja eurooppalainen tietosuoja-asetus sekä kotimainen tietosuojalaki koskevat tutkimustasi. Lue lisää pseudonymisoinnin ja anonymisoinnin eroista täältä.
Milloin aineistoni on anonyymiä?
Anonymisointi tarkoittaa sitä, että aineiston tietoja ei voida enää kohtuullisin ponnistuksin yhdistää yksittäiseen elossa olevaan luonnolliseen henkilöön, eli kaikki tunnisteelliset tiedot on poistettu. Tällöin tietoja ei voida enää kohtuullisin ponnistuksin palauttaa tunnistettaviksi. Yksittäisiä henkilöitä ei tällöin voi tunnistaa kasvokuvasta tai äänitallenteesta, tai tekstiaineiston yksittäistä henkilöä koskevat tiedot on luokiteltu ja karkeistettu niin, että yksittäisen henkilön tunnistaminen ei käytännössä ole mahdollista.
Anonymisoituun aineistoon ei myöskään voi enää yhdistää uusia henkilötietoja.
Aineiston koosta ja laadusta riippuen anonymisointi vaatii huomattavasti aikaa ja muita resursseja, joten toimenpiteet on hyvä suunnitella mahdollisimman varhaisessa vaiheessa ja kirjata aineistonhallintasuunnitelmaan. Tietoarkiston Aineistonhallinnan käsikirjassa on seikkaperäiset ohjeet määrällisten ja laadullisten aineistojen anonymisoinnin suunnitteluun ja toteuttamiseen.
Anonymisointisuunnitelma
Tietoarkistolla on tarjolla suunnitelmapohja kvantitatiivisten ja kvalitatiivisten aineistojen tunnisteiden poistamiseen eli anonymisoimiseen.