Määrällinen pitkittäistutkimus, case-esimerkki

Tämä best practices-esimerkki perustuu Jyväskylän yliopiston kasvatustieteiden laitoksella toteutetun pitkittäistutkimushankkeen dokumentaatioon. Esimerkki on julkaistu yliopistonlehtori Kenneth Eklundin luvalla.

1. Hakemistopuu

Kerättävälle aineistokokonaisuudelle laaditaan projektin verkkolevylle tai Nextcloud-projektikansioon tutkimusasetelman, mittareiden ja mittaustehtävien mukainen kansiohakemisto. Hakemistoon luodaan oma kansio myös hallinnollisille asiakirjoille, johon kootaan mm. sopimusasiakirjat.

" "

  • Nimeä ja järjestä kansiot, tiedostot ja muuttujat käyttäen yhdenmukaista logiikkaa. 
  • Kirjaa tiedostojen järjestämisen logiikka ja nimeämiskäytännöt Readme-ohjeeseen (ks. kohta 3). 
  • Tässä yhteydessä on hyvä päättää siitä, millaisissa kokonaisuuksissa aineisto tallennetaan. Tässä esimerkissä kukin tehtävä eli mittari on tallennettu omaksi tiedostokseen, koska 1) tällöin tehtäväkuvaukset ja tehtävälomakkeet on helppo linkittää (ks. alla) ja 2) datatiedostoja on helppo koostaa kullekin tutkijalle hänen tarpeidensa mukaisesti.
  • Laadi kustakin mittarista englanniksi vapaasanainen, tekstimuotoinen menetelmäkuvaus (.docx). Laadi kuvaus sillä tarkkuudella, jolla se tulee kuvata tutkimusjulkaisussa. Näin voit jatkossa poimia kuvauksen julkaisuun suoraan tai vain kevyin muokkauksin. Samalla vältetään se riski, että eri tutkijat kirjoittavat samasta tehtävästä omat, toisistaan eroavat kuvaukset!
  • Kuvailu sisältää käytetyn testin lähdeviitteen, ko. mittauksen yksityiskohtaiset tiedot ja toimenpiteet. Kuvauksen tarkoitus on, että mittaus on sen avulla toistettavissa. Kuvauksen tulee sisältää myös tarkka tieto siitä, miten analyyseissa käytetty muuttuja on muodostettu esim. SPSS-syntaksilla. Näin SPSS-analyysin toimenpiteet tulevat dokumentoiduksi myös ohjelmiston ulkopuolelle, ja tutkimus on entistä läpinäkyvämpää. Kuvailu tallennetaan hakemistoon selkeästi nimettynä. 
  • Menetelmäkuvauksen lisäksi on syytä tallentaa kustakin tehtävästä ns. tehtävälomake, mikäli sellaista on käytetty. Siitä voi tarvittaessa tarkistaa esim. tutkittavalle annetut toimintaohjeet ja yksittäisten osioiden sisältö.
  • SPSS-vihje: Kun laadit syntakseja, laadi samanaikaisesti ohjelmiston kommenttityökalulla ohjelmistoon upotetut kuvaukset siitä, miten keskiarvomuuttujat on laskettu. Tallenna myös keskiarvomuuttujan laskemissyntaksi muuttujan kuvaukseen (variable label). Muutoin arvokas tieto muuttujien muodostamisesta jää dokumentoimatta. Siitä koituu moninkertaista työtä, ja puutteelliset merkinnät vähentävät aineiston uudelleenkäyttöarvoa.

2. Käyttöliittymä 

"Käytän tähän pitkittäisaineistoon sisältyvää datatiedostoa X. Mistä löydän nopeasti ko. datan kuvauksen, jotta voin käyttää sitä artikkelissani?"

Taulukkomuotoinen tutkijan käyttöliittymä aineistoihin tekee työstä virtaviivaista ja tehokasta. Aineistot ovat näin myös  saavutettavampia. Kun tutkija perehtyy aineistoon oman tutkimuskohteensa näkökulmasta, hän löytää nopeasti tarvitsemansa mittarit ja pääsee niihin yhdellä klikkauksella. Jos tutkija käyttäisi pelkkää hakemistoa, hänen tulisi ymmärtää koko kansio- ja tiedostopuun rakennetta. Excelissä yksi silmäys riittää: 

" "

 

Muistilista hakemiston ja käyttöliittymän laatimiseen

  • Kun tutkimussuunnitelma on hyväksytty ja tutkimuksen pääkohteet sekä mittarit ovat selvillä, on aika suunnitella kerättävälle aineistolle ja dokumenteille alustava projektikohtainen hakemistorunko sekä taulukkomuotoisen käyttöliittymän välilehdet ja kaksi sen ensimmäistä saraketta (mittarit ja ajankohdat/lomakkeet). Tässä alkuvaiheessa riittävät pelkät otsikot suunnitelluista tehtävistä. Linkit mittarikuvauksiin ja lomakkeisiin lisätään siinä vaiheessa, kun ne valmistuvat lopulliseen muotoonsa.
  • Hakemistorunko auttaa varmistamaan, että kaikki tarpeellinen tieto tulee kerättyä ja kaikki projektissa syntyvä dokumentaatio tulee kootuksi johdonmukaiseen järjestykseen yhteen paikkaan.
  • Mittarien yksityiskohdat kannattaa kirjata tarkasti ja käyttöliittymä kannattaa linkittää valmiisiin dokumentteihin heti kun yksityiskohdat ovat selvillä. Näin vältetään tärkeiden yksityiskohtien unohtumisen riski ja varmistetaan tutkimuksen läpinäkyvyys ja toistettavuus.
  • Käyttöliittymän kolme seuraavaa saraketta, aineisto, muuttujat ja jakaumat sekä luotettavuus, liittyvät suoraan kerättyyn aineistoon. Ne täytetään siinä vaiheessa, kun dataa alkaa kertyä. Ei kuitenkaan kannata odottaa, että koko aineisto on koossa, vaan aineistotiedostojen rakenne ja muuttujien nimeämislogiikka kannatta sopia tutkijoiden kesken jo ensimmäisten mittausten jälkeen. Näin turvataan se, että muuttujat nimetään yhtenäisellä tavalla. Jos kukin tutkija käyttää omaa logiikkaansa, päädytään jälkikäteen vaivalloisiin korjauksiin.
    Esimerkiksimuuttujanimien tehtävä- ja mittarikohtaiset lyhenteet (ks. kuva 2) voidaan sopia jo ennen aineistokeruun alkamista.
  • Pseudonyymi pohjatiedosto, jota käytetään kun luodaan muita SPSS-datatiedostoja, on syytä tarkistaa huolellisesti tietojen osalta, ennen kuin se otetaan tutkimusryhmä jäsenten kesken käyttöön.  Kun tiedot ovat yhdessä paikassa eivätkä tutkijat lataa niitä omille laitteilleen, taataan maksimaalinen tietoturva, työ tehostuu, ja tutkijat välttävät virheet, joita syntyy helposti tietoja syötettäessä.
  • On erittäin tärkeää sopia jo varhaisessa vaiheessa mielellään yksi vastuuhenkilö ja varahenkilö, jotka hallinnoivat aineiston ja dokumentaation koostamista tutkimusryhmän sopimalla tavalla. Vain näillä henkilöillä tulisi olla editointioikeudet kaikkiin kansioihin ja tiedostoihin. Muille tutkimusryhmän jäsenille riittävät lukuoikeudet. Lisäksi on syytä sopia, millä periaatteilla aineistoa luovutetaan yhteiskumppaneiden käyttöön. On suositeltavaa, että yhteiskumppaneille ei anneta oikeuksia aineistoon, vaan että aineiston vastuuhenkilö kokoaa heille heidän tarvitsemansa datatiedostot. Näin maksimoidaan tutkittavien tietosuoja ja minimoidaan tietojen sotkeentumisen riski, sillä kukaan ei pääse erehdyksessä esimerkiksi tallentamaan virheellistä versiota datatiedostosta.
  • Kun yksittäiset tutkijat tai tutkimusavustajat tallentavat tiedostoja aineistonkeruun aikana, on paras käytäntö, että sovittu vastuuhenkilö tallentaa ne lopulliseen sijaintipaikkaan ko. aineistonkeruun päätyttyä. Samalla vastuuhenkilö voi tarkistaa ko. tiedoston esim. duplikaattien ja mahdollisten virheellisten arvojen varalta, sekä linkittää sen tutkijan käyttöliittymään kaikkien käytettäväksi.
  • Lisäksi sovitaan kirjallisesti aineiston käytön pelisäännöt mm. mahdollisista käyttölisensseistä ja julkaisemisesta, eteenpäin luovuttamisesta ja tutkijoiden velvollisuudesta luovuttaa käyttämiensä summamuuttujien syntaksit aineiston hallinnoijalle, jotta muut tutkijat voivat hyödyntää niitä myöhemmin.
  • Pitkäikäisistä, suositeltavista tiedostoformaateista löytyy UK Data Archiven suosituslistaus.

3. Readme-opas

Verkkolevyn juureen laaditaan yllä kuvaillun dokumentaation kuvaileva ja sen selitteet sisältävä Readme-dokumentti, jota täydennetään tutkimuksen edetessä. Dokumentti toimii aloitusoppaana ja lukuohjeena, jonka avulla esimerkiksi projektiin liittyvä uusi tutkija saa helposti kokonaiskuvan aineiston sisällöstä ja organisointiperiaatteista. Kuvailu otsikoidaan esim. "Principles used in structuring and organizing data in the X project". Dokumentti sisältää selostuksen datapuun ja käyttöliittymän rakenteesta ja elementeistä: 

1. Aineiston peruskuvaus
2. Käyttöehto- ja lupatiedot
3. Aineiston sijainti ja hakemiston organisoinnin kuvaus
4. T
iedostojen ja muuttujien nimeämiskäytäntöjen kuvaus
5. K
äyttöliittymän kuvaus ja selitteet.

Esimerkki: Käyttöliittymän sarakkeiden selitteet taulukkomuodossa

Column n:o

Content

Link

1

Name of the task

Detailed description of the task that can be used in scientific articles, in method sections

2

Assessment time

Forms of the task including task instructions used and specific items used in the task

3

Name of the SPSS data file

Data files in SPSS (.sav).

4

Names of the composite scores that is recommended to use when analysing the data

Syntax files of the SPSS (.sps), where can be seen, how the composite scores were calculated from the raw variables

5

Descriptions of distributions and reliabilities of the composite scores

Output files of the SPSS (.spv) including calculation of the composite scores, their reliabilities and distributions

6

Presentations and publications

If the task has been used in a presentation or publication, it is linked here