Kvanttifysiikka, case-esimerkki

Best practices -esimerkki kvanttifysiikan alan dokumentaatiosta. Esimerkki on julkaistu apulaisprofessori Juha Muhosen (ORCID 0000-0001-6520-6999) ystävällisellä luvalla.

Datan tyyppi

Kerättävä data on empiiristä, ja sitä kerätään lukuisista instrumenteista. Data on tyypiltään enimmäkseen numeerisia taulukoita, joilla on tietyt yksiköt ja dimensiot.

Haasteet datan käsittelyssä

  • Datan dimensioiden ja yksikköjen siirtyminen datan mukana. Jos data tallennetaan vain Excel- tai tekstitaulukkomuodossa, yksiköt ja dimensiot eivät liiku automaattisesti sen mukana. Tästä syystä voi olla vaikea päätellä jälkikäteen, mistä yksiköstä on ollut kyse. Samasta syystä datan yhdistäminen oikeaan näytteeseen ja koelaitteiston mittaushetken tilaan voi olla haasteellista. Joskus mittauksissa muodostuu lisäksi isoja datatiedostoja, joten käytettävyyden kannalta on olennaista, että data on binääristä. Tällöin se on helposti ladattavissa ja luettavissa ja silti yhteensopivaa monien eri numeeristen ohjelmistojen kanssa.

Ratkaisut

  • Käytössä on avoimeen lähdekoodiin perustuva Hierarchical Data Format -tiedostoformaatti (versio HD5), joka on standardoitu ja siten yhteentoimiva tarvittavien ohjelmistojen kanssa. Formaatin erityinen etu on se, että se mahdollistaa datan yhdistämisen siitä manuaalisesti tuotettavaan metadataan (esim. koelaitteiston tila mittaushetkellä, mikä näyte on kyseessä, muita vastaavia kokeilijan muistiinpanoja). Data ja metadata sijoittuvat siis yhteen ja samaan tiedostoon, jolloin ne liikkuvat aina toistensa kanssa.

Dokumentaation toteutus

1. HD5-datatiedosto

Esimerkki datatiedoston rakenteesta:

" "

Esimerkki on laadittu Pythonilla, joka on vain yksi mahdollinen ohjelmisto. Olennaista esimerkissä on se, että kun käsitellään numeerista dataa, joka tässä esimerkissä on taajuus, on taajuuden kanssa numeroiden lisäksi tallennettu metatieto siitä, että yksikkö on hertsi. Esimerkissä käsitellään lisäksi toista numeerista dataa, aallonpituutta. Sen yhteyteen on vastaavasti tallennettu metatieto, että yksikkö on nanometri. Frekvenssi ja aallonpituus ovat niitä muutettavia koordinaatteja, joita mittauksissa muutetaan ja säädetään, jotta saadaan mitattua haluttua ilmiötä.

Mitattava muuttuja esimerkissä on 1) spektridataa 2D-taulukkomuodossa, riippuen aallonpituudesta ja taajuuden mukaan. Lisäksi metadataa on rikastettu muistiinpanoilla resolution band widthistä (mittauksen tietty parametri, kaistanleveys). Toisena muuttujana spektrin lisäksi tiedostossa on myös 2) jännite, joka riippuu aallonpituudesta. Jännitedata on 1D-taulukkomuodossa. Sitä mitataan samaan aikaan spektrin kanssa. Attribuutit-osioon kirjataan yleisiä muistiinpanoja, esim. kuka kokeen teki, lämpötila, teho, sekä vastaavaa relevanttia kontekstitietoa, joka auttaa tarvittaessa palaamaan omia jälkiä takaisin ja takaa toistettavuutta.

Mallin edut: Kun kaikki tiedot ovat yhdessä tiedostossa, metadata liikkuu numeerisen datan mukana. Lisäetuna mallissa on se, että kun tiedoston on lukenut johonkin numeeriseen ohjelmistoon, muuttujia voi kutsua näillä itse kirjatuilla selkeillä nimillä (frequency, wavelentgh,spektri, jne.), ja nimet siirtyvät ohjelmistoon automaattisesti siinä muodossa kuin ne on tallennettu. Ei siis tarvitse erikseen muistella, oliko tietyssä sarakkeessa taajuus vai aallonpituus, jne.

2. Datamuistiinpanot (data notes)

Itse datatiedoston lisäksi tarvitaan kokeilijamuistiinpanot, joihin kirjataan tarkemmin mm. tieto siitä, miksi data on mitattu, ja yksityiskohtaisempi kuvaus koeasetelmista. Näitä muistiinpanoja pidetään yllä OneNote-laboratoriopäiväkirjassa, jota säilytetään ja jaetaan laboratoriossa työskentelevien kesken yliopiston Sharepointissa. Päiväkirjassa on erilliset osiot eri kokeille. Lisäksi kunkin kokeen välilehdellä on päiväkohtaiset sivut, joihin kirjataan kokeen tunnistetiedot, selkeästi merkitty polkuosoite siihen S-aseman tai Nextcloudin projektikansioon, johon yksittäisen päivän datat on tallennettu, ja vapaasanainen kuvaus siitä, mitä on tehty. 

Kirjattavien tietojen osalta ryhmässä on sovittu, että kirjauksesta pitää aina löytyä kuvaus siitä, miten koetilanteessa esiintyneet ongelmat on ratkaistu, jotta niitä ei tarvitse ratkoa uudestaan. Lisäksi aina kirjataan tulevaa tutkimusjulkaisua varten kaikki olennaiset parametrit jotka pitää tietää, jotta dataan voidaan luottaa.

OneNoten edut: OneNote on esim. wikiä notkeampi alusta, ja sitä voidaan käyttää useasta laitteesta yhtäaikaisesti, sekä myös selaimella. Näin vältetään riskiä siitä, että eri kokeiden datat ja niitä kuvailevat muistiinpanot hukkuvat yksittäisten tutkijoiden henkilökohtaisiin tiedostoihin. Erillisiä muistikirjoja OneNoten lisäksi ei tarvita, mikä helpottaa itse kunkin omaakin työtä. OneNotessa on lisäksi käytössä asiasanoitus, jonka avulla dataa voi inventoida. OneNoten haku toimii kätevästi. Ei kuitenkaan vielä häshtägejä, ne voivat tehostaa hakua ja lisätä päiväkirjojen käytettävyyttä entisestään, kun dataa kertyy yhä enemmän.

3. Tutkimusryhmän sisäinen ohjeistus metadatan laatimiseen

Jupyterissa tai muussa käytettävässä ohjelmistossa säilytettävä demo-ohje, jossa kunkin tietokentän alle on tallennettu kommentiksi ohje siitä, mitä metadataa kuhunkin kohtaan koodataan. Demokirjauksessa datan tietojen syöttäminen, sen koodaaminen ja metadatan lisääminen on selitetty kirjallisesti kohta kohdalta. Mukaan kannattaa lisätä huomioita esim. datan nimeämistavasta, jotta nimeämiskäytäntö on yhtenäinen.

Demo-ohjeen etu: Helpottaa tiedon siirtämistä ryhmän sisällä ja toimii ns. meta-metadatana, joka kuvailee, miten metadata käytännössä laaditaan niin, että se liikkuu datatiedoston mukana ja sisältää kaiken tarvittavan tiedon.