RDM Checklist
Datamanagement is kort samengevat het creëren, opslaan, onderhouden, beschikbaar maken, archiveren en langdurig bewaren van onderzoeksdata. Hierbij wordt als einddoel vaak gerefereerd aan de zogenaamde FAIR principes: 'Findable, Accessible, Interoperable and Re-usable'.
Goed datamanagement is belangrijk om:
- De kwaliteit, vindbaarheid en toegankelijkheid van onderzoeksdata te borgen;
- De zichtbaarheid – impact - van het onderzoek te vergroten;
- Te voldoen aan eisen van de Universiteit en onderzoeksfinanciers.
Datamanagement uitgelegd in een korte video
Vanwege de gekozen cookie-instellingen kunnen we deze video hier niet tonen.
Bekijk de video op de oorspronkelijke website ofRDM Checklist
Goed datamanagement begint met een goede voorbereiding. Al bij het uitwerken van een onderzoeksaanvraag worden beslissingen genomen die bepalen of de onderzoeksdata op termijn geschikt zijn voor hergebruik door anderen. Veel financiers vragen daarom om een paragraaf over datamanagement in de onderzoeksaanvraag. Bij de start van een nieuw project wordt een datamanagementplan geschreven.
De Universiteit Leiden heeft een eigen DMP template, dat is gepubliceerd in het data archief Zenodo. Er staat ook een handig document naast met tips & tricks voor het invullen van het template.
Beleid en eisen
De Universiteit Leiden heeft beleid vastgesteld voor datamanagement. De belangrijkste bepalingen uit de regeling zijn dat:
- een datamanagementplan moet worden opgesteld voor alle onderzoeksprojecten vóór de start van het project;
- onderzoeksdata zorgvuldig moeten worden beheerd tijdens het onderzoek
- data gearchiveerd worden volgens internationale richtlijnen voor ten minste 10 jaar (FAIR).
Het universitaire beleid sluit aan bij de Nederlandse gedragscode Wetenschappelijke integriteit en eisen van onderzoeksfinanciers. In het rechter menu staan de volledige regeling en een bijbehorende begrippenlijst.
Kosten
In principe is bij de meeste projecten de capaciteit van het universitaire netwerk afdoende: voor het gebruik hiervan worden geen extra kosten in rekening gebracht, zolang het niet gaat om enorme hoeveelheden data.
Kosten voor datamanagement die tijdens een project worden gemaakt kunnen worden opgevoerd in de begroting bij de onderzoeksaanvraag. Denk daarbij bijvoorbeeld aan kosten voor tijdelijke, externe opslag bij veldwerk, extra capaciteit voor BIG data of voor ondersteuning bij het anonimiseren of het cureren en documenteren van data voor duurzame opslag. De facultaire informatiemanagers kunnen helpen bij het bepalen van dit soort benodigdheden en bijbehorende kosten.
Datastewards
Het Centre for Digital Scholarship helpt in de planningsfase. Het datamanagement team adviseert over onderzoeksaanvragen, het opstellen van een DMP en het begroten van kosten. Samen met ondersteuners bij de faculteiten, zoals de datastewards en privacy officers, geven we advies over veilige opslagvoorzieningen tijdens het onderzoek en het beheer van de data op de lange termijn.
Een goede organisatie van je onderzoeksdata is een waardevolle investering die zich terugbetaalt na afloop van het onderzoek. Met de juiste maatregelen blijven onderzoeksdata vindbaar, toegankelijk en bruikbaar.
Opslag van data
Bij de keuze van een voorziening om data op te slaan, moet rekening worden gehouden met de omvang van de data, samenwerkingspartners, gevoeligheid van de data, locatie van verzamelen, instrumenten etc. Bij voorkeur wordt gebruik gemaakt van het universitaire netwerk. Bestanden op het netwerk zijn beveiligd tegen ongewenste toegang en er wordt iedere nacht een back-up gemaakt. Soms is dat niet mogelijk, bijvoorbeeld tijdens veldwerk of als onderzoekers van buiten de universiteit toegang tot de data moeten hebben. De Research Data Services Catalogue biedt een actueel overzicht van voorzieningen voor de Universiteit Leiden.
Organiseren
Een logische en eenduidige naamgeving van databestanden zorgt ervoor dat iedereen wegwijs kan in gezamenlijke mappen. Sluit zo mogelijk aan bij gangbare werkwijzen in het vakgebied.
Ook de mappenstructuur zelf en velden in een spreadsheet verdienen een duidelijke naamgeving. Versiebeheer voorkomt dat data onnodig verdubbelen of juist overschreven worden.
Documenteren
Metadata zijn de gegevens over de data: deze helpen om de data beter vindbaar en begrijpelijk te maken. Deze gegevens kunnen op verschillende manieren aan de data gekoppeld zijn, ze kunnen geïntegreerd zijn in het bestand, maar ze kunnen ook in een aparte database of readme file bij de databestanden zijn gevoegd. Veel vakgebieden hebben eigen standaarden ontwikkeld om de data op zo uniform mogelijke wijze te documenteren. Als er nog geen standaard is, kan gebruik worden gemaakt van een algemene standaard als Dublin Core. Deze wordt door veel data archieven gebruikt.
Toegang tot data
In een samenwerkingsverband kan het belangrijk zijn om afspraken te maken over wie toegang heeft tot welke data. In het geval van privacygevoelige informatie of mogelijke patenten kunnen toegangsrestricties gelden Dit kan gevolgen hebben voor de plaats van opslag en vraagt om een duidelijk beleid. Hieronder bieden we meer informatie over het werken met persoonsgegevens.
Als het onderzoek is gedaan, is het tijd om het onderzoek naar de buitenwereld te brengen. Hoogstwaarschijnlijk in de vorm van een of meerdere artikelen, maar misschien ook wel in de vorm van publicatie van een dataset. In ieder geval moet de belangrijkste data na het onderzoek volgens de universitaire richtlijn voor 10 jaar opgeslagen worden. Maar welke data is eigenlijk belangrijk?
Selectiecriteria voor data
Sommige data heeft een grote waarde voor andere onderzoekers of de maatschappij, maar bewaren is niet altijd even noodzakelijk. Soms is dit gewoonweg te kostbaar vanwege de grootte en is repliceren goedkoper. In andere gevallen gaat het om gegenereerde data en is het model belangrijker. Stel daarbij de volgende vragen:
- Is de data uniek (bijvoorbeeld observatiedata)?
- Zijn de kosten voor replicatie qua geld en kosten erg hoog?
- Zijn er eisen om de data langdurig op te slaan, bijvoorbeeld vanuit de financier of de journal waarin het onderzoek is gepubliceerd?
Zie ook de hand-out ‘Data Selection for Archiving’.
Open data
Natuurlijk is het mogelijk om data op te slaan in een kluis op het eigen instituut, maar in sommige gevallen eist een journal of financier openstelling van de data. Dat heeft voor onderzoekers ook voordelen. Door datasets citeerbaar te maken, kan ook dit deel van het onderzoek credits krijgen. Bovendien kunnen toekomstige werkgevers zien hoe goed er met data wordt omgegaan. Daarnaast kan het openen van de data soms zelfs voor veel grotere eigen onderzoeksmogelijkheden zorgen.
Vereiste voor publicatie
Steeds meer journals eisen dat de data onderliggende aan een artikel als open data beschikbaar is gesteld via een data-archief of als 'supplementary materials'. Dit geldt niet alleen voor toptijdschriften als Science en Nature. In sommige gevallen zijn de data zelfs onderdeel van het peer-review. Houd hier tijdens het onderzoek al rekening mee, zodat niemand niet voor een verrassing komt te staan bij het daadwerkelijk publiceren; publiceren gaat immers een stuk vlotter als de data al in het juiste formaat zijn en op de juiste manier zijn beschreven.
Data publiceren
Als wetenschapper haal je het meeste uit je datapublicatie door het juiste archief te kiezen en supplementary materials te vermijden: dit zorgt ervoor dat de data betrouwbaar toegankelijk zijn voor in ieder geval de komende 10 jaar, gevonden en geciteerd kunnen worden via een permanente url (zoals de doi) en het vergroot de zichtbaarheid van de onderzoekers, die aan de data hebben gewerkt. Uit diverse onderzoeken blijkt dat artikelen waarbij de data beschikbaar is gesteld vaker geciteerd worden. In de Research Data Services catalogus is een overzicht te vinden van de belangrijkste archieven en in hoeverre deze voldoen aan de universitaire richtlijn. Een overzicht van bestaande data-archieven per discipline is ook te vinden op www.re3data.org.
Data als publicatie
Bij negatieve resultaten kan het zelfs interessant zijn om alleen de dataset te publiceren; op die manier is duplicatie van het onderzoek te voorkomen en misschien is de data zelf nog bruikbaar in een ander of uitgebreider onderzoek.
De dataset kan nog extra onder de aandacht worden gebracht door hem ook te beschrijven in een datajournal als GigaScience of Scientific Data. Daarin staan de belangrijkste metadata van de set: hoe hij is verzameld en te gebruiken. In sommige gevallen staan ook mogelijke toepassingen vermeld, waardoor een dataset eerder opgepikt wordt door anderen.
De Universiteit Leiden, maar ook de meeste subsidieverstrekkers stellen een datamanagementplan (DMP) aan het begin van nieuwe projecten verplicht.
In een DMP staat alle informatie over de te verzamelen data bij elkaar. Welke en hoe de data worden verzameld bijvoorbeeld, welke formats en documentatie worden gebruikt, welke voorzieningen beschikbaar zijn, of er juridische of ethische bezwaren zijn tegen het delen van data, hoe de data worden gedeeld en hoe de data zullen worden bewaard op de langere termijn.
Het CDS verzorgt een workshop "How to write a datamanagement plan" en heeft een handig overzicht van tips voor het invullen van het DMP gemaakt .
Templates
Er zijn verschillende templates beschikbaar voor een datamanagementplan.
- De Universiteit Leiden heeft een algemeen template voor een DMP.
M.i.v. 2021 mogen Leidse onderzoekers met een subsidie van ZonMW of NWO het universitaire DMP template (v4.3) gebruiken voor het schrijven van een DMP. Sommige andere financiers staan dit ook toe.
- Voor medewerkers van LUMC is er een eigen template in DMPonline.
Wanneer u met persoonsgegevens werkt, moet u volgens de Algemene Verordening Gegevensbescherming (AVG) vastleggen wat er met deze data gebeurt. In het verwerkingsregister onderzoek houdt u bij welke persoonsgegevens worden verzameld, wie er toegang heeft, hoe u de data beschermt en hoe lang deze gegevens worden opgeslagen. De universiteit ondersteunt u in privacyproof werken: op de medewerkersportal wordt uitgelegd wat u moet doen.
Vragen over de AVG en het verwerkingsregister onderzoek kunt u stellen aan uw privacy officer of het Privacyloket.
Tools & tips voor veilig digitaal werken
Op de medewerkersportal staat ook een informatief overzicht met tips om gegevens te beschermen.
We hebben een catalogus gemaakt voor onderzoekers met faciliteiten voor data(opslag), die zij bij hun onderzoek kunnen gebruiken
Research Data Services
Deze website helpt onderzoekers om beredeneerde keuzes te maken bij het plannen van hun datamanagement en dataopslag. Dat is handig bij het opstellen van projectvoorstellen, maar ook bij het aanvragen van opslagcapaciteit of het nadenken over archivering.
Daarbij hopen we dat het beschrijven van de faciliteiten eventuele tekortkomingen en beperkingen aan het licht bengt.
- Deze 9 videoinstructies introduceren op heel toegankelijke wijze onderwerpen die belangrijk zijn bij het managen van FAIR data of het schrijven van een datamanagementplan.
- De Checklist for Data Management When Working Abroad is een handreiking voor onderzoekers die veldwerk voorbereiden of anderzins off-campus data verzamelen.
- De MRI Data Sharing Guide is een handige flowchart met informatie over het al dan niet delen van MRI data en de benodigde informatie en ondersteuning.
- CESSDA data management expert guide is een gids voor onderzoekers uit de sociale wetenschappen om data Findable, Accessible, Interoperable and Reusable (FAIR) te maken.
- A Visual Guide to Practical Data De-Identification (van het Future of Privacy Forum) legt uit wat pseudonieme, gedeïdentificeerde en anonieme data zijn.