FAIR checklist – Nieuwe dataset

Wanneer je als organisatie wil omgaan met data, dan is het belangrijk dat deze voldoet aan de FAIR Principes. Dit draaiboek beschrijft welke stappen je kan doorlopen om een nieuwe dataset conform de FAIR (F: Vindbaar, A:Toegankelijk, I:Interoperable en R:Herbruikbaar) principes in gebruik te nemen.

SMIT-VUB maakte een checklist op die kan worden doorgenomen om een nieuwe dataset te evalueren in functie van deze FAIR principes.

Stap 1: Identificeer de dataset

Op basis van de onderstaande eigenschappen kan je de cruciale informatie over een dataset identificeren/verzamelen. Verzeker dat de infofiche zorgvuldig wordt ingevuld voor elke dataset.

Eigenschap Antwoord
Dataset naam
Dataset afkorting
Dataset aanbieder
Dataset eigenaar
Dataset domein
Dataset beschrijving
Dataset locatie
Frequentie van data
Kalibratie van data
Gebruikslicentie
DPO instructies

Stap 2: Bepaal de gebruiksgeschiktheid

Voldoet de dataset aan de doelen van de use case?

Indien ja, ga ook na of er blokkerende elementen zijn waardoor de data niet zou mogen gebruikt worden. Raadpleeg in functie van de geldende GDPR wetgeving de Data Protection Officer van jouw organisatie of de organisatie vanwaar de data afkomstig is.

Duid aan, bij de dataset identificatie, indien er aanbevelingen zijn op het vlak van privacy.

Stap 3: Evalueer de ruwe dataset

Vooraleer enig datagebruik of dataverwerking te gaan doen, is het belangrijk na te gaan of de ruwe dataset beantwoordt aan de FAIR principes. Voor de verschillende FAIR Principes werden vragen opgesteld die je als potentieel gebruiker van een dataset kan gaan beantwoorden. Deze vragen kunnen je helpen om te begrijpen of de ruwe dataset voldoet aan de FAIR Principes.

FAIR principe Categorie Vraag Antwoord Opmerking
Toegankelijk Data Context Werd de ruwe dataset samen met een dataschema geleverd?
Herbruikbaar Data Context Bevat de dataset extra data die de doelen kunnen aanvullen?
Toegankelijk Data Context Werd de ruwe dataset samen met een datavocabulaire geleverd?
Toegankelijk Data Context Is de dataset voldoende actueel in de context van de use case?
Toegankelijk Data Context Is de geschiedenis van de dataset beschikbaar? Kunnen we eerdere data van de huidige dataset controleren?
Privacy Data Context Weten we met welke reden de data werd verzameld?
Vindbaar Data Kwaliteit Weten we hoe de data is verzameld?
Toegankelijk Data Kwaliteit Is de data in een toegankelijk formaat? (Een formaat dat snelle verwerking mogelijk maakt?)
Herbruikbaar Data Kwaliteit Is er een datastandaard toegepast?
Vindbaar Data Kwaliteit Weet ik hoe de gegevens zijn verwerkt door de gegevensverzamelaar?
Veiligheid Data Kwaliteit Zijn de gegevens beschermd tegen mogelijke risico’s?
Veiligheid Data Kwaliteit Kan ik alleen de delen van de dataset zien die ik mag zien?
Toegankelijk Data Kwaliteit Staat het protocol een authenticatie- en autorisatieprocedure toe waar nodig?
Herbruikbaar Data Kwaliteit Wordt de data vrijgegeven met een duidelijke en toegankelijke datagebruikslicentie?
Toegankelijk Data Traceerbaarheid Is de metadata toegankelijk, ook als de data niet meer beschikbaar is?
Vindbaar Data Traceerbaarheid Ken ik de herkomst van de data?
Efficiency Data Traceerbaarheid Weet ik het doel van de uitgever van de data?
Vindbaar Data Traceerbaarheid Wordt de data beschreven met rijke metadata?
Herbruikbaar Data Traceerbaarheid Is de databron onveranderlijk?
Vindbaar Data Traceerbaarheid Is de verzamellocatie van elk datapunt gekend? (Link naar geodata)
Toegankelijk Data Kwaliteit Is het protocol open, gratis en universeel toepasbaar?
Herbruikbaar Data Kwaliteit Is er een mogelijkheid om de data fundamenteel te herzien via samenwerking met de producent?
Uitwisselbaar Data Kwaliteit Heeft de data betrekking op een gemeenschappelijk gestandardiseerd glossarium?
Privacy Data Kwaliteit Bevat de data gevoelige informatie (persoonlijke, financiële, intellectuele eigendomsgegeven)?

Stap 4: Beslis of de kwaliteit voldoet

Na deze evaluatie moet er een beslissing worden genomen of de dataset voldoende bruikbaar is.  Enkel indien je van oordeel bent, op basis van de bovenstaande evaluatiestappen dat jij (of je team, organisatie) akkoord bent/is ga je door naar de volgende stap.

Stap 5: Verwerk de data of laat de data verwerken

Op basis van de uitkomst van de voorgaande stap en de doelstellingen die jij of je organisatie heeft, kan je de dataset verwerken of laten verwerken tot een voor jou/jouw organisatie bruikbare dataset.

Stap 6: Evalueer de resulterende dataset

Eens de dataset verwerkt werd, kan je ook nog een FAIR Principes evaluatie maken van de dataset die resulteerd uit deze verwerking. De vragen hieronder, opgesteld voor de verschillende FAIR Principes kunnen hierbij helpen. Op basis van deze evaluatie kan je beslissen of er nog verdere actie nodig zijn of niet voor het gebruik van de data.

FAIR Principe Categorie Vraag Antwoord Opmerking
Uitwisselbaar Data Context Ondersteunt de dataset meerdere gebruiksscenario’s?
Toegankelijk Data Context Komt de dataset overeen met een gedeeld glossarium / gepubliceerde ontologie?
Efficiëntie Data Context Ziet de data er geloofwaardig uit?
Efficiëntie Data Context Ondersteunt de dataset de organisatiedoelen en/of een gekozen toepassing ikv een use case.
Efficiëntie Data Context Ondersteunt de dataset de aannames/vereisten van het model?
Vindbaar Data Context Zijn de metadata toegelicht?
Vindbaar Data Traceerbaarheid Krijgen de gegevens een wereldwijd unieke en persistente ID toegewezen?
Vindbaar Data Traceerbaarheid Is de data technisch geïndexeerd en machinedoorzoekbaar?
Vindbaar Data Traceerbaarheid Wordt de data beschreven met rijke metadata?
Toegankelijk Data Kwaliteit Is de data voldoende volledig (ontbrekende waarden) voor het doel van het project?
Herbruikbaar Data Kwaliteit Is de data te koppelen aan andere gebruikte datasets?
Toegankelijk Data Kwaliteit Voldoet de data aan het formaat van het datalakehouse?
Herbruikbaar Data Kwaliteit Wordt de data vrijgegeven met een duidelijke en toegankelijke datagebruikslicentie?
Veiligheid Data Kwaliteit Is de data beschermd tegen risico?
Herbruikbaar Data Kwaliteit Kan de dataset worden gevalideerd met real-life metingen? Is de data reeds gevalideerd door de data eigenaar?
Uitwisselbaar Data Kwaliteit (Als het antwoord ja was in de ruwe lijst - stap 3): Komt de dataset overeen met de gemeenschapsnormen?
Privacy Data Kwaliteit (Als het antwoord ja was in de ruwe lijst - stap 3): Voldoet de dataset aan de AVG (Algemeen Verordening Gegevensbescherming)-normen?
Toegankelijk Data Kwaliteit (Als het antwoord ja was in de ruwe dataset lijst - stap 3): Is het voor het doel van dit project belangrijk om het protocol open, gratis en universeel aan te bieden?

Stap 7: Stel een periodieke herevaluatie van de dataset in functie van de gekozen toepassing.

Het is belangrijk om de datakwaliteit te blijven monitoren, en dus ook om bij te houden of de dataset nog steeds zal voldoen aan de FAIR Principes. Daarom is het aangeraden om een periodieke herevaluatie van de dataset te houden, in functie van de gekozen toepassing.