FAIR checklist – Nieuwe dataset
Wanneer je als organisatie wil omgaan met data, dan is het belangrijk dat deze voldoet aan de FAIR Principes. Dit draaiboek beschrijft welke stappen je kan doorlopen om een nieuwe dataset conform de FAIR (F: Vindbaar, A:Toegankelijk, I:Interoperable en R:Herbruikbaar) principes in gebruik te nemen.
SMIT-VUB maakte een checklist op die kan worden doorgenomen om een nieuwe dataset te evalueren in functie van deze FAIR principes.
Stap 1: Identificeer de dataset
Op basis van de onderstaande eigenschappen kan je de cruciale informatie over een dataset identificeren/verzamelen. Verzeker dat de infofiche zorgvuldig wordt ingevuld voor elke dataset.
Eigenschap | Antwoord |
Dataset naam | |
Dataset afkorting | |
Dataset aanbieder | |
Dataset eigenaar | |
Dataset domein | |
Dataset beschrijving | |
Dataset locatie | |
Frequentie van data | |
Kalibratie van data | |
Gebruikslicentie | |
DPO instructies |
Stap 2: Bepaal de gebruiksgeschiktheid
Voldoet de dataset aan de doelen van de use case?
Indien ja, ga ook na of er blokkerende elementen zijn waardoor de data niet zou mogen gebruikt worden. Raadpleeg in functie van de geldende GDPR wetgeving de Data Protection Officer van jouw organisatie of de organisatie vanwaar de data afkomstig is.
Duid aan, bij de dataset identificatie, indien er aanbevelingen zijn op het vlak van privacy.
Stap 3: Evalueer de ruwe dataset
Vooraleer enig datagebruik of dataverwerking te gaan doen, is het belangrijk na te gaan of de ruwe dataset beantwoordt aan de FAIR principes. Voor de verschillende FAIR Principes werden vragen opgesteld die je als potentieel gebruiker van een dataset kan gaan beantwoorden. Deze vragen kunnen je helpen om te begrijpen of de ruwe dataset voldoet aan de FAIR Principes.
FAIR principe | Categorie | Vraag | Antwoord | Opmerking |
Toegankelijk | Data Context | Werd de ruwe dataset samen met een dataschema geleverd? | ||
Herbruikbaar | Data Context | Bevat de dataset extra data die de doelen kunnen aanvullen? | ||
Toegankelijk | Data Context | Werd de ruwe dataset samen met een datavocabulaire geleverd? | ||
Toegankelijk | Data Context | Is de dataset voldoende actueel in de context van de use case? | ||
Toegankelijk | Data Context | Is de geschiedenis van de dataset beschikbaar? Kunnen we eerdere data van de huidige dataset controleren? | ||
Privacy | Data Context | Weten we met welke reden de data werd verzameld? | ||
Vindbaar | Data Kwaliteit | Weten we hoe de data is verzameld? | ||
Toegankelijk | Data Kwaliteit | Is de data in een toegankelijk formaat? (Een formaat dat snelle verwerking mogelijk maakt?) | ||
Herbruikbaar | Data Kwaliteit | Is er een datastandaard toegepast? | ||
Vindbaar | Data Kwaliteit | Weet ik hoe de gegevens zijn verwerkt door de gegevensverzamelaar? | ||
Veiligheid | Data Kwaliteit | Zijn de gegevens beschermd tegen mogelijke risico’s? | ||
Veiligheid | Data Kwaliteit | Kan ik alleen de delen van de dataset zien die ik mag zien? | ||
Toegankelijk | Data Kwaliteit | Staat het protocol een authenticatie- en autorisatieprocedure toe waar nodig? | ||
Herbruikbaar | Data Kwaliteit | Wordt de data vrijgegeven met een duidelijke en toegankelijke datagebruikslicentie? | ||
Toegankelijk | Data Traceerbaarheid | Is de metadata toegankelijk, ook als de data niet meer beschikbaar is? | ||
Vindbaar | Data Traceerbaarheid | Ken ik de herkomst van de data? | ||
Efficiency | Data Traceerbaarheid | Weet ik het doel van de uitgever van de data? | ||
Vindbaar | Data Traceerbaarheid | Wordt de data beschreven met rijke metadata? | ||
Herbruikbaar | Data Traceerbaarheid | Is de databron onveranderlijk? | ||
Vindbaar | Data Traceerbaarheid | Is de verzamellocatie van elk datapunt gekend? (Link naar geodata) | ||
Toegankelijk | Data Kwaliteit | Is het protocol open, gratis en universeel toepasbaar? | ||
Herbruikbaar | Data Kwaliteit | Is er een mogelijkheid om de data fundamenteel te herzien via samenwerking met de producent? | ||
Uitwisselbaar | Data Kwaliteit | Heeft de data betrekking op een gemeenschappelijk gestandardiseerd glossarium? | ||
Privacy | Data Kwaliteit | Bevat de data gevoelige informatie (persoonlijke, financiële, intellectuele eigendomsgegeven)? |
Stap 4: Beslis of de kwaliteit voldoet
Na deze evaluatie moet er een beslissing worden genomen of de dataset voldoende bruikbaar is. Enkel indien je van oordeel bent, op basis van de bovenstaande evaluatiestappen dat jij (of je team, organisatie) akkoord bent/is ga je door naar de volgende stap.
Stap 5: Verwerk de data of laat de data verwerken
Op basis van de uitkomst van de voorgaande stap en de doelstellingen die jij of je organisatie heeft, kan je de dataset verwerken of laten verwerken tot een voor jou/jouw organisatie bruikbare dataset.
Stap 6: Evalueer de resulterende dataset
Eens de dataset verwerkt werd, kan je ook nog een FAIR Principes evaluatie maken van de dataset die resulteerd uit deze verwerking. De vragen hieronder, opgesteld voor de verschillende FAIR Principes kunnen hierbij helpen. Op basis van deze evaluatie kan je beslissen of er nog verdere actie nodig zijn of niet voor het gebruik van de data.
FAIR Principe | Categorie | Vraag | Antwoord | Opmerking |
Uitwisselbaar | Data Context | Ondersteunt de dataset meerdere gebruiksscenario’s? | ||
Toegankelijk | Data Context | Komt de dataset overeen met een gedeeld glossarium / gepubliceerde ontologie? | ||
Efficiëntie | Data Context | Ziet de data er geloofwaardig uit? | ||
Efficiëntie | Data Context | Ondersteunt de dataset de organisatiedoelen en/of een gekozen toepassing ikv een use case. | ||
Efficiëntie | Data Context | Ondersteunt de dataset de aannames/vereisten van het model? | ||
Vindbaar | Data Context | Zijn de metadata toegelicht? | ||
Vindbaar | Data Traceerbaarheid | Krijgen de gegevens een wereldwijd unieke en persistente ID toegewezen? | ||
Vindbaar | Data Traceerbaarheid | Is de data technisch geïndexeerd en machinedoorzoekbaar? | ||
Vindbaar | Data Traceerbaarheid | Wordt de data beschreven met rijke metadata? | ||
Toegankelijk | Data Kwaliteit | Is de data voldoende volledig (ontbrekende waarden) voor het doel van het project? | ||
Herbruikbaar | Data Kwaliteit | Is de data te koppelen aan andere gebruikte datasets? | ||
Toegankelijk | Data Kwaliteit | Voldoet de data aan het formaat van het datalakehouse? | ||
Herbruikbaar | Data Kwaliteit | Wordt de data vrijgegeven met een duidelijke en toegankelijke datagebruikslicentie? | ||
Veiligheid | Data Kwaliteit | Is de data beschermd tegen risico? | ||
Herbruikbaar | Data Kwaliteit | Kan de dataset worden gevalideerd met real-life metingen? Is de data reeds gevalideerd door de data eigenaar? | ||
Uitwisselbaar | Data Kwaliteit | (Als het antwoord ja was in de ruwe lijst - stap 3): Komt de dataset overeen met de gemeenschapsnormen? | ||
Privacy | Data Kwaliteit | (Als het antwoord ja was in de ruwe lijst - stap 3): Voldoet de dataset aan de AVG (Algemeen Verordening Gegevensbescherming)-normen? | ||
Toegankelijk | Data Kwaliteit | (Als het antwoord ja was in de ruwe dataset lijst - stap 3): Is het voor het doel van dit project belangrijk om het protocol open, gratis en universeel aan te bieden? |
Stap 7: Stel een periodieke herevaluatie van de dataset in functie van de gekozen toepassing.
Het is belangrijk om de datakwaliteit te blijven monitoren, en dus ook om bij te houden of de dataset nog steeds zal voldoen aan de FAIR Principes. Daarom is het aangeraden om een periodieke herevaluatie van de dataset te houden, in functie van de gekozen toepassing.