Deze richtlijnen worden momenteel opgemaakt in een co-creatie proces. Aanbeveling dus onder voorbehoud. Deze worden momenteel geregeld geüpdatet. Naar het einde van 2021 toe worden deze richtlijnen gefinaliseerd.

Hoe houden we gestructureerd data bij?

In het VLOCA traject zijn organisaties uit de verschillende domeinen van de watersector betrokken. Iedere organisatie houdt data bij in één of andere vorm. Om data te gaan delen en breder beschikbaar te maken binnen de watersector, is het de eerste stap ervoor zorgen dat deze data op een gestructureerde manier worden bijgehouden door de verschillende organisaties. Zodra dit gebeurt, kan er verder nagedacht worden over het delen van data.

Van 5 star open linked data naar VLOCA open data

Een manier om data meer gestructureerd bij te houden is de 5 star linked open data. Hierbij worden de data stap voor stap omgevormd zodat deze beter deelbaar worden. Dit gaat van aanbevelingen zoals “zorg dat de data online staan” en “in een gestructureerd formaat” tot “zorg ervoor dat de data gelinkt worden aan andere data”. In VLOCA zien we een gelijkaardig proces. We onderscheiden hier de minimale vereisten en de VLOCA-aanbevelingen:

Minimale vereisten

Excel of google sheet etiquette

Een excel tabblad, google sheet, of gelijkwaardig, is op zo gestructureerd dat elke kolom slechts één type data behandelt, en elke rij een nieuwe observatie is. De inhoud van de kolommen, die bovenaan worden beschreven door een header, verandert niet.

Machine-readable

Zie ook het VLOCA principe "machine-readable".

VLOCA aanbevelingen

Kies een duurzaam systeem voor data opslag en beheer

• Database en database model:

Om grote hoeveelheden data op te slaan, waar diverse parameters, observaties en context aan gekoppeld zijn, kan het nuttig zijn om de data in een database op te slaan waarbij een database model duidelijk de relaties tussen alle tabellen beschrijft. Voor de keuze van de geschikte database en het geschikte database model verwijzen we door naar de VLOCA richtlijn "Keuze van database".

• Data-bewerkingen en versiebeheer

Indien er bewerkingen gebeuren op data is het belangrijk om dit proces zo transparant mogelijk te maken. De ruwe data, waar er van vertrokken wordt, moeten altijd ongewijzigd blijven (zie ook richtlijnen rond "machine-readable"). De bewerkingen gebeuren scriptmatig en de output wordt afzonderlijk opgeslagen. Bij voorkeur, wordt dit proces ook bijgehouden in een metadata file, die beschrijft welke veranderingen de data ondergingen, en wordt er een nieuw versienummer gegeven aan de data.

• Kies het juiste data format

We onderscheiden ruwweg 3 types van data format:

1) Tabulaire data (Excel, google sheet, csv, SQL databases, etc.): Data wordt bijgehouden in tabel formaat met rijen en kolommen. Toevoegen van data en het nadien verwijderen is relatief eenvoudig, maar eens de structuur van de tabellen en de relaties ertussen zijn vastgelegd, vergt het enige moeite om deze aan te passen.

2) Tree data (xml, json): Een verzameling van “key-value pairs”, waarbij elke value ook een nieuwe key kan zijn of een lijst van keys. Data wordt inherent gestructureerd bij de aanmaak van de boom, maar het toevoegen of wijzigen van de structuur vergt weer enige moeite.

3) Graph data (RDF: Resource Description Framework): Een graaf is een lijst van relaties tussen objecten. Typisch worden 3 elementen onderscheiden (“tripplets”): het onderwerp, de relatie, en het object. Het onderwerp is gelinkt aan het object o.b.v. een relatie. Een graaf opstellen kost meer moeite dan bovenstaande 2 formaten, maar data toevoegen of samenvoegen is veel gemakkelijker. In een RDF wordt elk “ding” voorzien van een URI, die het “ding” uniek identificeert. Verwijzen naar data op het web kan zo ondubbelzinnig gebeuren.

Houd de OSLO data standaarden in het oog

Gezien de grote verscheidenheid aan data in de Vlaamse watersector, is het onbegonnen werk om tot een uniform datastandaard te komen. Het volgen van de VLOCA richtlijnen kan al een deel van deze zorg ontlasten.

Vereiste water gerelateerde metadata (aan te vullen in co-creatie process)

Ondanks de grote verscheidenheid aan use cases wordt toch aangeraden om bepaalde meta data altijd bij te houden. Volgende metadata worden aanbevolen:

  • Sensor
    • Type sensor
    • Leverancier
  • Metingen
    • Parameter naam
    • Parameter eenheid
    • Observatie
      • Ruwe meting
      • Gekalibreerde meting
  • Locatie
    • X,y,z
    • Locatie naam
    • Coordinate system
  • Producteigenaar
  • Installatie
    • Tijdstip installatie
  • Gevoeligheid
  • Onderhoud
    • Onderhoud start
    • Onderhoud stop
    • Onderhoud type
  • Data transfer
  • Batterij

Wat verder? Data delen en API’s

Eens data op een gestructureerde manier wordt bijgehouden, is het makkelijker om de data ook uit te wisselen. Een overzicht van de VLOCA richtlijnen hierover vind u op volgende pagina: #todo