Data Veracity gaat over de (on)zekerheidsfactor, waarheidsgetrouwheid van de data. Is de data die aangeleverd wordt accuraat genoeg, is ze betrouwbaar, is de kwaliteit hoog genoeg voor mijn doeleinden ? Veel big data wordt niet gebruikt, omdat de informatie die uit de data komt niet als betrouwbaar gezien wordt. Het beheren van data veracity, door bijvoorbeeld context toe te voegen aan de data of de data semantisch te linken met bestaande definities, ... is een grote uitdaging. Data governance kan hier ook een grote rol in spelen. Of aangeleverde data een bepaald doel dient (om bv. in AI gebruikt te worden) is een enorme uitdaging, maar fundamenteel voor het succes van data intelligence. Dit gaat ook over de informatie over de herkomst en betrouwbaarheid van de databron : is de databron gekend, de context van de data productie, werd de data door iemand anders aangepast, ...
enkele voorbeelden van oorzaken van Data Veracity :
- Bugs : data wordt verkeerd getransformeerd door een bug
- Abnormaliteiten : 2 naast elkaar liggende weerstations vertonen totaal verschillende waarden
- Fake Data : valse berichten verspreid in sociale media
- Data Lineage : een organizatie krijgt data van verschillende bronnen en ontdekt dat 1 van de bronnen zeer onnauwkeurig is, maar beschikt niet over de Data Lineage informatie om te weten waar die bron is verwerkt op verschillende plaatsen.