Data Variety is de verscheidenheid aan data in een data verzameling, of in een probleem domein. Een grote verscheidenheid maakt het heel moeilijk om de data te uniformiseren, en dus qua IT systemen te optimaliseren. Het is 1 van de grootste uitdagingen in cross-domein applicaties. Verscheidenheid kan bijvoorbeeld uitgedrukt worden in data formaten of structuren, die het meer of minder mogelijk maken om data binnen te lezen in machines.
Er bestaan 3 types data :
- gestructureerde data : verwijst naar data die voorgedefineerd and geformatteerd is (heeft dus een data formaat), meestel in een structuur due gemakkelijk kan weggeschreven worden in een opslag medium. Een mooi voorbeeld hier is een relationele database. De data wordt zo in tabellen geformatteerd dat deze gemakkelijk kunnen opgeslagen en bevraagd worden (bv via SQL). Gestructureerde data is dus vrij rigide in zijn data formaat en hangt af van de creatie van een data model dat definieert welke data types moeten gebruikt worden en hoe die moeten opgeslagen en verwerkt worden. Voorbeelden zijn RDF, Parquet, Avro. Deze data wordt vaak opgeslagen in data warehouses.
- semi-gestructureerde data : dit is gestructureerde data die niet echt past in een formele structuur van een relationele database, maar wel nog tagging of andere markering gebruikt om elementen te scheiden van elkaar. Het is data met een "zelf-beschrijvend formaat". Een typisch voorbeeld zijn smartphone foto's die ongestructureerde beeld data bevatten, maar met metadata met de opnamentijd, locatie en andere geindentificeerde informatie. Typische data formaten zijn JSON, CSV, XML,... IoT data bijvoorbeeld die in het formaat JSON-LD is, kan beschouwd worden als semi-gestructureerd.
- ongestructureerde data : dit is data die opgeslagen wordt als een "blob", zonder formaat en structuur en die dus onbehandeld blijft to deze gebruikt wordt. Voorbeelden zijn CSV, TSV, Excel, email, text blobs, sociale media posts, IoT sensor data, satelietbeelden, ... Deze data wordt vaak opgeslagen in data lakes.