Een data formaat is de organizatie van informatie volgens een aantal ge-predefinieerde specificaties. Voorbeelden van data formaten zijn tekst bestanden, binaire bestanden, AVRO data bestanden, Parquet bestandsformaten, ... Een data formaat is dus een fysische representatie (serialisatie) van data (waarden) die meestal geoptimaliseerd is voor efficientie van data opslag of data uitwisseling. De specificatie kan impliciet of expliciet (bv. volgens een officiele standaard) zijn.
Data kan op die manier aangeboden worden als :
- gestructeerde data. Deze data heeft een gepredefinieerd data formaat meestal als de structuur van een verzameling alvorens die opgeslagen wordt. Het beste voorbeeld hier is de relationele database, waar de data geformatteerd is in precies gedefinieerde velden, om gemakkelijk opgevraagd te kunnen worden, bijvoorbeeld door SQL. Voorbeelden can zulke data formaten zijn RDF, Parquet, Avro. Deze data worden vaak opgeslagen in data warehouses.
- semi-gestrucutureerde data. Is gestructureerde data die niet voldoet aan de formele structuur van een relationele database, maar wel tagging of andere markers gebruikt om verschillende elementen van elkaar te scheiden. De data heeft een zelf-beschrijvend formaat. Voorbeelden van zule data formaten zijn JSON, CSV, XML, NGSI-LD, ...
- ongestructureerde data. Dit is data die wordt opgeslagen zonder data formaat. Voorbeelden zijn text en binaire blobs, video, email, ... Deze data wordt vaak opgeslagen in data lakes.