Sawubona Commons: want erfgoedinstellingen zijn geen semantische webbedrijven

De Datahub Koloniale Collecties werkt inmiddels bijna twee jaar. Dat klinkt misschien als een vreemd begin van een nieuwe blog, maar daarin zit een probleem. Want juist nu de infrastructuur is geland, wordt zichtbaar hoe moeilijk deelname aan een nationaal dienstplatform eigenlijk is. Niet omdat instellingen geen waardevolle collectiedata hebben, maar omdat vrijwel het hele model impliciet is gebouwd voor organisaties die de taal van linked data, semantische standaarden en infrastructuren al spreken.

De afgelopen anderhalf jaar liet die vraag me niet meer los: kunnen we een infrastructuur bouwen zonder dat instellingen eerst semantische webbedrijven hoeven te worden? Op Europese schaal?

Dat gaan we proberen in ons nieuwe project Sawubona Commons.

Het probleem begon in productie

De afgelopen jaren werkte ik samen met musea, onderzoekers, ontwikkelaars, erfgoedinstellingen en gemeenschappen van herkomst aan een infrastructuur voor het consortium koloniale collecties in Nederland. Niet als zoveelste portaal waar nog een dataset ingestopt moest worden, maar als een poging om zichtbaar te maken wat er verspreid over collecties, instellingen en systemen aanwezig is.

Het resultaat is de Datahub Koloniale Collecties.

Een productiesysteem. Geen prototype. Geen powerpointpresentatie met pijlen richting een stip op de horizon. Gewoon een echt platform dat draait met echte data, echte koppelingen en dus ook echte problemen. Onderzoekers gebruiken het. Gemeenschappen vinden objecten terug die eerder praktisch onzichtbaar waren. Kunstenaars laten zich erdoor inspireren. Instellingen leveren data aan. Een platform dat ik met P-322 nog steeds graag beheer.

Maar juist toen de datahub begon te landen, begon ook iets anders zichtbaar te worden.

Wie kan er eigenlijk meedoen?

De wat ongemakkelijke vraag is niet langer óf het platform werkt, maar wie er eigenlijk kan meedoen.

Want hoewel Nederland in erfgoedland graag spreekt over interoperabiliteit, linked data, gedeelde thesauri en semantische standaarden, blijkt de praktijk weerbarstiger dan de beleidsdocumenten meestal suggereren. Vrijwel alle instellingen die succesvol op de infrastructuur kunnen aansluiten, zijn organisaties die technisch al relatief volwassen zijn. Instellingen met ontwikkelaars. Instellingen met kennis van linked data. Instellingen die de taal van infrastructuur al spreken.

En dat wringt.

Want zodra deelname afhankelijk is van een hoge mate van technische volwassenheid, dan ontstaat vanzelf een infrastructuur waar steeds dezelfde partijen aan meedoen. Niet omdat iemand dat expliciet besluit, maar omdat infrastructuren altijd technische eisen moeten stellen. Wie RDF begrijpt, mag meedoen. Wie SPARQL-endpoints beheert, sluit aan. Wie weet wat CIDOC-CRM mappings zijn, publiceert linked data. Wie die vertaalslag niet kan maken, blijft afhankelijk van leveranciers, subsidiepartners, het Netwerk Digitaal Erfgoed, of grotere instellingen.

Erfgoedinstellingen zijn geen semantische webbedrijven

En eerlijk gezegd moeten erfgoedinstellingen geen semantische webbedrijven worden om aan een dienstplatform mee te mogen doen.

Het zijn organisaties die objecten beheren, restauraties uitvoeren, depots draaiende houden, onderzoekers begeleiden en met kleine teams proberen om collecties toegankelijk te maken. Vaak draaien er registratiesystemen die aangeschaft zijn om collectiebeheer mogelijk te maken, niet om onderdeel te worden van een nationale linked-data infrastructuur.

En als dat al ingewikkeld blijkt in Nederland: een land met organisaties als het Netwerk Digitaal Erfgoed, gedeelde terminologieën en bijna twintig jaar ervaring met semantische standaarden; wat betekent dat dan op Europese schaal?

Koloniaal erfgoed is een Europees probleem

Want koloniaal erfgoed stopt natuurlijk niet bij de Nederlandse grens.

Eeuwen van handel, roof, verzameldrift en wetenschappelijke classificatie hebben geleid tot een diaspora van objecten die verspreid over heel Europa terechtkwamen. Vrijwel ieder Europees land beheert erfgoed dat in die koloniale context verworven werd, ook wanneer dat land zelf geen klassieke koloniale mogendheid was.

Koloniaal erfgoed is daarmee niet alleen een nationale verantwoordelijkheid, maar ook een Europese.

En precies daarom begon de bestaande architectuur steeds meer te wringen.

Want het probleem ligt veel dieper dan de technologie alleen.

Interoperabiliteit is niet neutraal

De afgelopen twintig jaar hebben we als erfgoedinstellingen bijna reflexmatig gedacht dat interoperabiliteit vooral ontstaat door meer standaardisatie, meer harmonisatie en meer linked data. Als systemen maar dezelfde modellen gebruiken, dezelfde terminologieën spreken en dezelfde semantische structuren volgen, dan zou samenwerking vanzelf ontstaan.

Alleen is een collectie geen neutrale technische grondstof die je probleemloos kunt samenvoegen zonder iets kwijt te raken. Iedere dataset draagt sporen van instellingen, onderzoekers, historische classificaties, lokale keuzes, veranderende terminologie en collectiebeheerders die soms tientallen jaren met hetzelfde materiaal gewerkt hebben.

Dat zie je juist in de details.

De grote gladstrijkmachine

Een collectiebeheerder beschrijft in een registratiesysteem bijvoorbeeld niet simpelweg “masker”. Onder dat ene woord hangen materiaalbeschrijvingen, lokale benamingen, oude classificaties, alternatieve interpretaties, twijfelgevallen en historische spellingen. Soms staan er opmerkingen bij van een conservator die inmiddels dertig jaar overleden is. Soms verwijst een term naar een lokaal classificatiesysteem dat alleen binnen die instelling gebruikt wordt. Vanuit erfgoedperspectief is dat rijke kennis. Vanuit een centraal infrastructuurmodel wordt het al snel ruis die “opgeschoond” moet worden.

Dus begint ergens in het dienstplatform de grote gladstrijkmachine te draaien.

Een lokale term wordt vervangen door een voorkeursterm uit een thesaurus. Een historisch twijfelgeval krijgt alsnog één officiële classificatie omdat het model nu eenmaal één waarde verwacht. Een complex materiaalveld wordt opgesplitst zodat het beter past binnen een centrale semantische structuur. Een oude spelling verdwijnt omdat die niet matcht met de terminologie van het platform.

Technisch gezien wordt de dataset consistenter. Maar tegelijkertijd verdwijnen ook sporen van hoe die collectie lokaal begrepen wordt.

Wanneer infrastructuur interpretatiemacht wordt

En een paar maanden later verschijnt er ergens een nieuwe linked dataset waarvan niemand meer exact weet waarom bepaalde keuzes ooit gemaakt zijn. Alleen dat het “voor de interoperabiliteit” nodig was. Dat probleem is niet alleen technisch.

Het is ook macht.

Want zodra een infrastructuur gaat bepalen welke terminologie dominant wordt, welke semantische structuur “correct” is en welke interpretaties zichtbaar blijven, ontstaat er automatisch een machtscentrum. Niet omdat mensen slechte bedoelingen hebben, maar omdat centralisatie van data bijna altijd leidt tot centralisatie van interpretatie.

Dat zien we overal terug: bij grote nationale en internationale aggregatieplatforms, bij Europese infrastructuren, bij dienstplatformen die beginnen als neutrale technische oplossingen en langzaam veranderen in plekken waar impliciet wordt vastgesteld hoe erfgoed beschreven hoort te worden.

En dat vind ik ongemakkelijk.

Want veel erfgoedinfrastructuren zeggen in theorie dat instellingen eigenaar van hun eigen data blijven. Maar in de praktijk verschuift interpretatiemacht alsnog naar het dienstplatform, simpelweg omdat daar de harmonisatie plaatsvindt.

Dan ben je uiteindelijk geen infrastructuur meer.

Dan ben je een vertaalmachine geworden die bepaalt welke versie van de werkelijkheid dominant zichtbaar wordt.

Waarom een cache iets anders is dan een aggregator

Daarom begon vorig jaar een andere gedachte te ontstaan. Misschien moeten dienstplatformen helemaal geen aggregator van erfgoeddata willen zijn. Misschien moeten ze veel bescheidener durven worden.

Wie mijn eerdere verhalen over aggregatoren en caches gelezen heeft, voelt waarschijnlijk al waar dit heen gaat.

Daarvoor hebben we de eerste stap gezet in de datahub Koloniale Collecties. Maar ook dat platform beschikt nog steeds over een centrale knowledge graph met linked data aangemeld in het NDE datasetregister.

Mensen gaan daarnaar verwijzen. Dat voelt dus niet als een cache.

En dat is ook de grootste kritiek die ik van andere experts kreeg: "Je zegt wel cache. Maar wat is dan het verschil met een aggregator?"

Eens.

Dus moet die linked data kennisgraaf en het SPARQL-endpoint eruit. Scheelt ook een boel structurele kosten in het project.

Toen begon het model te kantelen

Dat werd verder concreet tijdens de NDE HackaLOD van 2025. Daar hebben we voorzichtig geëxperimenteerd met een andere aanpak. Kunnen we verder bouwen op de open source infrastructuur van de Datahub Koloniale Collecties, maar zonder dat instellingen eerst een volledige linked-data operatie hoeven op te zetten? Kunnen we deelname loskoppelen van zware infrastructuureisen?

Dat experiment bleek verrassend succesvol.

Voor de gemeente Arnhem bouwden we binnen 24 uur een nieuwe datahub waarbij complexe archeologische collectiegegevens rechtstreeks vanuit bestaande spreadsheets en exports verwerkt konden worden. Geen maandenlang implementatietraject. Geen semantische migratie vooraf. Geen groot harmonisatieproject voordat de gemeente kon meedoen.

Niet omdat de bron ineens perfect gestandaardiseerd was, maar omdat we de transformaties transparant maakten.

Toen viel eigenlijk het kwartje.

Het probleem is niet dat instellingen “slechte data” hebben. Het probleem is dat infrastructuren ervan uitgaan dat alle semantische complexiteit eerst opgelost moet worden vóórdat instellingen mogen deelnemen.

Daarmee kantelt het architectuurmodel.

Waar de linked data nu naartoe gaat

In plaats van een aggregator die data naar binnen slurpt, harmoniseert, permanent opslaat, en opnieuw publiceert, bewegen we nu echt naar die tijdelijke cache. Waar we in de Datahub Koloniale Collecties mee begonnen, gaan we in Sawubona veel verder doortrekken.

Geen infrastructuur die probeert om de bron te vervangen, maar een infrastructuur die verrijkingen tijdelijk samenbrengt zonder de oorspronkelijke data te absorberen.

Dat lijkt misschien een klein technisch verschil, maar conceptueel verandert bijna alles.

Een aggregator zegt impliciet: “lever je data aan, dan maken wij er een betere versie van.”

Een cache zegt: “jouw bron blijft leidend, wij voegen tijdelijk extra perspectieven toe.”

Dat betekent ook dat linked data niet verdwijnt. Integendeel. Alleen verschuift de plek waar die transformatie plaatsvindt.

Niet meer diep verborgen ergens in een centrale black box van een dienstplatform, maar expliciet zichtbaar in een transparante data makelaar die tussen bronhouder en infrastructuur in staat.

Dat schreef ik ook in mijn reactie op het recente NDE-rapport: Dienstplatformen zijn geen datalagen — tijd om dat te erkennen.

De data makelaar als transparante tussenlaag

De data makelaar maakt transformaties reproduceerbaar. Iedere mapping. Iedere harmonisatie. Iedere thesaurusmatch. Iedere verrijking. Niet als mysterieuze semantische magie die alleen dataspecialisten begrijpen, maar als een controleerbaar proces waarvan zichtbaar blijft welke bronwaarden, keuzes en provenance eronder liggen.

Iedere nacht haalt de makelaar brondata op, voert transformaties uit, schrijft tijdelijke geoptimaliseerde data weg voor de datahub, en genereert daarnaast linked-data dumps voor partijen die ze nodig hebben. Verschillende partijen hebben nu eenmaal verschillende representaties nodig.

Dat betekent ook dat instellingen niet eerst perfecte CIDOC-CRM of Linked Art implementaties hoeven te bouwen voordat ze mogen meedoen. De infrastructuur verschuift van “lever perfecte data aan” naar “vertel de makelaar hoe data getransformeerd moet worden.”

Dat is een fundamenteel andere houding.

Daardoor kun je, zelfs als je het zou willen, als dienstplatform geen centrale waarheid meer zijn. Geen aggregator. Geen semantisch machtscentrum. Door de data makelaar krijg je meerdere reproduceerbare perspectieven naast elkaar. Geen dominante dataset, maar transparante verrijkingslagen die onafhankelijk van de bron aangeboden worden.

En daarmee nog belangrijker: als erfgoedinstelling hoef je niet eerst een semantisch webbedrijf te worden voordat samenwerking überhaupt mogelijk is.

Sawubona Commons

En daarom bestaat nu Sawubona Commons.

In de tweede helft van 2025 schreef ik samen met Cindy Zalm van het Wereldmuseum een nieuwe Europese subsidieaanvraag. We zijn ontzettend blij dat ECHOES, het programma rond de European Collaborative Cloud for Cultural Heritage (ECCCH), ons de mogelijkheid geeft om deze ideeën nu op Europese schaal verder te ontwikkelen.

Niet als nieuwe hype rond AI, knowledge graphs of semantische infrastructuren. Maar juist als een poging om erfgoedinfrastructuur nog praktischer, transparanter en eerlijker te maken.

Sawubona Commons mag geen Europese aggregator worden die lokale systemen gladstrijkt totdat alles netjes binnen één model past. Als het project slaagt dan maakt het juist ruimte voor het ongemakkelijke feit dat erfgoeddata altijd context, geschiedenis, interpretatie en lokale praktijk met zich meedraagt.

Dat maakt interoperabiliteit misschien rommeliger dan beleidsdocumenten graag zien. Maar waarschijnlijk ook eerlijker.

Dat is denk ik de belangrijkste les van de afgelopen jaren: erfgoedinstellingen hebben niet nog méér standaardisatie nodig, maar infrastructuren moeten veel beter leren omgaan met verschillen zonder die meteen weg te willen harmoniseren.

Hoe dat er technisch, organisatorisch, en als netwerk precies gaat uitzien, gaan we de komende maanden binnen Sawubona Commons uitvinden. Niet vanuit een theoretisch model, maar in productie. Met echte collecties, echte instellingen en onvermijdelijk ook weer echte problemen.