Voor- en nadelen data: Moeten we meer of minder verzamelen voor een eerlijkere samenleving?

Wat zijn de voor- en nadelen van data? Een wereld zonder dataverzameling is bijna niet meer voor te stellen. Of toch wel? Dat vraagt dataonderzoeker en verslaggever Meike Schipper zich - na het toeslagenschandaal en Syri - af. Voor Lilith gaat ze op onderzoek uit.

Jarenlang heb ik getwijfeld over mijn seksuele geaardheid. Uiteindelijk weet ik precies op wie ik val wanneer ik op degene val. Echter, als ik mijn geaardheid ergens in een enquête of een formulier moet invullen, zorgt dat voor hernieuwde twijfel. Geen van de meest voorkomende opties 'hetero/homo/bi past bij mijn eigen beleving, dus kies ik willekeurig en genereer daarmee data die niet representatief is. Toch wordt er in de samenleving van alles gebaseerd op deze data, opties op datingapps, bijvoorbeeld. Maar ook de discriminatie- en veiligheidscijfers van het CBS, waar vervolgens de overheid haar beleid op inricht. 

Als mens kan ik het veranderlijke karakter van mijn geaardheid inmiddels omarmen. Een computer kan deze dubbelzinnigheid echter niet verwerken. Het systeem van een computer is binair: het bestaat uit enen en nullen. Er zijn geen grijstinten mogelijk. De prominente rol van data in onze samenleving dwingt me om een keuze te maken, en maakt het ‘label’ onderdeel van mijn identiteit. De noodzaak van de nieuwe Transgenderwet en de wens om zelf beschikking te hebben over hoe jouw genderidentiteit wordt vastgelegd, zou je ook in hetzelfde licht kunnen zien. 

Voor- en nadelen data

In allerlei vakgebieden worstelt men met het dilemma rondom dataverzameling over persoonskenmerken. De overheid, bedrijven en organisaties verzamelen data over burgers om inzicht te krijgen in de samenstelling van de samenleving en ons gedrag. Vaak wordt die data ingezet om de toekomst te voorspellen en generalisaties te maken. Data kan helpen om discriminatie zichtbaar te maken, maar het kan ook discriminatie mogelijk maken. Veel mensen ervaren ongemak bij het stellen en beantwoorden van dit soort persoonlijke vragen. Daarnaast plaatst het de samensteller van de enquête in een machtspositie. Diegene bepaalt immers de categorieën waarbinnen de antwoorden moeten passen.

Kevin Guyan, auteur van het boek Queer Data, definieert het datadilemma als ‘de potentiële voordelen van meegeteld worden versus het risico van meegeteld worden op manieren die incorrect zijn en ongelijkheid bevorderen’. Daardoor vraag ik mij af of we meer of minder data moeten verzamelen om een gelijkwaardige samenleving te creëren? 

Minder data

Data en cijfers hebben de reputatie van objectiviteit en betrouwbaarheid, maar de vraag is of dat terecht is. De manier waarop data verzameld, verwerkt en geanalyseerd wordt heeft veel invloed op de uitkomst. Wanneer we data over mensen verzamelen, wordt de menselijke ervaring van bijvoorbeeld seksualiteit, gender, culturele achtergrond of klasse ingedeeld in categorieën, in vaststaande kaders. 

In haar boek Frictie schrijft filosoof Miriam Rasch over de allesoverheersende ideologie van het dataïsme: “het geloof dat alles wat bestaat te vertalen is in digitale data en dat daarmee de wereld de goede kant op te duwen is. Deze leer brengt zijn eigen geloofsartikelen met zich mee: dat méér data altijd beter is, dat data neutrale elementen zijn, dat er nog zoveel meer te dataficeren valt.” 

Rasch is huiverig voor “het idee dat de mens in zo’n mozaïek te vatten is, even voorspelbaar en mechanisch werkt als de computer die hem beschrijft. (..). Ergens in het proces van dataficatie ga ik zelf verloren en niemand lijkt zich daarom te bekommeren, alsof ik een goedkoop offer ben op het altaar van het dataïsme.” 

Soms verliest de mens het inderdaad van de data, en het toeslagenschandaal is in Nederland daar misschien wel het bekendste voorbeeld van. Data over de herkomst van mensen werd actief ingezet om het risico op fraude in te schatten, en daarvan kennen we inmiddels de desastreuze gevolgen. 

Het vergelijkbare Systeem Risico Indicatie (SyRI) dat door de overheid gebruikt werd om fraude met uitkeringen en belastingen te bestrijden, werd in 2020 door de rechtbank beoordeeld als zijnde in strijd met het Europees Verdrag voor de Rechten voor de Mens. Maar zou ondanks dat er door de bevolking tegen is gestemd toch ingevoerd kunnen worden, blijkt uit het laatste nieuws. Een ander voorbeeld is de Leefbaarometer, waarin de etniciteit en migratieachtergrond van bewoners werd meegewogen als factor die een wijk minder ‘leefbaar’ maakte. Deze indicatoren zijn na veel klachten in maart 2022 aangepast. De gemeente Rotterdam werd in 2021 door de Rekenkamer op haar vingers getikt, omdat zij onder andere de indicator ‘taalvaardigheid’ meenam in de risico inschatting van uitkeringsfraude. 

Dit zijn allemaal voorbeelden van algoritmische discriminatie en een algoritme begint altijd bij data. Data kán - los van de intenties - worden ingezet om bepaalde groepen te discrimineren. Kunnen we er dan niet beter helemaal mee stoppen? 

Meer data

“Dat zou zonde zijn”, zegt David Graus, Lead Data Science bij Randstad desgevraagd. “Je neemt dan niet alle voordelen die de technologie heeft in acht.” Zo zou data ook kunnen worden ingezet om discriminatie op te sporen, onderbelichte problemen zichtbaar te maken en gericht beleid te ontwikkelen om specifieke groepen te ondersteunen. Hoogleraar Lokke Moerel uit zich in een opiniestuk in het FD ook kritisch over het ‘magische denken dat niet weten tot meer eerlijkheid leidt’. Ze betoogt dat het taboe op het verzamelen van discriminatie-gevoelige persoonskenmerken moet worden doorbroken, omdat je algoritmen pas kunt inzetten om ongelijkheid te verminderen, als je precies weet wie tot bepaalde minderheidsgroepen behoort. Met deze gedachte in het achterhoofd kondigden de vier grootste gemeentes van Nederland eind 2021 aan dat ze meer data gedreven willen gaan werken in de aanpak van discriminatie, zodat ze beter inzicht hebben in welke problemen er daadwerkelijk spelen.

Ook voor het Centraal Bureau voor de Statistiek is het stoppen met het verzamelen van data logischerwijs geen optie. Toch zoeken ze zichtbaar naar de juiste methoden om dit te doen. In een aantal jaar veranderden ze de terminologie rondom herkomst van burgers van ‘allochtoon’ naar ‘persoon met een migratieachtergrond’, ‘migranten’ en ‘kinderen van migranten’. Deze veranderingen illustreren hoe overheden, organisaties en bedrijven tobben over de risico’s en de kansen van werken met data. “We vinden het belangrijk om dit te blijven doen. Maar de manier waarop je het doet, doet ertoe,” vertelt Ruben van Gaalen, CBS onderzoeker. 

Wat zijn de voor- en nadelen van data? Wanneer je besluit om data wel in te zetten, stuit je al snel op praktische problemen, wetgeving en ethische vraagstukken. Welke data verzamel je wel, en welke niet? Hoe verzamel je die data het best? Welke categorieën en termen gebruik je? Data lijkt niet meer weg te denken uit de hedendaagse samenleving. Of dat zo is, betwijfel ik en onderzoek ik graag verder. Maar we zullen in de tussentijd toch een manier moeten vinden om door het datadoolhof te komen. 

We zijn bij Lilith aan het experimenteren met journalistieke vormen. Dit was een introductie aan data en discriminatie. Er valt natuurlijk nog veel meer over te zeggen (en te weerleggen). Bevalt dit artikel en wil je meer weten over datavergaring? Houd de website in de gaten.  Of heb je zelf iets toe te voegen? Laat je horen op socials.

Vond je dit artikel waardevol en waardeer je onze journalistiek, en wil je helpen Lilith beschikbaar te houden voor iedereen? Doneer dan via één van de buttons hieronder (Tikkie). Of steun ons structureel en word een Friend.

ArtikelenMeike Schipper