Data Science - Zonder goede data geen bruikbare science

Richard Smits

Data science is veel meer dan alleen ál je data in modellen stoppen. Je moet ook nadenken over de herkomst en betekenis van je data, je data prepareren en de uitkomst goed interpreteren. En dat kun je niet alleen aan de computer overlaten.

Stel dat je in een bepaalde regio dankzij een succesvolle campagne de laatste tijd veel producten hebt verkocht. Top! In je data zie je die resultaten terug. Maar als je die data gaat voeden aan je algoritmes, kan dat vertekende resultaten opleveren.

Het model waaraan je je data geeft heeft immers geen weet van die campagne. Die zal de klanten uit die regio in het cluster ‘goede klanten’ plaatsen, of voorspellen dat klanten uit die regio meer zullen kopen. Precies daarom is het zo belangrijk om goed naar de herkomst en de betekenis van je data te kijken, voordat je ze aan een model geeft. Je wilt precies weten waar je data vandaan komt: van welke afdeling de data afkomstig is. En, als je externe data gebruikt, of die van betrouwbare bronnen afkomstig is.

Ook is het belangrijk om na te denken over wat je data precies betekent. In het voorbeeld hierboven zie je dat de data beïnvloed zijn door de campagne in een bepaalde regio. Dan moet je dus correcties toepassen — maar daarover zo meer.

Bruikbare data

Niet elk soort data is nodig of bruikbaar. In mijn vorige blog over data science zagen we al dat logistische regressie een lineair model gebruikt. Als je alleen een webwinkel hebt heeft het daarom niet zoveel zin heeft om een plaatsnaam te vertalen naar een getal. Als je winkels in winkelstraten hebt, kun je geografische data wel weer gebruiken. Bijvoorbeeld door ze om te zetten naar ‘aantal kilometers tot een van je winkels’.

Een ander voorbeeld is Amazon, dat met een hrm-predictiemodel probeerde te voorspellen of sollicitanten voor IT-functies geschikt waren. In een eerste versie werden vrouwen per definitie afgeschreven, omdat uit de historische data bleek dat er vooral mannen waren aangenomen. In een nieuwe versie van het model namen de data scientists niet meer mee of een sollicitant een man of vrouw was.

Datapreparatie

Voordat je je data aan het model geeft, moet je de data dus prepareren. Soms zijn niet alle waarden bekend, of zijn er overduidelijk waardes die niet kloppen: denk bijvoorbeeld een leeftijd die niet is ingevuld of waar 150 is ingevuld.

Je kunt hierbij verschillende dingen doen. Als je heel veel lege plekken hebt in je data of aantoonbaar niet kloppende data, kun je ervoor kiezen om de gemiddelde of de meest voorkomende waarde in te vullen. Als het om categorische data gaat gebruik je sneller de meest voorkomende waarde. Neem bijvoorbeeld het geslacht: je kunt niet 0,75 procent vrouw zijn en 0,25 procent man. Bij continue data, bijvoorbeeld leeftijd, kun je beter het gemiddelde nemen. Als je maar een paar lege plekken hebt dan kun je overwegen om die profielen uit je data te halen.

Data uit balans

Het kan je bij je datapreparatie ook opvallen dat je data uit balans is. Een groep die belangrijk is voor jouw volgende marketingactie is dan relatief klein ten opzichte van de hele groep. Algoritmes kunnen daar doorgaans niet zo goed mee omgaan.

Stel dat 100.000 mensen een bepaald product niet hebben gekocht en 1.000 mensen wel. Je model kent dan op basis van deze data aan iedereen een lage kans toe om dat product te kopen. Als je wil dat die 1.000 mensen net zo belangrijk worden als de rest kun je kiezen voor over-sampling of under-sampling. Bij de eerste techniek maak je de ondergesneeuwde groep groter, bij de tweede maak je de overheersende groep kleiner. Dat laatste is alleen zinvol als de groep dan groot genoeg blijft. Soms is het een kwestie van meerdere dingen uitproberen en kijken wat het beste werkt.

Interpretatie van de resultaten

Je gebruikt data science om je marketingstrategie en theorieën te onderbouwen of nieuwe inzichten te verkrijgen. Een menselijke kijk op de resultaten die je computer genereert is dus altijd belangrijk. Vooral als resultaten wel heel erg afwijken van je verwachtingen. Ga bij verrassingen daarom altijd op zoek naar de onderbouwing daarvoor. Kom je er niet uit? Dan kan het zijn dat je een verkeerde opdracht of vervuilde data hebt gegeven aan je algoritme.

Als je al deze stappen hebt doorlopen, begin je weer opnieuw. Data driven marketing is een continu proces van datapreparatie, het uitvoeren van analyses, uitkomsten controleren en al die stappen vervolgens weer herhalen. Een proces bovendien, waarbij jouw marketingexpertise van groot belang is.

Data Science - Zonder goede data geen bruikbare science

Bruikbare data

Datapreparatie

Data uit balans

Interpretatie van de resultaten

Deze blogs vind je misschien ook interessant

Data Science - Modellen voor data clustering en prediction

Data Science - Wat is het en wat kan ik ermee?

First, second en third party data: wat is het verschil?