Data Science - Modellen voor data clustering en prediction

Richard Smits
Clustering

Als data driven marketeer kun je data op veel verschillende manieren gebruiken. In deze blog bespreken we veelgebruikte modellen voor clustering en prediction. Wat is K-means clustering? En waarom zou je, als je klantgedrag wilt voorspellen, een decision tree verkiezen boven logistische regressie, of andersom?

Onze collega Niels de Veth schreef er in zijn eerste blog over data science al over: door technieken uit de data science te gebruiken kun je je marketing een flinke upgrade geven. Door grote hoeveelheden data uit meerdere bronnen in algoritmes samen te brengen kun je waardevolle inzichten over het gedrag van je klanten opdoen.

Zo gebruik je K-means clustering

Als je gaat clusteren ga je op zoek naar patronen in een multidimensionale dataset. In die dataset zitten bijvoorbeeld persoonlijke gegevens van je klanten, maar ook aankoopgegevens. Een van de meest eenvoudige methodes die je hiervoor kunt gebruiken is K-means clustering. Het algoritme hiervoor begint met K willekeurige punten in de dataset. Dit zijn je centra. Je algoritme bekijkt vervolgens voor ieder datapunt welk centrum het meest dichtbij is. Zo krijg je K clusters. Van deze clusters berekent het algoritme weer nieuwe centra. Het algoritme herhaalt dit proces tot hij de optimale K clusters heeft gevonden. Een populaire methode hiervoor is de Elbow Method.

Met K-means clustering vind je bijvoorbeeld profielen van mensen met hetzelfde aankoopgedrag. Je ziet dan bijvoorbeeld dat het vooral mensen van boven de 40 uit een bepaalde regio zijn die bij jou producten van meer dan 50 euro kopen — om maar iets te noemen.

De beperking van K-means clustering

Een beperking van het algoritme is wel dat je alleen op basis van numerieke en statistisch relevante data kunt clusteren. Adressen van klanten kun je dus alleen gebruiken als je ze omzet naar bijvoorbeeld het aantal kilometer tot een van je winkels. Een andere beperking is dat de uitkomst van elke clustering nogal kan verschillen. Dat komt doordat het algoritme telkens start met willekeurige begincentra, waar je als gebruiker geen invloed op hebt.

GX software whitepaper over retentie, hoe je loyale klanten creëert en waarom klantdata cruciaal is voor meer retentie

Klantgedrag voorspellen

Je kunt data ook gebruiken om gedrag te voorspellen. Als je op tijd weet dat er van een bepaald product veel besteld gaat worden, kun je je voorraad aanpassen. Of: je kunt een klant extra aandacht geven als je op basis van verschillende indicatoren ziet dat een klant dreigt te vertrekken.

De meest gebruikte methodes voor statistische voorspelling of prediction, zijn de decision tree en logistische regressie. Als je er een gekozen hebt voed je het algoritme met jouw data. Welke het beste werkt is afhankelijk van je dataset en een kwestie van proberen. Dat check je door de helft van je data te gebruiken om het model te vormen. Vervolgens laat je dat model de andere helft analyseren. Voorspelt het model de uitkomst grotendeels goed, dan weet je dat je met het goede model aan het werken bent.

Een logistische-regressieanalyse is zeer efficiënt. Dat betekent dat je computer zo’n analyse relatief snel kan uitvoeren — en dat is best knap als je met grote datasets werkt. Een beperking is echter dat een model voor logistische regressie lineair denkt. Hij rekent je dus bijvoorbeeld voor dat de kans groter wordt dat je een bepaald product koopt naarmate je ouder wordt, terwijl in werkelijkheid mensen van onder de veertig en boven de vijftig gemiddeld even vaak dat product kopen.

Decision trees, ook wel bekend als Categorical And Regression Trees (CART), kunnen wel omgaan met een niet-lineaire werkelijkheid. Een ander groot voordeel is dat meteen duidelijk wordt hoe het model tot een bepaalde kans is gekomen. Bij een logistische regressie krijg je alleen een cijfer te zien, een decision tree laat precies de stappen zien die hij op de beslisboom heeft doorlopen. Zo zie je precies bij elke stap welke eigenschap ervoor heeft gezorgd dat de uiteindelijke kans dat iemand iets koopt groter of kleiner wordt. Een bepaald punt in de boom kan bijvoorbeeld zijn: ben je jonger dan 50, dan koop je waarschijnlijk niks, ben je ouder dan 50, dan waarschijnlijk wel.

De beperking van een decision tree is dat er veel rekenkracht nodig is om het model te laten draaien. Dat komt doordat zo’n model bij elke stap moet besluiten of hij links of rechtsaf gaat. Een ander belangrijk nadeel is dat het model negatief beïnvloed wordt wanneer de data waarmee je het model traint niet representatief is. Dus als die te veel verschilt van de testdata, de data die je in het uiteindelijke model stopt, zijn je resultaten minder betrouwbaar.

Maar daarover meer in de volgende blog. Want met welk algoritme je ook aan de slag gaat: je data moet op orde zijn. In ons volgende blog bespreken we de herkomst van je data, hoe je je data het beste kunt prepareren en hoe je moet omgaan met de resultaten van je model.