Eerder schreef ik over het belang van metadata voor personalisatie van marketing. Een goed verhaal, al zeg ik het zelf. Maar in de praktijk is niet altijd (de juiste) metadata beschikbaar. Hoe kun je dan toch gepersonaliseerde en relevante aanbevelingen tonen? Er zijn algoritmes die je ook zonder metadata kunt gebruiken, zoals collaborative filtering en lookalike.
Nog even kort terug naar metadata. Dit zijn html-codes in een pagina, die de bezoeker niet ziet, maar die wel door een personalisatietool gebruikt kunnen worden. Metadata geeft informatie over waar de pagina over gaat. Lekker leesvoer voor de personalisatietool dus, die daarmee een profiel kan samenstellen van de bezoeker. Hoe meer metadata, hoe nauwkeuriger dat profiel. Maar het toevoegen van metadata is extra werk, dat er nog wel eens bij inschiet bij het online zetten van een pagina. Gelukkig is er nog een andere manier om de inhoud van een pagina te bepalen. Als je op een detailpagina relevante aanbevelingen wilt doen van andere gerelateerde producten, artikelen of blogs en je hebt geen of beperkte metadata, maak dan gebruik van het ‘lookalike’ algoritme!
Algoritme gebaseerd op content
Je kunt behalve naar afgesproken codes als metadata, natuurlijk ook naar de content van de pagina zelf kijken. Op zichzelf hoeft dat nog niet veel te betekenen, maar in de context van alle webpagina’s van een site kun je wel degelijk conclusies trekken. Dat is wat het lookalike algoritme doet.
Woordfrequentie en -relevantie
Het lookalike algoritme is gebaseerd op een bekende statistische formule, genaamd TF-IDF. De TF staat woord Term Frequency en is niks anders dan gewoon het aantal keren dat een woord (of begrip) voorkomt in een document.
Op zich heb je daar niet veel aan, want je weet vooraf al dat woorden als ‘de’, ‘het’, ‘en’ bovenaan de lijst komen te staan. Hoe bepaalt het algoritme dan wat de relevantie van de termen is? Daarvoor wordt IDF gebruikt, wat staat voor Inverse Document Frequency. Een hele mond vol, maar het betekent gewoon dat van alle documenten in een collectie de verschillende woorden geteld worden. De crux zit ‘m in het woord ‘inverse’, omgekeerd. Je kunt er namelijk van uitgaan dat een term die NIET in alle documenten terugkomt (en dan liefst in zo min mogelijk) feitelijk relevant is voor de documenten waar het woord WEL in staat. Briljant.
Haken en ogen?
Ja, een paar wel. Het algoritme is gevoelig voor wat we maar noemen ‘tone of voice’. Woordkeus en schrijfstijl van een blogger kan de uitkomst beïnvloeden. Dat kan dus weleens verrassende resultaten opleveren als je een lijst met gerelateerde aanbevelingen toont.
Lookalike is dus geen volwaardige vervanger van metadata, maar eerder een aanvulling om jouw aanbevelingen relevanter te maken. Zo zou je metadata kunnen inzetten om eerst grof te filteren op generieke data – zeg maar de hoofdcategorie. Vervolgens kun je dan het lookalike algoritme gebruiken om relevante aanbevelingen te doen binnen die categorie.
Nieuwe content
Er zijn situaties waar een lookalike aanpak bétere resultaten bereikt dan andere algoritmes. Lerende algoritmes, zoals collaborative filtering hebben de neiging om filterbubbels te maken. Nieuwe content komt dan niet of nauwelijks naar voren. Het lookalike algoritme heeft hier geen last van en kan direct het nieuwste gerelateerde artikel, product of blog tonen.
Conclusie: Zorg dat je de metadata op orde heb, en als dat niet of beperkt voorhanden is, kan het lookalike algoritme uitkomst bieden. Ga vooral lekker experimenteren met een combinatie van die twee.