Bij veel van mijn opdrachtgevers speelt altijd de vraag (of uitdaging); hoe integreer je nu verschillende klanten binnen dezelfde bron of zelfs over bronnen heen?
Microsoft biedt hiervoor de volgende combinatie aan binnen SQL Server:
– Master Data Services (MDS) = opslaan van de schone/juiste klantgegevens
– Data Quality Services (DQS) = bibliotheek hoe je ruwe/vuile klantgegevens kunt opschonen en integreren
Helaas zijn beide services niet ‘native’ Azure en kun je ze niet zonder dure SQL Server VM draaien.
DQS is als product helaas niet volwassen genoeg, het trainen van de zogenaamde ‘Knowledge Base’ moet je handmatig uitvoeren. Kortom, tijd om zelf aan de slag te gaan! Tijd om een oplossing te vinden dat wél ‘native’ Azure is en zonder dure componenten of toevoegingen werkt binnen Azure.
Hieronder mijn ‘input’ dataset met ruwe klantgegevens, met de nadruk op ‘ruw’:
De bovenstaande ‘input’ dataset moet ik natuurlijk met een schone dataset kunnen vergelijken, in dit geval mijn ‘DQS’-model. Alleen, gezien de slechte datakwaliteit, welke rijen/velden zal ik gebruiken? Na veel puzzelen heb ik toch een oplossing gevonden en vul ik mijn model zoals hieronder getoond wordt. Deze ‘schone’ dataset wordt direct m.b.v. een query op basis van de ‘input’ dataset samengesteld, handmatig is namelijk geen optie bij miljoenen rijen klantgegevens:
MATCH
Okay, laten we nu eens kijken wat we ervan kunnen maken. Het algoritme matched de gegeven waarden met een klant in het ‘DQS’-model en retourneert het ‘CUSTOMERMODELID’:
CLEANSE
Nu is het ook wel handig dat we een opgeschoonde (cleansed) dataset met klantgegevens terugkrijgen:
INTEGRATE
Here comes the magic! Het algoritme heeft zelfs bepaald dat er een grote kans is dat deze drie ‘unieke’ klanten dezelfde natuurlijke persoon zijn:
Een vervolgstap zou eventueel kunnen zijn om deze resultaten op te slaan in een ‘koppeltabel’, om vervolgens tot één klant te komen.
Uiteindelijk blijft een ‘unieke’ lijst met klanten over, zeg maar het ‘Golden Record‘:
Veel is mogelijk! Deze demo is op basis van klantgegevens, maar dit is gemakkelijk om te bouwen naar bijvoorbeeld producten, diensten of bedrijven. Nieuwsgierig naar de manier waarop we dit integreren in het data landschap? Lees er hier meer over.
Interesse in een live demo bij u op locatie? Neem dan contact met ons op: clint.huijbers@monkeyconsultancy.nl