Insights

Perspectives: Data wrangling in een wereld met big data
Nieuws

Perspectives: Data wrangling in een wereld met big data

Het is maandagochtend en Luke, de brand manager van BIGCO, loopt zijn kantoor binnen. Hij vraagt de digitale assistent op zijn bureau hoe het softdrinkmerk Acme van BIGCO tijdens het weekend heeft gepresteerd. Na een seconde antwoordt de assistent dat het marktaandeel van Acme met 0,5% is gedaald. Luke vraagt naar de reden van de daling en krijgt te horen dat problemen in de regio West van BIGCO de oorzaak zijn. Zijn digitale assistent biedt aan een e-mail te sturen aan Tom, de sales manager, met een samenvatting van hun bevindingen.

Twee uur later in Californië gebruikt Tom het rapport om te zoeken naar de onderliggende oorzaak, waarbij hij omzetgegevens combineert met verzendinformatie van BIGCO. Nadat hij gegevens van derden heeft toegevoegd, waaronder gegevens over het marktaandeel, de weersomstandigheden en econometrische informatie, komt hij tot de voorlopige conclusie dat het niet promoten van Acme gedurende langere perioden van goed weer een bijdragende factor is geweest. Tom kan het effect van verschillende promotiecampagnes op het marktaandeel en de winstgevendheid van het merk simuleren en stelt een plan op. Luke keurt het plan goed en zijn digitale assistent maakt een aantekening om de situatie te monitoren en verslag uit te brengen over de voortgang.

Digitale assistenten en slimme machines zijn cool, maar de nuttigste bedrijfsinzichten worden verkregen door het combineren van interne gegevens met een waaier aan externe gegevensbronnen, zoals omzetcijfers, gegevens over verzendingen en reclameactiviteiten, financiële indicatoren of honderd andere dingen. Het is de data-integratie die dit scenario tot werkelijkheid kunnen maken. Zonder data-integratie kan coole technologie niet meer doen dan hulpeloos naar een berg cacao staren zonder daar chocola van te kunnen maken.

DE GRONDBEGINSELEN VAN DATA-INTEGRATIE

Data-integratie stoelt op het vermogen om velden die dezelfde informatie bevatten, bijvoorbeeld over staten, met elkaar samen te voegen tot verschillende datareeksen. Als in alle datareeksen dezelfde identificatiecodes zouden worden gebruikt, zou dit gemakkelijk zijn. Maar dat is niet het geval: sommige reeksen maken gebruik van tweeletterige identificatiecodes (IL, CT), andere van volledige namen (Illinois, Connecticut), enzovoorts. En dat is nog maar een simpel voorbeeld: Universele productcodes (UPC) identificeren een type product (zeg een blikje Acme-soda van 33 cl) en kunnen worden gebruikt voor verkooppunt- en voorraadbeheer. Elektronische productcodes kunnen worden gebruikt voor het identificeren van individuele artikelen – waardoor elk blikje (of, waarschijnlijker, elke fles champagne, omdat mensen niet zo vreselijk geïnteresseerd zijn in het volgen van een sodablikje) een andere code kan hebben. Weer andere codes worden gebruikt om een aantal van dezelfde producten te identificeren, zoals in de winkel voorradige combipakketten of pallets in magazijnen.

Data-integratie houdt in dat al deze verschillende entiteiten en codesystemen op elkaar worden aangesloten. Een deel van het proces bestaat eruit om de data gereed te maken voor analyse door ze ofwel te aggregeren, ofwel te desaggregeren, tot een gemeenschappelijke noemer zodat, bijvoorbeeld, gegevens over verkooppunten op UPC-niveau kunnen worden gecombineerd met reclamegegevens op het niveau van het merk. Tot slot moeten de data worden verrijkt om hun nut voor analysedoeleinden te vergroten, bijvoorbeeld door een korte productbeschrijving toe te voegen met gecodeerde attributen zoals fabrikant, merk, omvang, smaak, verpakking, gezondheidsclaims en ingrediënten.

DATA WRANGLING VOOR DIGITALE ACTIVITEITEN

De gouden standaard voor data-integratie is het proces van het extraheren, transformeren en laden (Extract-Transform-Load, ETL) voor datawarehouse-doeleinden. ETL is een geautomatiseerd, kwalitatief hoogwaardig proces met vooraf omschreven resultaten en is de beste manier om activa met een hoge waarde en een lange levensduur te beheren, zoals de data die worden gebruikt in C-suite-dashboards en KPI’s.

Het probleem met het gebruik van ETL op de grote dataverzamelingen die typisch zijn voor digitale activiteiten is dat ETL is gebaseerd op deskundigenoordelen, een lange voorbereidingstijd kent en dat er doorlopende werkzaamheden voor nodig zijn om nieuwe en gewijzigde data op te nemen. ETL is het tegenovergestelde van Agile. Bedrijven moeten een enorme trits aan nieuwe gegevensbronnen aanboren en het is onmogelijk om van tevoren te weten welke daarvan waardevolle inzichten bieden; er is grote behoefte aan snelle, lichtgewicht data-integratie die ‘goed genoeg’ is om datawetenschappers in staat stellen de bronnen te onderzoeken en experimenten uit te voeren.

De oplossing voor de integratiebottleneck is om de ETL-architectuur om te keren: In plaats van een mens de tools te geven om een integratieproces te ontwerpen, geef je een geautomatiseerde integratietool een menselijke helper om excepties te verwerken. In de markt is een toenemend aantal op de cloud gebaseerde integratieplatforms van dit type beschikbaar, die werken op basis van machineleren en statistische best-fit mapping.

ETL vereist dat data worden gekopieerd in een datawarehouse, iets wat snel lastiger wordt naarmate het volume, de snelheid en de verscheidenheid van big data blijven groeien. “Datafederatie” en “datavirtualisatie”-technologieën lossen dit op door data-analisten de mogelijkheid te bieden om meerdere gegevensbronnen op afstand te doorzoeken en virtuele geïntegreerde inzage in geheugens te creëren zonder dat het kopiëren van grote hoeveelheden data nodig is. Aangezien de toegang tot de brondata rechtstreeks is, worden de problemen van synchronisatie (wat in het ETL-model telkens nodig is wanneer informatie wordt geüpdatet) vermeden.

ETL is ook sterk gericht op data in relationele databases. De digitale ontwikkelingen hebben een enorme verscheidenheid aan nieuwe gegevensformaten opgeleverd, waaronder Hadoop, NoSQL, graph databases, key- value-stores, berichten, logs en documenten. Naast deze teksten en cijfers worden plattegrondgerelateerde informatie, beelden, video’s en geluidsopnamen steeds belangrijker voor bedrijven. Tom wil misschien gebruikmaken van satellietbeelden om trafficvolumes per dagdeel in zijn analyse te integreren, of om te zoeken naar een correlatie tussen de omzet van Acme en het aantal bij stranden of parken geparkeerde auto’s. Zoals ik eerder al heb opgemerkt, kan een toenemend aantal cloudplatforms verbinding kan maken met deze veelvoud aan verschillende gegevensformaten, zonder dat ze relationeel hoeven te zijn.

DE TOEKOMST VAN DATA WRANGLING

U moet per geval optimaliseren voor met elkaar concurrerende prioriteiten zoals snelheid, nauwkeurigheid, volledigheid en de beschikbaarheid van expertise: Een ‘one-size-fits-all’-oplossing bestaat niet. Ook is het waarschijnlijk dat een proces in de loop der tijd zal overgaan van de ene soort integratie naar de andere: In zijn eerste analyse van de daling van het marktaandeel maakte Tom gebruik van “snelle en smerige” methoden voor data-integratie die u niet in routinerapportage voor de C-suite zou willen opnemen.

ETL zal niet weggaan, maar slimme machines zullen steeds vaker hun armen om big data heen kunnen slaan en ze op een betrouwbare, geautomatiseerde en snelle manier kunnen integreren. Dat betekent dat de digitale assistent van Tom meer zal kunnen doen dan hem helpen begrijpen wat er met de omzet van Acme is gebeurd en waarom. Hij zal data van BIGCO kunnen combineren met data op internet, of welke andere bronnen dan ook die hij kan inzien, om modellen te creëren die de omzet van BIGCO-merken beter voorspellen. Uiteindelijk zal hij voorspellende vragen als “Hoe verhogen we de omzet in de regio West met 10%?” kunnen beantwoorden.

Maar zover is het nog niet.

Een versie van dit artikel is oorspronkelijk verschenen in Vol. 1 Issue 2 van Perspectives on Retail Technology.