Arnold’s Journey
Zie hier hoe Arnold stap voor stap zijn opdracht heeft uitgevoerd
Data-analyse en modelontwikkeling
Arnold begon aan een project om het verloop te analyseren en toekomstige omloopsnelheden te voorspellen. Er is een model gemaakt om historische data te analyseren en patronen en factoren te identificeren die bijdragen aan het verloop. Toen het model echter klaar was voor productie, werd ontdekt dat de data die voor de analyse waren gebruikt, niet nauwkeurig waren. Om dit aan te pakken, voerde Arnold een uitgebreide datacleaning uit om de betrouwbaarheid en nauwkeurigheid van de data te waarborgen.
Analyse dataflow
Om de grondoorzaken van datavervuiling te begrijpen, analyseerde Arnold de hele dataketen. Er werd vastgesteld dat onjuiste of ontijdige invoer van data een belangrijk probleem was. Inconsistent gebruik van definities, met name met betrekking tot omzetberekeningen in verschillende regio’s, bemoeilijkte het analyseproces verder. Dit leidde tot tal van vergaderingen en discussies om de discrepanties en interpretaties met elkaar te verzoenen.
Voorgestelde oplossing
Om de uitdagingen op het gebied van datakwaliteit en -beheer aan te pakken, is een uitgebreid voorstel voor databeheer ontwikkeld. Het voorstel vereiste dat alle bedrijfseenheden hun data naar een gecentraliseerd datameer overzetten, zodat er één enkele bron van waarheid was. Datatransformaties werden uitgevoerd met behulp van Extract, Transform, Load (ETL)-software, wat aanpassingen en kwaliteitscontroles mogelijk maakte. Daarnaast is centraal een datacatalogus gemaakt en zijn datastewards aangesteld om de catalogus te onderhouden en de data-integriteit te waarborgen.