Wat is een datawarehouse?
Een datawarehouse (DWH) combineert data uit verschillende bronnen en daarbij pas je een specifieke datamodellering toe (met feiten en dimensietabellen) waardoor gebruikers heel snel antwoorden krijgen op vragen. Of het nu gaat om een ad hoc analyse, een nieuw rapport of KPI dashboard dat je wilt bouwen of een machine learning model, datawarehouses leveren razendsnel de juiste data aan. We geven hier nog een bondige definitie van een datawarehouse:
Een data warehouse is een integrale database waar je relevante, gestructureerde data uit verschillende bronnen op onderwerp gerangschikt kan terugvinden, combineren en analyseren.
Gegevens in een datawarehouse database mag je niet wijzigen, je mag alleen (correctie)records toevoegen. Dit essentiële uitgangspunt is een van de zaken die moeten zorgen dat de productie van managementinformatie betrouwbaar is.
Los complexere vragen op met de snelheid van het licht
In een datawarehouse (DWH) meng je al je bedrijfsdata maar zeker ook relevante externe data. Je gaat de data opschonen, combineren, gelijkschakelen en samenvatten. Hierdoor kunnen data analisten en beslissers razendsnel antwoord krijgen op tal van complexere vragen. Bijvoorbeeld:
- Aan welke klanten verdien je het meest, hoe komt dat en hoe ziet de klantreis eruit?
- Waar bevinden zich de grootste werkvoorraden en langste doorlooptijden?
- In welke postcodegebieden wonen potentiële klanten voor ons nieuwe product?
- Welke declaraties zijn verdacht en hoe kun je daaruit een juiste selectie maken?
- Welke afdeling kent het hoogste ziekteverzuim en wat is de oorzaak?
- Welke klanten hebben een betalingsachterstand die hoger is dan de norm?
- Enzovoorts
Figuur 1: door data samen te brengen en gelijk te schakelen in een datawarehouse kun je eenvoudig een integraal klantbeeld opbouwen. En je kunt de data snel analyseren vanuit meerdere invalshoeken. Tot slot laat een datawarehouse je organisatie kantelen. Ben je benieuwd hoe dat zit? Laat hier een bericht achter.
Onderstaand schema maakt in grote lijnen duidelijk waarom een datawarehouse zo belangrijk is. Gebruikers kunnen allerlei dwarsverbanden maken over afdelingen en systemen heen. Met één druk op de knop.
Wat is een logisch datawarehouse?
Gegevens in data warehouses worden niet altijd fysiek op een harde schijf opgeslagen. Er bestaat ook nog zoiets als een “logisch datawarehouse”. Hierbij modelleer je de data wel conform datawarehousing-principes maar haal je via het logische model de data direct op uit de bron. Met datavirtualisatiesoftware regel je dat op een nette manier in. Het nadeel hiervan is dat je geen historie kunt opbouwen en je bronsystemen bij complexere analyses of grote rapporten om kunnen vallen.
Figuur 2: Met een logisch datawarehouse hoef je niet alle data in een fysiek data warehouse op te slaan.
In de praktijk is het vaak onhaalbaar om alle rapporten en dashboards via de lijn van een volledige logisch data warehouse te laten lopen. Niet alleen de bronsystemen kunnen bijvoorbeeld ‘omvallen’ maar ook kunnen de cijfers in een aantal gevallen niet nauwkeurig genoeg berekend worden. Daarom is het hybride model momenteel populair. Wat kan gaat via een logisch datawarehouse, wat niet kan sla je op in het fysieke datawarehouse. Een logisch datawarehouse kan vervolgens data combineren uit het fysieke data warehouse, de datamarts en de databronnen.
Datawarehouse betekenis groeit met de volwassenheid van BI
Wanneer je start met Business Intelligence & Analytics is het niet verstandig om gelijk een grootschalig data warehouse op te zetten. De kosten gaan namelijk niet altijd voor de baat uit. Want, betere beslissingen zijn niet het gevolg van een doortimmert datawarehouse maar van beslissers en analisten die datagedreven werken en datageletterd zijn. Stel je een data warehouse voor als een Ferrari, dan heb je ook een Max Verstappen nodig. Wanneer je groeit in volwassenheid van BI, dan ga je ook complexere analyses vanuit verschillende invalshoeken (marketing, finance, operations, etc.) maken. En in dat geval heb je een robuustere data-infrastructuur nodig en groeit de meerwaarde en betekenis van een data warehouse.
Figuur 3: De datawarehouse betekenis, complexiteit en omvang groeit met de volwassenheid van Business Intelligence & Analytics
Hoe ga je een modern datawarehouse opzetten en gebruiken?
Het opzetten van een gestructureerd, modern datawarehouse is een zeer complexe taak omdat er veel design dilemma’s om de hoek komen kijken. Een van de dominante data warehouse dilemma’s betreft “opslagruimte versus snelheid”. Een index op een tabel betekent extra opslag van data, maar wanneer je wat wilt opzoeken ook een veel snellere responsetijd. Omdat opslagruimte nauwelijks meer geld kost en het aspect snelheid nog steeds onderschat wordt, is de keuze wat ons betreft snel gemaakt. In een datawarehouse architectuur zorg je dat de gebruiker (rapportviewer, analist, data scientist) in 80% van de queries een formidabele snelheid ervaart. Want leren uit data kan dan veel makkelijker plaatsvinden. Een modern datawarehouse is dus zwaar geoptimaliseerd wat betreft snelheid.
De opleiding Datawarehouse & Data Governance Tijdens de interactieve 3-daagse training Datawarehouse & Data Governance maak je in drie intensieve dagen diepgaand kennis met datawarehousing, de grondbeginselen van ETL, datakwaliteit, het bouwen van een datawarehouse, MDM, data lakes en welk governance model in jouw situatie goed past.
Ontwerp een “feiten en dimensies” datawarehouse
De structuur van de data in je bronnen is ongeschikt om er (zware) analyses op los te laten. Je moet te veel tabellen koppelen en te veel records doorspitten om een antwoord op je vraag te krijgen. In je data warehouse ga je via een ETL proces daarom de structuur van je bronnen transformeren naar een dimensionele structuur met feiten en dimensies. Deze structuur noem je sterschema waarmee de gebruiker eenvoudig gegevens kan selecteren zonder allerlei tabellen te moeten koppelen. Dat gebeurt allemaal automatisch onder de motorkap buiten het zicht van de gebruiker. Een modern datawarehouse opzetten is dus gericht op het bereiken van een optimale gebruikservaring: informatie moet snel vindbaar zijn in het datawarehouse en het systeem moet snel reageren met correcte antwoorden op vragen.
Bouwadvies van de datawarehousing consultants
Passionned Group bouwt als datawarehouse consulting bedrijf al meer dan 20 jaar datawarehouses in verschillende sectoren: banken, verzekeraars, gemeenten, retailers, ziekenhuizen, etc. We starten altijd met het opstellen van een data warehouse business case.
We brengen de gewenste analyses, rapporten en dashboards (de belangrijkste queries) in kaart, maken een inschatting van de kosten en baten en zetten de belangrijkste voordelen op een rij. Onze data warehouse specialist(en) kijken natuurlijk ook naar de datageletterdheid van de (toekomstige) gebruikers en de volwassenheid van BI want dat bepaalt hoe “zwaar” je je datawarehouse moet optuigen.
Figuur 4: De stappen in het opzetten van een datawarehouse (bouw advies aanvragen)
Nadat de business case is goedgekeurd door de stakeholders (inclusief directie) gaat onze datawarehouse architect aan de slag om de architectuur uit te tekenen en het datamodel te ontwerpen. Vervolgens gaat onze datawarehouse ontwikkelaar aan de slag met het opbouwen van de benodigde ETL, het ontwikkelen van de sterschema’s en datamarts.
Uiteraard zal er eerst een weloverwogen keuze gemaakt worden voor de benodigde data warehouse software zoals het database management systeem (RDBM), een datawarehouse automation tool en/of een ETL tool. Onze data warehouse experts beschikken over diverse guides waarmee je snel inzicht kan krijgen in de sterktes en zwaktes van de benodigde datawarehouse tooling. Tot slot kunnen we het project management voor data warehousing en data analytics uit handen nemen waaraan dus een onafhankelijk bouw advies vooraf gaat.
Wat is belangrijk bij data warehouse governance?
Omdat je heel veel interne en externe data bij elkaar brengt in een datawarehouse is er een goede governance structuur en data warehouse management nodig. Bij een data warehouse governance model pas je veel principes toe uit het bekende DAMA-DMBOK2-raamwerk. De governance van data conform dat raamwerk helpt je bij het opstellen van nieuw beleid, de procedures en normen voor databronnen, de beveiliging, de definities, de toegang, en de gevolgen die dit kan hebben voor de bestaande of toekomstige bedrijfsprocessen. Denk hierbij ook aan master data management (mdm) en data warehouse metadata.
Hierbij een korte toelichting van deze begrippen:
- Master Data Management (MDM): deze discipline brengt essentiële master data (stamgegevens) scherp in beeld en zorgt voor éénmalige invoer. Dit komt neer op opslag op één centrale plaats. In een aantal specifieke gevallen blijft de master data ook in de aangewezen bronsystemen beschikbaar. Het centraal beheren van een universele set van master data is in dat geval van cruciaal belang voor een juiste en efficiënte bedrijfsvoering.
- Metadata: maakt van de onderliggende gegevens echt bruikbare informatie. Metadata vertelt wat de data is, waar het vandaan komt, hoe het is geproduceerd, welke kwaliteit de data bezit, et cetera. In combinatie met MDM kan het ‘wonderen’ doen in het juist, tijdig en betrouwbaar gebruik van data binnen je organisatie. Zeker als die data gefragmenteerd is opgeslagen, is metadata onontbeerlijk. Iets wat zich door de opkomst van Big Data steeds scherper aftekent.
Het inrichten en optimaliseren van de processen rondom MDM en het beheer van metadata zijn de belangrijkste items in de gereedschapskist van het management data warehouse.
Master Data Management vs data warehouse
Veel mensen hebben het begrippenkader rondom datawarehousing niet helder op het netvlies. Ze vragen zich bijvoorbeeld af hoe het zit met “master data management vs data warehouse”. Hiermee ga je appels en peren vergelijken want juist met een goed BI data warehouse kun je prima invulling geven aan master data management omdat daar veel data bij elkaar komt. Dan kun je heel goed gaan bepalen welke data de “meester” is over andere data. Maar data warehousing is natuurlijk niet de enige technologie die een MDM datawarehouse mogelijk maakt. Je kunt ook losse MDM-software kopen waarmee je master data management kan opzetten en de master data kunt beheren.
Maak korte metten met de Excelverslaving
Tal van best practices wijzen uit dat investeren in data warehousing een organisatie intelligenter maakt. En dat het je grof geld kan opleveren in sommige situaties. Je moet dan wel bepaalde randvoorwaarden goed invullen als je een datawarehouse gaat opzetten. Toch is het gebruik van Excel als “datawarehouse” nog vaak gemeengoed.
Figuur 5: Bouw geen datawarehouse in Excel, dat kost veel meer geld dan eenmalig een goed datawarehouse opzetten.
De risico’s zijn evident. Wanneer je mensen verslaafd zijn aan Excel werkt dat natuurlijk fouten in de hand: het is erg arbeidsintensief en iedereen kan zijn of haar eigen versie van de waarheid hanteren. De volledige tijd van meetings gaat dan op aan bijvoorbeeld de interpretatie en de controle op de juistheid van data. En het kan dan niet gaan over het doorvertalen van de data en inzichten naar analyse en daadwerkelijke verbeteracties.
Om nog maar te zwijgen over de kostbare tijd die hoogopgeleide medewerkers kwijt zijn met Excel. Ze verzamelen en corrigeren de data elke keer weer. Excel staat echt een effectief informatiegebruik, gedegen analyse van de data en het goed (be)sturen van de organisatie in de weg.
Met de komst van een datawarehouse neem je voorgoed afscheid van Excel.
Overweeg alternatieven voor een datawarehouse
Er bestaan zeker wel zinvolle alternatieven voor het opzetten en inrichten van datawarehouses. Excel is in ieder geval geen goed alternatief. Maar zogenoemde appliances (“toestellen”) en datavirtualisatie tot op zekere hoogte wel.
- Een datawarehouse appliance is een combinatie van hardware, software en opslag. Het kan je data zeer snel verwerken en beschikbaar stellen aan gebruikers. Alles in één. Gezien het geringe onderhoud wat je eraan hebt en de goede performance, kan een appliance zeker van nut zijn in een datawarehouse omgeving. Vrijwel alle vooraanstaande BI tools/platforms kunnen tegenwoordig met deze toestellen werken. Onderdeel van een appliance is een in-memory database. Die laadt alle data in het interne geheugen van de server. Het resultaat? Razendsnelle responstijden. Echter, voor wat hoort wat en een dergelijke “data wasmachine” beperkt je wendbaarheid. Hij is grotendeels voorgeprogrammeerd.
- Datavirtualisatie software koppelt gegevensbronnen los van de applicaties en rapporten. Het biedt gebruikers een virtuele datalaag over verschillende gegevensbronnen. Die kun je dan realtime benaderen; de software gaat de data onderweg transformeren, integreren en leveren. Hierdoor kan je een heterogene verzameling van gegevensbronnen voor alle rapporten als één logisch geheel presenteren. Traditionele integratie-oplossingen integreren de data fysiek in een datawarehouse. Met datavirtualisatie krijg je op aanvraag de gegevens integraal aangeleverd. Dit verhoogt natuurlijk de snelheid en flexibiliteit van levering. Echter, zo’n virtueel datawarehouse moet je wel eerst goed definiëren. Bovendien is het de vraag of je IT-landschap hiervoor geschikt is. Ook hier geldt, het zal niet in alle gevallen de te prefereren aanpak zijn.
Wij kennen de plussen en minnen van de diverse alternatieven als geen ander. Door onze jarenlange ervaring binnen Passionned Group kunnen we je goed adviseren over de verschillende opties.
Het Big Data boek 'De intelligente, datagedreven organisatie' In dit gloednieuwe Big Data boek (al meer dan 25.000 exemplaren verkocht) komen alle belangrijke bedrijfsmatige, organisatorische en technische facetten van Big Data, datawarehousing en Data Science aan de orde. Je leert in 10 stappen toe te werken naar een intelligente, datagedreven organisatie waar data de dienst uitmaakt.
De 15 basisprincipes van datawarehousing
Bij het opzetten van een datawarehouse denk je eerst na over een aantal basale uitgangspunten, de basisprincipes van data warehousing. De belangrijkste principes zijn:
- Symmetrie: de datawarehouse architectuur vormt een spiegel van de bedrijfsvoering c.q. de bedrijfsprocessen. Dit zorgt voor een overkoepelend beeld ervan en één versie van de waarheid, zodat datawarehouse BI naadloos aansluit op de informatiebehoefte en uitdagingen van teams in de organisatie.
- Verplicht gebruik en verplichte aanlevering: het datawarehouse is een unieke, onafhankelijke en generiek toepasbare bedrijfsfunctie en het gebruik ervan is verplicht. Aanlevering van data aan het data warehouse is verplicht, ook al maakt een team of afdeling er nog geen gebruik van.
- Granulariteit: de data wordt zo gedetailleerd mogelijk aangeleverd. Deze vertoont exact dezelfde granulariteit (grofkorreligheid) als in de bronsystemen. Dit principe verhoogt de testbaarheid en controleerbaarheid van de data. Het maakt ook gedetailleerde rapporten en analyses mogelijk omdat er onderweg geen data verdampt. Dat laatste is wel het geval als je de data ingedikt aanlevert.
- Datakwaliteit: het data warehouse monitort en bewaakt de datakwaliteit maar de verantwoordelijkheid voor datakwaliteit beleg je bij proceseigenaren; zij zien hier actief op toe.
- Privacy by design: je zorgt dat persoonsdata nooit oneigenlijk, of zonder goede grondslag opgeslagen, gebruikt kan worden of herkenbaar in beeld kan komen.
- Verschillende smaken: een datawarehouse helpt gebruikers bij het maken van rapporten, data discovery, ad hoc analyses, downloads, selfservice BI, interactieve dashboards, het ontwikkelen van algoritmes en performance management.
- Synchronisatie: de verversingsgraad van het datawarehouse sluit precies aan op de regelmaat en frequentie van de gebeurtenissen in de desbetreffende bedrijfsprocessen. Hierdoor kan de gebruiker belangrijke gebeurtenissen niet missen.
- Streaming first: wanneer je dit principe hanteert, ga je waar mogelijk altijd je data warehouse of data lake (near) realtime bijwerken.
- Niet-volatiel datawarehouse BI: data die eenmaal is opgenomen in je datawarehouse mag je nooit meer wijzigen, ook als de data fout is. Wel mag je data toevoegen die de fout corrigeert.
- Onderhoudbaarheid en uitbreidbaarheid: de logica, berekeningen en intelligentie in de indicatoren, meetwaarden en dimensies leg je zo veel mogelijk op één plek vast. Hierdoor zal de onderhoudbaarheid en uitbreidbaarheid sterk verbeteren.
- Complexiteit onder de motorkap: indicatoren en dimensies zijn voor gebruikers direct te selecteren om in rapporten, dashboards of interactieve analyses te gebruiken. Hierdoor kun je die snel en eenvoudig maken. Het voorkomt dat elke medewerker zijn eigen indicatoren moet of kan samenstellen. Een datawarehouse verbergt de complexiteit onder de motorkap.
- Flexibiliteit en volledigheid: bij het vullen van het datawarehouse neemt het laadproces zoveel mogelijk zinvolle omringende en aanpalende data mee uit de geselecteerde databronnen. Hierdoor kunnen eindgebruikers en data analisten makkelijker nieuwe en zinvolle combinaties maken van indicatoren en dimensies. Bijvoorbeeld: wanneer één attribuut uit een tabel nodig is voor een rapport neem je alle attributen uit die tabel mee. Dit verhoogt de kracht en vergroot de mogelijkheden van de analysefunctie binnen de organisatie.
- Onafhankelijkheid van specifieke BI instrumenten: de architectuur dient zoveel mogelijk los te staan van de te gebruiken of nog aan te schaffen software (onder andere ETL en BI tools).
- Eén datawarehouse database: er is sprake van één datawarehouse en bigdatabronnen kun je via het data lake benaderen.
- Cloud-first: alle componenten van je ETL / data warehouse zet je in de cloud (Azure, Amazon, Google Cloud, et cetera), tenzij er zwaarwegende redenen zijn om dat niet te doen.
In de beginfase van data warehousing business intelligence zul je water bij de wijn gaan doen omdat anders het datawarehouse veel te duur gaat uitvallen of gebruikers afhaken omdat het opzetten veel te lang duurt. Maar bij 5 principes zou je geen concessies moeten doen: symmetrie, verplichte aanlevering van data, privacy by design, niet-volatiel en cloud-first. Wil je weten hoe dit precies zit? Neem dan hier contact met ons op.
Verdiep je hier verder in datawarehousing & analytics
Versnel je leerprocessen met een factor 10
Met een datawarehouse krijg je niet alleen de antwoorden op complexere vragen snel boven tafel, maar ook die op recht-toe-recht-aan vragen. Met een supersnel data warehouse kunnen leerprocessen van je teams en medewerkers met minimaal een factor 10 versnellen. Hierdoor kun je procesverbeteringen en innovaties sneller voor de juiste mensen zichtbaar maken. En je organisatie gaat veel winnen in wendbaarheid. En dat gaat je weer helpen bij de noodzakelijke transitie naar een intelligente, datagedreven organisatie. Onze ervaren data-architecten helpen je graag verder.
Overzicht van data warehouse software
Ga je een datawarehouse opzetten dan heb je in elk geval een datawarehouse database nodig om de data in op te slaan. In sommige gevallen bevat deze database ook ingebouwde tools voor het vullen van je DWH, bijvoorbeeld een importfunctie om csv-files te laden. Maar in veel gevallen zul je uit moeten kijken naar data warehousing ETL tools of datawarehouse automation software. Ook kun je een zogenaamd data warehouse appliance aanschaffen. Dit is een speciale, zeer snelle datawarehouse server die onder de motorkap allerlei zaken automatisch inregelt zoals indexering van de data.
De ETL & Data Integratie Guide™ 2024 De ETL & Data Integratie Guide™ is een unieke toegangspoort tot grote hoeveelheden onderzoeksmateriaal (nieuws, leveranciers, video's, ratings van de leveranciers, termen en de markt) op het gebied van datawarehousing, MDM & data analytics. Selecteer hiermee de meest geschikte datawarehouse tools en til je je data warehousing-kennis naar een behoorlijk hoger niveau in enkele dagen.
SAP Business Warehouse (SAP BW)
SAP kent een eigen datawarehouse: business warehouse. Het voordeel hiervan is dat je wanneer je voor alle processen SAP gebruikt je geen nieuw datawarehouse hoeft op te zetten. Je krijgt het bij SAP cadeau. Natuurlijk betaal je de licentiekosten maar de ontwikkelkosten zijn aanzienlijk lager vergeleken met het opzetten van een compleet nieuw data warehouse. Gebruik je naast SAP nog veel andere systemen dan is de businesscase voor het inrichten en gebruiken van SAP BW niet snel gemaakt. De reden? Data uit andere systemen kun je niet zomaar op een snelle, goede manier in business warehouse laden.
Wat is een Oracle data warehouse?
Ook Oracle levert een data warehouse dat je prima los kunt kopen en gebruiken. Het gaat hier om het ‘Oracle Autonomous Data Warehouse‘. Dit bevat alle data warehouse software die je nodig hebt om een datawarehouse op te zetten en te beheren. Je kunt daarbij gebruiken maken van twee ETL tools: Oracle Data Integrator (ODI) en Oracle Warehouse Builder (OWB). Wil je precies weten hoe Oracle datawarehouse software scoort ten opzichte van andere data warehouse tools? Download dan hier de ETL & Data Integratie Guide 2024.
Hoe ziet een complete data warehouse architectuur eruit?
Met de principes bij de hand en de informatiebehoeften van de gebruikers ga je aan de slag om een data warehouse architectuur te ontwerpen. Deze benoemt niet alleen de benodigde voorzieningen (mogelijkheden) van de architectuur (bijvoorbeeld een realtime datawarehouse), maar gaat ook in op de wijze van data modellering. Over dat laatste kan je lange en heftige discussies voeren en er kan zelfs een heuse stammenstrijd ontstaan in het team. Maar voordat we daar dieper induiken eerst de belangrijkste componten van de ideale data warehouse architectuur.
De belangrijkste componenten van een enterprise datawarehouse architectuur
Het is van belang te begrijpen dat het opbouwen van een volwassen en compleet datawarehouse vele jaren in beslag kan nemen en dat het om grote investeringen gaat waar je een solide business case voor ontwikkelt. Zo heeft Ahold maar liefst zeven jaar gedaan om één enterprise datawarehouse te bouwen waar iedereen binnen de onderneming gebruik van kan maken.
Een datawarehouse is geen doel op zich maar een middel om betere beslissingen te nemen en de besluitvorming op alle niveaus in je organisatie te verbeteren en te versnellen.
Omdat de directie en alle leidinggevenden binnen dit bedrijf heel erg goed snapten wat de waarde is van goede data en een datawarehouse was de businesscase ook snel rond. Maar dat is eerder uitzondering dan regel. Daarom hoeft een datawarehouse architectuur ook niet voor de eeuwigheid bestemd te zijn. Je gaat situationeel te werk uiteraard zonder het langetermijnperspectief uit het oog te verliezen:
Figuur 6: De complete architectuur van een (realtime) datawarehouse
- Wanneer je start met BI & Analytics trek je eerst gewoon een kopie van je bronsysteem en plaatst die op een andere server, je ververst die elke nacht en daar ga je dan rapporten en dashboards op ontwikkelen. De kosten zijn minimaal en je kunt zo al heel veel en snel inzicht krijgen in je processen en resultaten.
- In een volgende fase ontwikkel je een mini-datawarehouse met enkele cruciale voorzieningen. Denk hierbij aan het opvangen van de data, deze transformeren naar feiten en dimensies en de meest belangrijke feiten aggregeren. Je ontsluit dus een paar bronnen en integreert die en vat ze samen. Je gaat iteratief te werk zodat de gebruikers de meerwaarde en de kracht van datawarehousing kunnen ontdekken.
- In de laatste fases van volwassenheid van BI ga je nadenken hoe je een compleet enterprise datawarehouse kan bouwen waar alle benodigde interne en externe bronnen in worden ontsloten. Dit is ook weer geen “big bang” scenario waarin het datawarehouse team zich een paar jaar kan opsluiten, maar je laat het team de architectuur iteratief, in nauwe samenwerking met de deskundige gebruikers, opbouwen.
Laat je door (externe) consultants niet op de mouw spelden dat je prima direct zou kunnen starten met een compleet enterprise datawarehouse. Daar kleven echt veel te veel risico’s aan. De kans dat je faalt is groot en je krijgt met BI vaak maar één kans om te scoren. Nogmaals: bouw geen Ferrari als je geen Max Verstappen in je renstal hebt.
Data warehousing & data modellering
De verschillende scholen voor datawarehouse datamodellering hebben allemaal op bepaalde punten gelijk maar geen enkele vormt in alle situaties de ideale data warehouse architectuur. We beschrijven hier kort de belangrijkste overeenkomsten en verschillen van de verschillende manieren (scholen) waarop je je data kunt modelleren in je datawarehouse database:
- De Ralph Kimball school: het enterprise data warehouse (EDW) en de datamarts worden gemodelleerd met feiten- en dimensietabellen. Een feitentabel met meerdere dimensietabellen vormen een zogenaamd sterschema datawarehouse.
- De Bill Inmon school: de derde normaalvorm (3NF) is bij deze school leidend voor de data modellering van het enterprise datawarehouse. De derde normaalvorm wordt overigens ook in veel IT systemen gebruikt omdat deze de gulden middenweg toont tussen opslagruimte en snelheid. De datamarts geef je vorm met een sterschema.
- De DataVault school: de data sla je op in een zogenaamde DataVault met een zeer flexibel datamodel waarna je de data transformeert en opslaat in een BusinessVault, het equivalent van een enterprise datawarehouse. De datamarts modelleer je als sterschema.
De belangrijkste overeenkomst van deze verschillende architecturen is dat je de datamart altijd conform een sterschema modelleert. Een voorbeeld van een sterschema vind je hier:
Figuur 7: een voorbeeld van een sterschema volgens data warehousing data modellering
En dat is ook logisch want de data analist of rapportenbouwer wil gewoon, na het inloggen op de data warehouse server, een zo simpel mogelijke representatie van de data zien en wil niet nog eens verplicht worden om allerlei tabellen aan elkaar te moeten knopen zoals hier te zien is:
Figuur 8: het sterschema bouw je op uit veel verschillende tabellen. In het sterschema breng je deze 12 tabellen terug tot slechts vijf.
Hoe je het ook wendt of keert, het sterschema is het eindpunt waar je naar toe werkt bij data warehousing. De weg daar naar toe is vanuit een businessperspectief niet bijzonder boeiend.
Niet zo boeiend waar data analytics nog in de kinderschoenen staat
Er zijn tal van argumenten te bedenken welke datawarehousing data modellering jouw organisatie het beste zou kunnen kiezen, maar die zijn niet zo heel erg spannend voor organisaties waar data analytics nog in de kinderschoenen staat. Dan wil je gewoon zo snel mogelijk rendement bereiken op data warehousing en BI en kies je voor de meest eenvoudige, doorzichtige methodiek: Kimball. Bij hogere volwassenheidsniveaus kunnen echter andere argumenten dan “snel rendement” zwaarder wegen. Wil je hierover onafhankelijk advies of wil je een interne workshop organiseren? Neem dan hier contact met ons op.
De “Data Vault vs data warehouse”-disussie
Zoals eerder besproken kan er een strijd ontvlammen waarbij de Data Vault en het data warehouse tegen elkaar worden uitgespeeld. Dit is ongewenst en ook onnodig want de feitelijke voor- en nadelen van de datavault-methodiek zouden voor zich moeten spreken. Toch merken we elke keer weer dat organisaties zich op oneigenlijke gronden laten verleiden door (externe) consultants die een Data Vault (plus BusinessVault) dan als volwaardig datawarehouse weten voor te stellen en tegelijkertijd de complexiteit van een Data Vault downplayen. Wees in elk geval op je hoede wanneer een Data Vault in jouw organisatie in beeld dreigt te komen; schakel in dat geval gerust een onafhankelijke partij in.
Het data lake versus het data warehouse
Een data lake warehouse en een normaal data warehouse moet je verschillend duiden en positioneren, er is dus niet zoiets als een ‘datawarehouse datalake’. In een data warehouse breng je gestructureerde data samen, in een data lake sla je ongestructureerde data op (de big data) zoals geluidsfragmenten, documenten, foto’s, video’s, sensorische data en e-mails. In een zogenaamd big data warehouse breng je die twee soorten data samen. Een zogenaamde datawarehousedirigent brengt de twee soorten data bij elkaar wanneer en waar dat nodig is. Er is dus geen discussie nodig over ‘data lake vs data warehouse’, het zijn twee totaal verschillende opslagplaatsen voor verschillende soorten data. In een data lake sla je de big data op, in een data warehouse sla je gestructureerde data op die past in tabellen met rijen en kolommen. De dirigent brengt ze bij elkaar.
Boeken over data warehousing
Data warehousing is een cruciaal middel voor effectievere BI & Analytics. Spijker je kennis over datawarehouses bij met één of meer van de volgende boeken.
- De intelligente, datagedreven organisatie van Daan van Beek. In de totale aanpak die Daan in zijn boek beschrijft neemt het datawarehouse een cruciale plek in: het hart van de intelligente organisatie. Alle architectuuraspecten en datawarehouseprocessen komen uitgebreid aan bod. Bestel hier dit boek.
- Data als succesfactor: Business Intelligence en datawarehousing. Dit boek van Karien Verhagen en Paul van der Linden neemt je mee in de wereld van data warehouses, ETL, EAI en data analyse. Naar het boek.
- The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. In dit Engelstalige boek van Ralph Kimball en Margy Ross nemen de auteurs je mee in het vakmanschap van dimensioneel modelleren, ETL en diverse modelleringstechnieken. Dit boek komt met met vele voorbeelden uit verschillende disciplines en sectoren waaronder retail, voorraadbeheer, orderverwerking, financiële instellingen, telecom, onderwijs en verzekeren. Naar het boek.
- Building the Data Warehouse van Bill Inmon. Dit boek is sinds 2002 niet meer gewijzigd maar nog steeds bijzonder actueel. Deze klassieker mag niet ontbreken in de reeks boeken over data warehousing. Bestel het boek hier.
Met deze boeken in je gereedschapskist leg je een stevige basis voor zowel de organisatorische kant van BI, de procesmatige kant van ETL als de technische kant van datawarehouses. Voor nog meer verdieping en praktische toepassing volg je onze datawarehouse training.
Wil je ook een succesvol (logisch) datawarehouse opzetten?
We helpen je graag met de data warehouse business case, een bouwadvies, een passende en solide DWH-architectuur en de implementatie. Onze datawarehouse specialist komt graag met je in gesprek over de uitdagingen waar jij en je organisatie voor staan.