De eerste dataverwerkers
De allereerste organische cellen bleken nauwelijks in staat om die signalen (bijvoorbeeld licht of geluid) te verwerken. Er was geen zichtbare interactie. Later ontstonden eencelligen die reageerden op licht. De eerste dataverwerkers waren geboren. Zij brachten onmiskenbare principes op het gebied van datamanagement aan het licht die ook vandaag nog steeds van groot belang zijn, zoals:
- een juiste registratie van de signalen
- een correcte verwerking daarvan
- het genereren van een adequate respons
In een notendop is dat het concept van de intelligente, datagedreven organisatie.
Data moet gebruiksvriendelijk zijn
Organisaties doen er goed aan het beheersen van datastromen te professionaliseren. Juist in deze moderne tijd, waarin informatie-overbelasting hoogtij viert en de hoeveelheid (big) data elk jaar verdubbelt, neemt het belang van datamanagement sterk toe. Tot slot: de toegevoegde waarde van een organisatie ligt steeds meer in de aanvullende informatie die wordt verschaft aan de klant.
Bestel het boek 'De intelligente, datagedreven organisatie' Goed datamanagement is essentieel voor intelligente organisaties. Hoe bewaak je datakwaliteit en zorg je dat de juiste data bij de juiste persoon terecht komt? In dit BI-boek komen alle aspecten van effectief (data)management uitgebreid aan bod. De auteur neemt je mee in de wondere wereld van Data Analytics, BI, kunstmatige intelligentie en Big Data.
Juiste, volledige, betekenisvolle en integere data is daarbij onontbeerlijk voor kwalitatieve informatie. De betekenis van data in letterlijke zin is een evenzo belangrijk punt. Bezit van data is niet afdoende om voort te blijven bestaan. Het moet renderen en je moet het gebruiken zoals de prachtige case van fietsenwinkel.nl duidelijk maakt. De gebruiksvriendelijkheid van data moet daarom groot zijn.
Drie generieke processen voor datamanagement
De drie basisprocessen registratie, verwerking en respons vragen om een uitgekiende manier van datamanagement.
Figuur 1: De drie basisprocessen van datamanagement
Ieder basisproces heeft namelijk zo zijn eigen behoeften ten aanzien van de invulling van datamanagement-aspecten. Figuur 2 geeft deze weer. In diverse vervolgblogs worden deze aspecten voor ieder basisproces afzonderlijk onder de loep genomen.
Figuur 2: Elk basisproces vraagt om een andere aanpak
Communicerende vaten
De aspecten beïnvloeden elkaar onderling en zijn net een verzameling communicerende vaten. Neerwaartse druk op de vloeistof in een kolom leidt tot opwaartse druk in een of meer van de andere kolommen. Meer redundantie voor een betere responstijd. Minder flexibiliteit bij het invoeren van gegevens voor een betere integriteit. Ieder basisproces kent daarin een optimum. De processen verwerking en respons vallen uiteen in een operationele en tactische variant. Het datamanagement ter ondersteuning van deze processen verschilt aanzienlijk.
Data als fundament van de IT organisatie
Twee afsluitende blogs leggen de nadruk op het managen van data vanuit organisatorisch en technologisch perspectief. De procesbenadering zoals in figuur 1 en 2 weergegeven werpt ook een ander licht op de taken en verantwoordelijkheden van de IT-organisatie als geheel. Het datamanagement fungeert als fundament en middelpunt van de moderne, professionele IT-organisatie. Zonder data geen BI-toepassingen. Het technologisch perspectief omvat innovatieve concepten en gereedschappen. Denk dan aan het inzetten van metadata als basis voor datamanagement.
Dimensies van data
Het professioneel managen van datastromen binnen de wat grotere organisatie is geen sinecure. Diverse, vaak tegenstrijdige, belangen (bijvoorbeeld redundantie versus responstijd) en aspecten spelen een rol. Enige structuur, diverse werkmodellen, definities en een duidelijke verzameling richtlijnen zijn nodig om inhoud te geven aan datamanagement. Data heeft een viertal dimensies zoals weergegeven in figuur 3.
Figuur 3: De vier dimensies van data
De inhoud van data verwijst naar concrete zaken in het dagelijks leven. Denk dan aan een specifieke klant of een bestelling. Validatie en beveiliging zijn hier de meest in het oog springende aspecten. De vorm waarin de data zich manifesteert raakt de aspecten redundantie en gebruiksvriendelijkheid.
De dimensie tijd beschouwt data in relatie tot de aspecten historie, responstijd en actualiteit. Tenslotte is de locatie, de plek waar data wordt opgeslagen, van belang. De actualiteit en redundantie van data zijn aan deze zijde relevante vraagstukken. Het aspect beschikbaarheid heeft eigenlijk betrekking op alle vier de dimensies. Data is niet op tijd, niet in de juiste vorm of niet op de juiste locatie beschikbaar of is afwezig omdat registratie wordt nagelaten.
Definitie van datamanagement
Datamanagement is het proces of de functie die voorziet in het toegang verschaffen tot de data, het uitvoeren en monitoren van de opslag van data en het beheersen van de daarbij behorende in- en uitvoeroperaties. Datamanagement verschaft ten eerste toegang tot data, ten tweede slaat ze data op en ten derde transporteert ze data.
De hamvraag is hoe dit te organiseren zodat data rendabel kan worden voor de organisatie. De basisoperaties binnen datamanagement geven hierbij richting. Figuur 4 geeft die operaties weer.
Figuur 4: De basisoperaties van datamanagement
De bovenste drie operaties hebben een meer ontwerpachtig karakter. Een draaitijdomgeving zoals weergegeven binnen de rechthoek verduidelijkt de overige operaties. In de ontwerpomgeving wordt het datamodel vormgegeven. De entiteiten krijgen attributen en voorzien van onderlinge relaties.
De levenscyclus van data
De levenscyclus van een data-element is begonnen. De databaseontwerper implementeert het model in het informatiesysteem en beveiligt de data door autorisaties. De publicatie van het datamodel is voor een efficiënte ICT-organisatie van groot belang. Ontwikkelaars van applicaties, managementinformatiesystemen en CRM-systemen zijn maar wat graag van het datamodel op de hoogte. Ook gebruikers weten graag welke data wordt geregistreerd en wat de betekenis ervan is. Metadata is een vereiste voor toegang tot data en het opvragen van informatie.
Datamanagementprocessen
De geschakelde processen aan de onderkant van de figuur geven zicht op de datastroom en de daarbij behorende datamanagementprocessen wanneer het informatiesysteem in werking is. Het eerste proces, “valideer,” draagt zorg dat niet-integere data niet wordt opgeslagen. De daaropvolgende processen “transformeer” en “dupliceer” draaien meestal ’s nachts in batchverwerkingsmode. Het betreft data die overdag in de bedrijfsdatabase is veranderd. Het proces “publiceer en consumeer” in deze schakel genereert direct de respons (bijvoorbeeld in de vorm van een factuur) of ondersteunt de organisatie bij het genereren van een adequate respons (bijvoorbeeld door de frequentie van de klantbezoeken op te schroeven met als doel de omzet per klant te verhogen).
Volg de opleiding Datawarehouse & Data Management Tijdens deze 3-daagse cursus Datawarehouse & Data Management maak je in 3 intensieve dagen kennis met alle begrippen om je datahuishouding op orde te krijgen. Daarnaast neemt de docent Dick Pouw MBA je mee in de wereld van datawarehouses, de beginselen van data integratie, het beheren van een datawarehouse, het verbeteren van de datakwaliteit, big data lakes en welke Data Governance jouw situatie vereist.
De 3-lagen architectuur
Deze vier processen zijn tijdens het draaien van het informatiesysteem het beste zichtbaar. Echter, deze processen en de daarbij behorende vereiste logica en kennis ontstaan niet vanzelf. De databaseontwerper dient deze logica, in de vorm van validatie-, transformatie- en duplicatieregels zorgvuldig te modelleren. Ook voor de doorgewinterde data architect is dit een hele uitdaging.
Figuur 5: De 3-lagen architectuur
De data wordt pas opgeslagen wanneer het zich toegang verschaft tot de drie lagen. De allereerste laag, de gebruikersinterface, stuurt de data door naar de applicatielaag die op zijn beurt zorgt voor doorvoer naar de datalaag. Deze laag zelf is verantwoordelijk voor de fysieke opslag op schijf (hier niet getekend).
Tenslotte worden er signalen van beneden naar boven teruggegeven of de transactie succesvol is geweest. De gebruikersinterface kan bestaan uit een command-line gestuurde interface voor batchachtige verwerkingen of een graphical user interface (GUI). Hier voeren gebruikers de data in met formulieren.
Kwaliteit van data
Een feit is dat een goed ontwerp van de gebruikersinterface in hoge mate kan bijdragen aan de kwaliteit van de data. Zogenaamde keuzelijsten waaruit een gebruiker kiest beperken de kans op onjuiste data-invoer. Dit wil niet zeggen dat de gebruikersinterface de meest geëigende plek is voor validatie. Iedere database ontvangt immers doorgaans ook vanuit andere applicaties invoer. Validatieregels horen dan ook thuis in de database. De drie lagen zijn dus nauw met elkaar verbonden.
Conclusie
Data kent een ellenlange historie en een eigen levenscyclus. Tegenwoordig wordt data gezien als het nieuwe goud of de nieuwe olie. Datamanagement fungeert als het fundament en centrale middelpunt van een moderne, professionele IT-organisatie. Realiseer je dat zonder data BI- of AI-toepassingen nooit van de grond komen.