DIKW opleiding Certified Data Engineer Professional

Opleiding Certified Data Engineering Professional

Deze opleiding heeft als doel de Informatie Specialist van nu klaar te stomen als de data engineer van morgen.

Opleiding Certified Data Engineering Professional

In het kort

Je gaat 12 weken, 1 dag in de week, op locatie of online aan de slag. Op de overige dagen kun je je lessen voorbereiden of aan opdrachten werken voor enkele uren op de dag. De opleiding bestaat uit presentaties, cursusmateriaal, voorbeelden en opdrachten. Je krijgt een introductie in de concepten die er toe doen in het data engineering vakgebied. De modules die dan volgen zijn een mix van theorie en praktijkopdrachten. Met behulp van voorbeeldcode kun je de eerste stappen maken als data engineer, daarna ga je al snel zelf aan de slag om je eigen code te ontwikkelen. Alle voorbeelden en het cursusmateriaal zijn direct bruikbaar, ook na de cursus een waardevolle asset als ‘snel starter’ voor je nieuwe data engineering projecten! Een onmisbare toolbox voor een snelle start van je project.
Een belangrijk onderdeel is de praktijkopdracht: de laatste 5 weken ga je onder begeleiding van de DIKW coaches je eigen data engineering project vormgeven. Je zult niet de eerste zijn die hiermee een daverende businesscase voor de investering in deze cursus realiseert!

Leerdoel

In de visie van DIKW zullen succesvolle organisaties van de toekomst transformeren naar data-gedreven organisaties. Vanuit een informatievoorzieningsperspectief vind een transformatie plaats naar een meer hybride omgeving in termen van gestructureerde en niet gestructureerde database systemen en services verdeeld en geschaald over verschillende cloud diensten. Data flexibiliteit staat daarbij centraal.

Deze data systemen kunnen op verschillende wijzen worden gevoed: streaming, batch-georiënteerd, near-realtime via micro-services. Hiervoor zijn infrastructuren nodig die de moderne vorm en snelheden van dataverwerking aan kunnen. Je zult een gedegen basis krijgen in de beginselen van data management, zodat je de  continu veranderende datastromen in goede banen kunt leiden. Daarnaast is het van belang dat gegevens goed beveiligd worden opgeslagen  en tegelijkertijd goed en snel  benaderbaar zijn voor de gebruikers. Tegelijkertijd dient de data gemodelleerd te worden zodat de eindgebruiker deze data op een efficiënte manier kan consumeren op de manier die zei wenst. De complete pipeline die voldoet aan alle vooraf gestelde eisen zul jij ontwerpen en ontwikkelen.

Data engineering  is een breed vakgebied. Om je dit vakgebied eigen te maken zul je moeten investeren in  verschillende concepten, tools en technologieën. Deze opleiding gaat je helpen om de data in de juiste vorm op de juiste plaats en op het juiste tijdstip te krijgen, zodat je eindgebruikers worden voorzien in hun informatiebehoefte.

Deze opleiding zorgt voor een brede basis in het vakgebied. Je bent natuurlijk niet gelijk een doorgewinterde specialist maar de certificering garandeert een gedegen kennis van de huidige stand van zaken zoals je dat van DIKW Academy mag verwachten.

Na 12 weken zul je je bewust zijn van de (on) mogelijkheden van het vakgebied en ben je "bewust onbekwaam": je weet waar de valkuilen zitten en je kunt zelfstandig aan de slag.

Programma

Week 1: Introductie

Hieronder wordt het hele programma wordt kort doorlopen. Zodat je weet wat je in de 12 weken gaat doen en leren. 

Zaken die aan bod komen tijdens de eerste dag:

  • Wat is (big)data engineering?
  • Welke skills heeft een data engineer nodig?
  • Hoe werken gedistribueerde datastores?

Week 2: Data Management Proces & Big Data Infrastructure

Op de tweede lesdag zul je meegenomen worden in de beginselen van DAMA waarbij je meer inzicht krijgt in (Big) Data Management, (Big) Data Architecture en (Big) Data Infrastructure.

In deze module gaan we zelf aan de slag. Je zal eerst inzicht krijgen in de verschillende vormen van een data-pipeline en daarna werk je de code voor diverse data-pipelines verder uit.

Zaken die hier aan bod komen zijn:

  • Een bestand uitlezen van HDFS, een transformatie uitvoeren in Spark.
  • REST API uitlezen (met authenticatie) en de data manipuleren.
  • Stateless v.s. stateful processing aanpassen in een Python implementatie van een Apache Kafka en een Apache Flink streaming proces.

Week 3: Data- Quality, Security, Storage, Operations & Spark

De derde lesdag zal weer een mix zijn van theorie en praktijk. Vanuit de DAMA optiek zal je de beginselen gedoceerd krijgen van Data Quality, Data Security en Data Storage. Waarom bestaat het en waarom is het zo belangrijk? Het praktische gedeelte zal bestaan uit het transformeren van data in Spark. Hierbij zal vooral aandacht besteed worden aan dataselectie, data cleansing en het aggregeren van data.

Week 4: Data- Ethics, Governance, Integration, Interoperability, MDM, MRM, & Hadoop

Op de vierde lesdag zal wederom een mix volgen van theorie en praktijk. Je gaat vanuit de DAMA-optiek aan de slag met Data Ethics om er voor te zorgen dat je snapt waar grenzen liggen en wanneer deze dreigen overschreden te worden. Hoe je in Data Governance de lijnen neerlegt en de piketpaaltjes slaat zodat je de betrouwbaarheid van data kunt waarborgen. Data Integration en Data Interoperability zullen ook aan bod komen. Op deze dag zul je ook een overzicht krijgen van de verschillende  databases / datastores (SQL en NoSQL) die er zijn, wanneer en hoe je ze inzet. Tijdens de les komen producten zoals Hadoop, MongoDB, Neo4J, MarkLogic, etc. aan bod. Tijdens het praktijkgedeelte ga je onder meer aan de slag met het bouwen van een Pipeline naar Hadoop, tabellen aanmaken in Hive, een node toevoegen in een HDFS Cluster, etc.

Week 5: Data Modelling and Design, DWH, BI, Metadata Management & ELK

De vijfde lesdag start met de theorie uit DAMA over Data modelling en design, de principes van Datawarehousing, Business Intelligence, Metadata Management. Al snel ga je weer met praktijkcases aan de slag. Je gaat deze keer een pipeline bouwen in de ELK stack (Elasticsearch, Logstash, Kibana)  en de ingelezen data query-en en visualiseren.

Week 6: Data Modelling & Data Logistics & Big Data Infrastructure

Deze module gaat over de architectuur en componenten van een Logical Data Warehouse (Data Lake, Landing Zone, Raw Data Layer, Cleaned Data Layer, Business Data Layer, etc). Hoe kun je het best de verschillende intelligence ontwikkelstijlen hier op  plotten ter ondersteuning van BI & Analytics vraagstukken? Tijdens het praktijkgedeelte van deze dag gaan we dieper in op containerization en hoe je dit doet met behulp van Docker. Je gaat pipelines uitrollen en connecties leggen tussen verschillende Docker containers. Als je dit redelijk onder knie hebt gaan we door met het zogenaamde “container orchestration” met behulp van Kubernetes. 

Week 7: Data Modelling,  Data Logistics & Cloud Services

Op deze dag wordt dieper ingegaan op de integratie van de data uit de bronsystemen. Er wordt kort ingegaan op een aantal data vault concepten, om vervolgens twee vormen van een integratiemodel te bespreken: OMARIC en OMAFIC. In het praktijkgedeelte van deze dag  introduceren we de cloud: de architectuur, services, belangrijkste cloud providers en de voor- en nadelen. De relatie met het reeds onderwezen kader in eerdere modules met de aangeboden services in de cloud: Containers, Kubernetes, Hadoop, Databases, Kafka, etc. En de manieren van interactie met de cloud: opdracht regel, API, web-UI, etc. Je gaat in Azure aan de slag om dit allemaal in de praktijk te brengen.

Week 8: Data Modelling & Data Logistics & Start Case

Op deze dag gaat het over de presentatie-laag. In deze laag staat typisch de data zoals deze aan de eindgebruikers wordt gepresenteerd. In de meeste gevallen wordt deze gemodelleerd als een ster model (dimensional modeling) omdat deze vorm eenvoudig te begrijpen is voor de eindgebruiker, in tegenstelling tot bijvoorbeeld een relationeel model. Hier leer je de dimensionele modelleertechniek van Kimball en kun je deze afzetten tegen de relationele en Data Vault modelleertechnieken die eerder in deze cursus zijn behandeld. Als praktijkopdracht geldt in deze module dat je in staat bent om zelf een eenvoudig dimensioneel model te ontwerpen en bouwen. Op deze dag zullen ook de cases opgestart worden waar jij je de komende weken mee bezig gaat houden. 

Week 9: Introductie Case 

In overleg stellen we een opdracht samen. Per cursist, eventueel in teamverband, wordt er gewerkt aan een opdracht, een belangrijk onderdeel van de certificering als data engineer. De deelnemers hebben deze dag de tijd om onder begeleiding van een DIKW Academy Coach aan de opdracht te werken.

Week 10: Data Logistiek Verwerking onder Architectuur

Op deze dag ga je aan de slag met de organisatorische aspecten van data logistiek. Gegevensverzamelingen voor datawarehouse en data science toepassingen dienen regelmatig of continu betrouwbaar te worden aangevuld of ververst. Indien er (on)geplande verstoringen zijn, dient dit zo efficiënt mogelijk te worden behandeld. Hiervoor zijn twee instrumenten die tegelijkertijd nodig zijn: Service Level Agreements en Data Delivery Agreements (GegevensLeverings Overeenkomsten). In deze module komt de relevantie van deze overeenkomsten en de relatie met de cursus serie aanbod.

Week 11: Opdracht & oefenexamen

Een kort oefenexamen wordt afgenomen als voorbereiding op het examen over theorie. De deelnemers hebben deze dag de tijd om onder begeleiding van de DIKW Academy Coach aan de opdracht te werken.

Week 12: Case Presentatie & Examinatie

Het resultaat van de opdracht wordt gepresenteerd in een voordracht van max 20 minuten. De presentatie is voor de andere cursus deelnemers en de examencommissie. De presentatie wordt beoordeeld op diepgang en de businesscase. Na een evaluatie van de training door de cursisten en de beoordeling van de presentaties gaan we over tot de feestelijke uitreiking van de certificaten Certified Data Engineering Professional !!! 

Informatie

Investering

Deze opleiding wordt aangeboden voor €6.600,- ex BTW

(Alumni van DIKW Academy krijgen  10% korting op vervolg trainingen.)

Cursusduur

De cursus duurt 12 weken, 1 dag per week (van 9.30 – 17.00 uur) en wordt op elke woensdag van de week gegeven.

Locatie

De locatie waar de cursus gegeven wordt, is het opleidingscentrum van DIKW Academy, Wattbaan 1 te Nieuwegein.

VIND JE START DATUM

Jou volgende stap start hier!

Wim Lubbers

Wim Lubbers

Managing Partner…

Lees meer