Certified Data Engineer Professional

Locatie

Wattbaan 1, Nieuwegein

Aantal bijeenkomsten

12 lessen

Doorlooptijd

12 weken

Lesdag

Donderdag

Lestijden

09:30 – 16:30

Investering

€6600

Met deze data engineering opleiding doe je praktische kennis en kunde op voor het data engineer tijdperk van morgen.

De data engineering opleiding bestaat uit presentaties, cursusmateriaal, interactieve notebooks, voorbeelden en opdrachten. Je krijgt een introductie in de concepten die er toe doen in het data engineering vakgebied. De modules die dan volgen zijn een mix van theorie en praktijkopdrachten. Met behulp van voorbeeldcode kun je de eerste stappen maken als data engineer, daarna ga je al snel zelf aan de slag om je eigen code te ontwikkelen. Alle voorbeelden en het cursusmateriaal zijn direct bruikbaar. Ook na de cursus is al het materiaal een waardevolle asset waardevolle asset als ‘snel starter’ voor je nieuwe data engineering projecten! Een onmisbare tool box voor een snelle start van je project bij elke klant of in elk project.

Leerdoelstelling

In DIKW’s visie zullen succesvolle organisaties van de toekomst transformeren naar een meer en meer data gedreven organisatie. Hierin speelt het analyseren en toepassen van algoritmes en statistiek een steeds belangrijkere rol.

Data engineering is een breed vakgebied. Om je dit vakgebied eigen te maken zul je moeten investeren in verschillende concepten, tools en technologieën. Deze opleiding gaat je helpen om de data in de juiste vorm op de juiste plaats en op het juiste tijdstip te krijgen, zodat je eindgebruikers worden voorzien in hun informatiebehoefte.

Deze opleiding zorgt voor een brede basis in het vakgebied. Je bent natuurlijk niet gelijk een doorgewinterde specialist maar de certificering garandeert een gedegen kennis van de huidige stand van zaken zoals je dat van DIKW Academy verwacht.

Programma

We lopen kort door het hele programma heen, zodat je weet wat je kunt verwachten. We duiken zo snel mogelijk in de wereld van data engineering. We behandelen wat (big)data engineering is. Welke skills heeft een data engineer nodig? Hoe werken gedistribueerde datastores? 

Je wordt meegenomen in de beginselen van DAMA waarbij je meer inzicht krijgt in (big) data Management, (big) data Architecture en (big) data Infrastructure. In deze module gaan we zelf aan de slag. Je zal eerst inzicht krijgen in de verschillende vormen van een data-pipeline en daarna werk je de code voor diverse data-pipelines verder uit. Je leert hoe je een bestand moet uitlezen van HDFS, een transformatie uitvoeren in Spark. Een REST API uitlezen (met authenticatie) en de data manipuleren. Ook komt stateless v.s. stateful processing aanpassen in een Python implementatie van een Apache Kafka en een Apache Flink streaming proces aan bod.

We geven weer een mix zijn van theorie en praktijk. Vanuit de DAMA optiek zal je de beginselen gedoceerd krijgen van Data Quality, Data Security en Data Storage. Waarom bestaat het en waarom is het zo belangrijk? Het praktische gedeelte zal bestaan uit het transformeren van data in Spark. Hierbij zal vooral aandacht besteed worden aan dataselectie, data cleansing en het aggregeren van data.

Opnieuw is er een mix van theorie en praktijk. Je gaat vanuit de DAMA optiek aan de slag met Data Ethics om er voor te zorgen dat je snapt waar grenzen liggen en wanneer deze dreigen overschreden te worden. Hoe je in Data Governance de lijnen neerlegt en de piketpaaltjes slaat zodat je de betrouwbaarheid van data kunt waarborgen. Data Integration en Data Interoperability zullen ook aan bod komen. Je zult ook een overzicht krijgen van de verschillende databases/datastores (SQL en NoSQL) die er zijn, wanneer en hoe je ze inzet. Tijdens de les komen producten zoals Hadoop, MongoDB, Neo4J, MarkLogic, etc. aan bod. Tijdens het praktijkgedeelte ga je onder meer aan de slag met het bouwen van een Pipeline naar Hadoop, tabellen aanmaken in Hive, een node toevoegen in een HDFS Cluster, etc.

We starten met de theorie uit DAMA over Data modelling en design, de principes van data warehousing, business intelligence en metadata management. Al snel ga je weer met praktijkcases aan de slag. Je gaat deze keer een pipeline bouwen in de ELK stack (Elasticsearch, Logstash, Kibana) en de ingelezen data query-en en visualiseren.

Deze module gaat over de architectuur en componenten van een Logical Data Warehouse (Data Lake, Landing Zone, Raw Data Layer, Cleaned Data Layer, Business Data Layer, etc). Hoe kun je het best de verschillende intelligence ontwikkelstijlen hier op plotten ter ondersteuning van BI & Analytics vraagstukken? Tijdens het praktijkgedeelte gaan we dieper in op containerization en hoe je dit doet met behulp van Docker. Je gaat pipelines uitrollen en connecties leggen tussen verschillende Docker containers. Als je dit redelijk onder knie hebt gaan we door met het zogenaamde “container orchestration” met behulp van Kubernetes. 

We gaan dieper in op de integratie van de data uit de bronsystemen. Er wordt kort ingegaan op een aantal data vault concepten, om vervolgens twee vormen van een integratiemodel te bespreken: OMARIC en OMAFIC. In het praktijkgedeelte introduceren we de cloud: de architectuur, services, belangrijkste cloud providers en de voor- en nadelen. De relatie met het reeds onderwezen kader in eerdere modules met de aangeboden services in de cloud: Containers, Kubernetes, Hadoop, Databases, Kafka, etc. En de manieren van interactie met de cloud: opdrachtregel, API, web-UI, etc. Je gaat in Azure aan de slag om dit allemaal in de praktijk te brengen.

We gaan het hebben over de presentatie-laag. In deze laag staat typisch de data zoals deze aan de eindgebruikers wordt gepresenteerd. In de meeste gevallen wordt deze gemodelleerd als een ster model (dimensional modeling) omdat deze vorm eenvoudig te begrijpen is voor de eindgebruiker, in tegenstelling tot bijvoorbeeld een relationeel model. Hier leer je de dimensionele modelleertechniek van Kimball en kun je deze afzetten tegen de relationele en Data Vault modelleertechnieken die eerder in deze cursus zijn behandeld. Als praktijkopdracht geldt in deze module dat je in staat bent om zelf een eenvoudig dimensioneel model te ontwerpen en bouwen. Op deze dag zullen ook de cases opgestart worden waar jij je de komende weken mee bezig gaat houden. 

In overleg stellen we een opdracht samen per cursist, eventueel in teamverband wordt er gewerkt aan een opdracht, een belangrijk onderdeel van de certificering als data engineer. De deelnemers hebben deze dag de tijd om onder begeleiding om aan de opdracht te werken.

Je gaat aan de slag met de organisatorische aspecten van data logistiek. Gegevensverzamelingen voor datawarehouse en data science toepassingen dienen regelmatig of continu betrouwbaar te worden aangevuld of ververst. Indien er (on)geplande verstoringen zijn, dient dit zo efficiënt mogelijk te worden behandeld. Hiervoor zijn twee instrumenten die tegelijkertijd nodig zijn: Service Level Agreements en Data Delivery Agreements (GegevensLeverings Overeenkomsten). In deze module komt de relevantie van deze overeenkomsten en de relatie met de cursus serie aanbod.

Een kort oefenexamen wordt afgenomen als voorbereiding op het examen over theorie. Je hebt deze dag de tijd om onder begeleiding aan de opdracht te werken.

Het resultaat van de opdracht wordt gepresenteerd in een voordracht van maximaal 20 minuten. De presentatie is voor de andere cursus deelnemers en de examen commissie. De presentatie wordt beoordeeld op analytische diepgang en de commerciële businesscase. Na een evaluatie van de training door de cursisten en de beoordeling van de presentaties gaan we over tot de feestelijke uitreiking van de certificaten Certified Data Engineering Professional.

Docenten

Bel mij

Veelgestelde vragen

We hebben opleidingen van drie dagen tot een half jaar. De studiebelasting is zo gekozen dat je de opleiding naast je werk kunt doen. 

Dat wil zeggen dat je naast de opleidingsdag er vanuit moet gaan dat je nog één avond (3 uur) bezig bent met studeren of opdrachten maken.

Veel van de opleidingen bij DIKW Academy zijn praktisch ingestoken. Dat wil zeggen dat je hands-on aan de bak moet. Tools installeren, dingen uitzoeken en aan de praat krijgen. 

Algoritmes proberen, testen of dingen werken en of je snapt wat er gebeurt. 

 

Daarnaast is in veel opleidingen een praktijkcase die je uitvoert. Als je dat een beetje handig aanpakt zul je zien dat je die opdracht heel mooi kunt gebruiken om een eerste Minimal Viable Product (MVP) op het gebied van data science of data engineering kunt maken voor jouw opdrachtgever. Daarin willen mensen nogal eens erg enthousiast worden en er meer tijd in steken dan zo vooraf hadden gedacht. Maar wel met vaak een heel mooi resultaat.

De locatie van de DIKW Academy is:

Wattbaan 1
3439ML Nieuwegein

 

Onze academy is ingericht op hybride werken. Voor de leeromgeving niet ideaal, maar mocht het een keer net zo uitkomen, sluit je net zo makkelijk online aan. 

Ja. Wij hebben een eigen video conferencing service (Jitsi) en een e-learning platform (Moodle) waar al het materiaal beschikbaar is. 

Het helpt als je al ervaring hebt met bepaalde onderdelen van de opleiding. Bij de opleiding Certified Data Science Professional (CDSP) is het bijvoorbeeld handig als je je kennis van beschrijvende en toetsende statistiek hebt opgefrist, of als je al ervaring hebt in een scriptingtaal. Ook voor CDEP is er echter geen specifieke voorkennis nodig, maar het maakt het wel makkelijker. Bij jouw  inschrijving ontvang je een document waarin staat hoe je je optimaal kan voorbereiden op de opleiding.


Mocht je ergens over twijfelen,  mag je altijd contact met ons opnemen. 

Je hoeft geen eigen data te hebben om de praktijkopdracht uit te voeren. Ook met een dataset die online te vinden is kun je een mooie praktijkcase maken. De docent zal je begeleiden bij het zoeken naar een geschikte dataset.

Nee. Sinds 2022 zijn studiekosten niet meer aftrekbaar van de inkomstenbelasting. 

Neem dan even contact met ons op.