Wattbaan 1, Nieuwegein
12 lessen
12 weken
Woensdag
09:30 – 16:30
€ 6600
In de visie van DIKW zullen succesvolle organisaties van de toekomst transformeren naar een meer en meer data gedreven organisatie. Hierin speelt het analyseren en toepassen van algoritmes en statistiek een steeds belangrijkere rol.
Data science is een breed vakgebied en omvat veel verschillende concepten, tools en technologie. Om je dit vakgebied eigen te maken zul je moeten investeren in een programmeertaal waarmee je algoritmes kunt gaan toepassen op je data.
De opleiding data science zorgt voor een brede basis in het vakgebied. Je bent natuurlijk niet gelijk een doorgewinterde specialist maar de certificering garandeert een gedegen kennis van de huidige stand van zaken zoals je dat van DIKW Academy mag verwachten.
Na 12 weken zul je bewust zijn van de (on) mogelijkheden van het vakgebied en ben je “bewust onbekwaam”, je weet waar de valkuilen zitten en je kunt zelfstandig aan de slag.
Het hele programma wordt kort doorgelopen, zodat je weet wat je kunt verwachten. We duiken zo snel mogelijk in de wereld van Python. We behandelen de basis data bewerkingen in Python en maken een start met uni-variate analyses. Je raakt bekend met de standaard aanpak voor data science CRISP-DM.
We starten met een wetenschappelijk artikel van Stevens uit 1946 over meetwaarden en schalen. Daarna maken we kennis met data munging aan de hand van de mogelijkheden van pandas. Als laatste maken we kennis met het Anaconda platform voor data science in Python.
We geven een overzicht van het machine-learning landschap en gaan aan de slag met de classificatie taak. Ook maken we kennis met de kracht van sampling technieken, permutaties en bootstraps.
We maken kennis met Stephan Few’s ideeen over “Storytelling with data”. Hoe zorg je ervoor dat je plaatje meer zegt dan 1000 woorden? De ‘Grammar of Graphics‘ in het package ggplot, plotly en Seaborn komen aan bod. We bouwen een geavanceerde visualisatie stap voor stap op. In de tweede module laten we de kracht van matrix algebra zien en maken we onze eigen robuuste clustering. We sluiten af met een overzicht van segmenterings- en clusteringtechnieken.
“The Cloud” is iemand anders haar computer. Hoe kan ik data science en machine learning opzetten in de cloud? ? Welke database opties heb ik? Document stores, tuple & triple stores, columnar databases. NoSQL, XML databases. Distributed file systems, Apache HADOOP ecosysteem. Databricks Apache SPARK. Na deze dag weet je hoe de wereld van big data eruit ziet en ben je in staat een keuze te maken voor een van deze systemen bij de start van een big data project. Daarnaast krijg je meer wiskunde met toepassingen van matrix decompositie in feature reductie door middel van Principale Componenten Analyse en kijken we naar dimension reduction aan de hand van uniform manifold projectie en t-SNE .
Ensemble learning, bagging, boosting en random forests staan op het programma. Ook kijken we in detail naar model kwaliteit en de verschillende maten om kwaliteit te meten. We sluiten af met social network analyse door live een twitter feed te analyseren.
Deze dag staat in het teken van tekst en search. Met Python Natural Language Tool Kit (NLTK) onderzoeken we de mogelijkheden voor het analyseren van teksten. Feature extractie, tellen van woorden en woordcombinaties en het visualiseren van resultaten. Ook maken we kennis met open data en het semantic web, hierin heeft alle data context. We laten zien hoe we daar als data scientist gebruik van kunnen maken.
Deze dag in het teken van (het voorspellen van) tijdreeksen en survival analyses. Je raakt bekend met de aanpak voor het forecasten van tijdreeksen op basis van de forecasting principles van Rob Hyndman. We zullen de meest betrouwbare methoden voor het opstellen van voorspellingen van tijdreeksen onderzoeken. De nadruk zal liggen op methoden die reproduceerbaar en testbaar zijn, en waarvan is aangetoond dat zij werken.
Deze dag staat in het teken van de business case in data science. Hoe reken je een businesscase door waarbij een voorspelmodel ingezet wordt? Welke keuzes maak je om tot een optimaal resultaat te komen? Model kwaliteit speelt hier uiteraard een belangrijke rol bij maar we zullen ook goed moeten kijken naar de ethische aspecten van machine learning! Hoe identificeer je bias in je model? Welke methodes zijn er beschikbaar om te controleren dat je geen ongewenste effecten hebt getraind? Na deze dag kun je op verantwoorde wijze een ontwikkeld algoritme inzetten.
Een kort oefenexamen wordt afgenomen als voorbereiding op het examen over theorie en statistiek. Je hebt deze dag de tijd onder begeleiding aan de opdracht te werken.
Het examen bestaat uit een 50 multiple choice vragen (2 uur) en een programmeeropdracht in Python. Samen met de opdracht vormt dit examen de basis voor de certificering. Tevens is er ruimte om de laatste hand te leggen aan de eindpresentatie voor de opdracht.
Het resultaat van de opdracht wordt gepresenteerd in een voordracht van maximaal 20 minuten. De presentatie wordt gegeven aan de andere cursus deelnemers en de examencommissie. De presentatie wordt beoordeeld op analytische diepgang en de commerciële businesscase. Na een evaluatie van de opleiding door de cursisten en de beoordeling van de presentaties gaan we over tot de feestelijke uitreiking van de certificaten Certified Data Science Professional.
We hebben opleidingen van drie dagen tot een half jaar. De studiebelasting is zo gekozen dat je de opleiding naast je werk kunt doen.
Dat wil zeggen dat je naast de opleidingsdag er vanuit moet gaan dat je nog één avond (3 uur) bezig bent met studeren of opdrachten maken.
Veel van de opleidingen bij DIKW Academy zijn praktisch ingestoken. Dat wil zeggen dat je hands-on aan de bak moet. Tools installeren, dingen uitzoeken en aan de praat krijgen.
Algoritmes proberen, testen of dingen werken en of je snapt wat er gebeurt.
Daarnaast is in veel opleidingen een praktijkcase die je uitvoert. Als je dat een beetje handig aanpakt zul je zien dat je die opdracht heel mooi kunt gebruiken om een eerste Minimal Viable Product (MVP) op het gebied van data science of data engineering kunt maken voor jouw opdrachtgever. Daarin willen mensen nogal eens erg enthousiast worden en er meer tijd in steken dan zo vooraf hadden gedacht. Maar wel met vaak een heel mooi resultaat.
De locatie van de DIKW Academy is:
Wattbaan 1
3439ML Nieuwegein
Onze academy is ingericht op hybride werken. Voor de leeromgeving niet ideaal, maar mocht het een keer net zo uitkomen, sluit je net zo makkelijk online aan.
Ja. Wij hebben een eigen video conferencing service (Jitsi) en een e-learning platform (Moodle) waar al het materiaal beschikbaar is.
Het helpt als je al ervaring hebt met bepaalde onderdelen van de opleiding. Bij de opleiding Certified Data Science Professional (CDSP) is het bijvoorbeeld handig als je je kennis van beschrijvende en toetsende statistiek hebt opgefrist, of als je al ervaring hebt in een scriptingtaal. Ook voor CDEP is er echter geen specifieke voorkennis nodig, maar het maakt het wel makkelijker. Bij jouw inschrijving ontvang je een document waarin staat hoe je je optimaal kan voorbereiden op de opleiding.
Mocht je ergens over twijfelen, mag je altijd contact met ons opnemen.
Je hoeft geen eigen data te hebben om de praktijkopdracht uit te voeren. Ook met een dataset die online te vinden is kun je een mooie praktijkcase maken. De docent zal je begeleiden bij het zoeken naar een geschikte dataset.
Nee. Sinds 2022 zijn studiekosten niet meer aftrekbaar van de inkomstenbelasting.
Neem dan even contact met ons op.