Contents
Samenvatting DataScience – Msc Controlling 2025 .................................................... 1
Reguliere Lesstof ..................................................................................................... 2
1. Algemeen DataScience ..................................................................................... 2
1.1 Introductie .................................................................................................. 2
1.1 Succesfactoren ........................................................................................... 2
1.1 Ethiek, Bias & Responsible AI........................................................................ 3
2 Maturity Framework ........................................................................................... 4
2.1 Gartner Analytics Continuum ....................................................................... 4
2.1 V’s of Big Data ............................................................................................. 4
2.1 Push – Left Model ........................................................................................ 5
2.1 Innovation Path............................................................................................ 5
2.1 Wisdom Pyramid ......................................................................................... 6
3 Statistical Learning ............................................................................................ 7
3.1 Vraagstukken (Regressie & Classificatie) ....................................................... 7
3.1 Modelleren (Lineair Regressie & KNN) ........................................................... 7
3.1 Evalueren (MSE & Confusion Matrix) .............................................................. 9
3.1 Bias/ Variance TradeOff (Lineair Regressie & KNN)........................................ 11
4 Sustainability & DataScience ............................................................................ 14
4.1 Algemeen Sustainability ............................................................................. 14
4.1 The Respsonsible Business Simulator ......................................................... 14
4.1 Decision Maker’s Options ........................................................................... 14
Python .................................................................................................................. 15
Notebook 1 ........................................................................................................ 15
Notebook 2 ........................................................................................................ 16
Notebook 3 ........................................................................................................ 17
......................................................................................................................... 17
Notebook 4 ........................................................................................................ 18
Notebook 5 ........................................................................................................ 19
,Reguliere Lesstof
1. Algemeen DataScience
1.1 Introductie
Data Science: Is het vakgebied dat zich bezighoudt met het verzamelen, analyseren,
interpreteren en visualiseren van gegevens om inzichten te verkrijgen en betere
beslissingen te nemen. Het combineert drie kerngebieden:
1. Math & Statistics
2. Computer Science & IT
3. Business Expertise & Storytelling
Hoe verloopt een DataScience traject?
1. Probleemdefinitie: Begrijp en definieer het zakelijke of maatschappelijke
probleem dat je wilt oplossen.
2. Data Verzamelen: Verzamel relevante data uit verschillende bronnen (bijv.
databases, API’s, web scraping, sensoren).
3. Data Voorbereiden (Cleaning & Preprocessing): Maak de data bruikbaar:
verwijder fouten, vul ontbrekende waarden aan, pas formaten aan.
4. Data Verkennen (Exploratory Data Analysis - EDA): Analyseer de data visueel
en statistisch om patronen, trends en opvallende zaken te ontdekken.
5. Modelleren (Statistical Learning): Kies en train modellen die voorspellingen of
classificaties kunnen doen.
6. Data Visualisatie & Communicatie: Vertaal je analyse naar heldere grafieken en
verhalen die aansluiten bij je publiek.
7. Model Deployment & Maintenance: Zet het model in productie en zorg dat het
actueel en betrouwbaar blijft.
1.1 Succesfactoren
1. Business Decisions & Analytics: Zorg dat data science bijdraagt aan concrete
business beslissingen en meetbare impact.
2. Data & Information: Werk met kwalitatieve, goed gestructureerde en
toegankelijke data.
3. Technology & Infrastructure: Gebruik passende tools en schaalbare
technologie die aansluiten op de case.
4. Organization & Governance: Richt datagovernance en eigenaarschap goed in
(denk aan rollen zoals Chied Data Officer (CDO), stewards).
5. Process & Integration: Integreer data science in bestaande processen met
duidelijke deliverables.
6. Culture & Talent: Stimuleer datagedreven werken met de juiste mensen,
kennisdeling en leiderschap.
, 1.1 Ethiek, Bias & Responsible AI
Ethiek: Bij ethiek gaat het over het maken verantwoorde beslissingen met menselijke
waardigheid, eerlijkheid en de juiste maatschappelijke gevolgen. In DataScience een
belangrijke kwestie want:
1. Modellen hebben persoonsgevoelige informatie (etniciteit, inkomen, gender)
2. Modellen maken keuzes op basis van data (geen menselijke nuance)
3. Modellen kunnen hierdoor voor de mens discriminerende uitkomsten bevatten
Hierdoor is het van belang dat de volgende ethische waarden kunnen worden
gehandhaafd:
1. Menselijke autonomie en controle
2. Technische robuustheid en veiligheid
3. Privacy en Data Governance
4. Transparantie
5. Rechtvaardigheid (diversiteit, non discriminatie)
6. Maatschappelijk welzijn
7. Verantwoording
Bias: Betreft een systematische vertekening binnen modellen dat kan zorgen voor een
structureel oneerlijke of ongelijke behandeling. Bias ontstaat meestal door de
dataselectie (sample) waarop je model is gebaseerd. Als dit niet de werkelijkheid goed
representeert, dan kan dit zorgen voor Bias (Sampling Bias, Participation Bias, etc.). Je
kan Bias oplossen door:
1. Identificeer de gevoeligheden in je Data (gender, inkomen etc.)
2. Meet de eventuele Biases op basis van je geselecteerde gevoeligheden
3. Begrijp/ onderzoek waar deze Bias vandaan komt en her programmeer je model
op basis van deze Bias
Bias kan je nog meten door de diverse gevoelige groepen te vergelijken:
1. Equal oppertunity: Positieve voorspelling gelijk per groep?
2. Equalized odds: Gelijke kansen per groep?
3. Positive predictive Parity: gelijke positieve per groep?
4. Negative predictive Parity: gelijke negatieve per groep?
5. Accuracy Parity: Gelijke fourverdeling per groep?
Responsible AI: Het ontwerpen van modellen die ethisch verantwoord zijn, wettelijk
correct en maatschappelijk acceptabel. Volgens framework: