INLEIDING
• DATA VALUE ESCALATOR
= Hoe complexer de vraagstelling (aan de data), hoe meer waarde de output heeft
• DATA VALUE GAP
Data value gap zo klein mogelijk maken
= de data die ze hebben proberen te gebruiken
naar analogie met de potentiële waarde die erin
zit
, 1. DATA-ANALYTICAL THINKING
1. WAAROM
• DATA OPPORTUNITIES
1) hoeveelheid aan data
2) grote variëteit aan data
3) technologische voordelen: computerkracht, netwerken tussen databases, algoritmen
o big data 1.0 => big data 2.0
→ Web 1.0
= start van het internet, online aanwezigheid voor bedrijven (bereikbaarheid) en commerciële
mogelijkheden (online verkoop)
→ Big data 1.0
= bedrijven moeten grote hoeveelheden data kunnen verwerken
→ Web 2.0
= niet enkel actief zijn, maar ook consumenten gaan betrekken
=> bv: laat een review achter op een gekocht product
→ Big data 2.0
= wat doen met de verwerkte big data
• POSSIBLE APPLICATIONS
= veel mogelijke toepassingen waarin je data kan gebruiken
→ bv: personalisering, voorspelling van terugbetaling, ….
o Marketing
→ targeted marketing
→ online advertising
→ recommendations for cross selling
o Customer relationship management
→ het gedrag van klanten analyseren
→ hoe ervoor zorgen dat je de maximale waarde uit een klant haalt
o Finance: credit score & trading
o Operations management: fraude detecteren
o Corporate performance management (wordt opgelegd door overheid)
o Market: mergers & globalisering
→ zorgt voor verschillende soorten data uit verschillende bronnen = complexer
• COMPLIANCE TO REGULATIONS
= er is steeds meer regularisatie (regels) waaraan bedrijven moeten voldoen, en dit bewijzen ze adhv
een data-analyse, bv: is een bank solvabel
→ Basel II = minimum aangehouden eigen vermogen voor banken
→ Solvency II = voor verzekeringsmaatschappijen
,2. WAT IS DATA ANALYTICAL THINKING
• DATA ANALYTICAL THINKING
= data gebruiken om een business problem op te lossen
= op een systematische manier
= begrijpen van data-driven campagnes
= nood aan managers die data-analytische skills hebben
→ big data is big business
3. WAT IS DATA SCIENCE
• DOEL
= verbeteren van beslissingsproces in belang van het bedrijf
→ Data-Driven Decision Making = model die we gebruiken voor data science
• FOUNDATION PRINCIPLES
o Nuttige info uit data halen
→ CRISP-OM
o Selecteren welke data betekenisvol is
→ welke data is relevant
→ niet aan over-fitting doen door té veel te zoeken
4. VOORBEELDEN
• HURRICANE FRANCES – WALMART = DATA MINING
= wat zijn de populairste producten wanneer een orkaan aankomt
→ resultaat: kaarsen en aardbeigebakjes en bier => kon voorspeld worden adhv data
• PREGNANCY PREDICTION – TARGET = DATA MINING
= wanneer een koppel zwanger is, gaan ze minder tijd hebben om te winkelen
→ adhv data kon voorspeld worden of een consument zwanger is
• CHUM PREDICTION – MEGATELCO = DATA MINING
• SIGNET BANK VS CAPITAL ONE = ANALYTICAL THINKING
= grootste winsten wordt gedaan op maar klein percentage van de creditcards, als je die groep kan
overtuigen om bij jou als bank te gaan maak je dus de grootste winst
→ eerst verlies gemaakt (grote investering) om dan winst te maken
• AMAZON = ANALYTHICAL THINKING
= meer producten verkopen door recommandaties obv wat andere klanten ook kochten wanneer ze
hetzelfde product als jouw kochten
• HARRAH’S CASINO’S = ANALYTHICAL THINKING
• THE VALUATION OF FACEBOOK AND TWITTER = ANALYTHICAL THINKING
= valuatie van facebook en twitter (nu X) zijn heel data gedreven
, 2. BUSINESS PROBLEMS & DATA SCIENCE SOLUTIONS
• DIFFERENT DATA MINING TASKS
→ bv data-driven business problem: welke klanten waarschijnlijker om hun lening niet terug te betalen
o Classification & class probability estimation
= voor elke individu voorspellen in welke klasse hij behoort
→ zal iets gebeuren?
o Regression
= voor elk individu voorspellen aan welke variabel hij hoeveel waarde heeft
→ in welke mate zal iets gebeuren?
o Similarity matching
= gelijkaardige producten matchen (bv op amazon)
o Clustering
= individuen groeperen obv gelijkaardigheid
o Co-occurence grouping
= gelijkaardige producten groeperen, obv de bijhorende transacties
o Profiling
= profiel van een klant proberen opstellen om zijn gedrag te voorspellen
o Link prediction
= voorspellen dat een individu ook iets anders kent/wilt, bv facebook: you might know this person
o Data reduction
= grote dataset vervangen door kleinere dataset dat evenveel informatie bevat
o Causal modelling
= begrijpen welke gebeurtenissen of acties invloed hebben op anderen
• SUPERVISED VS UNSUPERVISED
o Supervised = met target variable
→ bv: ‘can we find groups of customers who have a high likelihood of denying?’
→ nood aan target data!
→ betekenisvollere resultaten
o Unsupervised = zonder target variable
→ bv: ‘do our customers naturally fall into different groups?’
→ geen garantie op betekenisvolle resultaten