Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
Samenvatting

Samenvatting - Fundamentals of data science (5294FUDS6Y)

Beoordeling
5.0
(1)
Verkocht
2
Pagina's
70
Geüpload op
06-09-2025
Geschreven in
2024/2025

Summary of fundamentals of data science, fully in english

Instelling
Vak

Voorbeeld van de inhoud

Fundamentals of Data Science Summary Exam
Samirah Bakker

Introduction:
Data Science focuses on exploiting the modern deluge of data for prediction, exploration,
understanding, and intervention.
“ (...) the practice of data science is not just a single step of analyzing a dataset. Rather, it
cycles between data preprocessing, exploration, selection, transformation, analysis, interpretation, and
communication. One of the main priorities for data science is to develop the tools and methods that
facilitate this cycle. “

Python:
-​ Lists: ordered and mutable collection of objects [a,b,c]
-​ Can store any type of object
-​ Flexible yet inefficient → Therefore we have NumPy
-​ Tuple: ordered and immutable collection of objects (a,b,c)
-​ Set: unordered collection of unique values {a,b,c}
-​ Dictionary: collection of key : value {a:1, c:2}

NumPy:
-​ NumPy arrays at the core of any data science tool in Python
-​ Efficient interface to store and operate numerical data
-​ Efficient storage of numerical data
-​ Efficient manipulation of numerical data
-​ Implements efficient operations (e.g., matrix multiplication)

NumPy slicing:
-​ a[start:stop:step, start:stop:step, …]
-​ Some values can be omitted; by default: start=0, stop=end, step=1
-​ Values can be negative

NumPy array aggregation / reduction:
-​ In aggregation operations, the axis specifies which dimension to collapse!
-​ a.sum(axis=0) → array([4.,4.,4.])




-​ a.sum(axis=1) → array([3.,3.,3.,3.])

,NumPy Broadcasting:




a

Pandas:
-​ Pandas is built on top of NumPy, providing easy manipulation of labeled arrays (with 1 or
multiple dimensions) with heterogeneous data.

Data structures:
-​ Series → One dimensional array of indexed data. Here indexes can be other than sequence of
integers (indexes can be strings for example).
-​ DataFrame → Two dimensional array with flexible row indices and column names.
-​ DataFrame = dictionary of Series with different labels (keys) and common index
-​ Can be seen as a collection of Series, all sharing the same index.

Indexing and selection:
-​ NumPy ndarray: array[0] selects row 0
-​ Pandas DataFrame: states[‘area’] selects column area
-​ For dictionary-style indexing use df[‘column_name’][‘index’]
-​ For NumPy array-style indexing use loc, iloc df.loc[‘index’,‘column_name’] df.iloc[i,j]
-​ .loc -> array-style indexing, explicit indexing using labels
-​ .iloc -> array-style indexing, implicit indexing using positions

, -​ i.loc and loc → first access rows then columns!
-​ Dictionary style indexing → first we access columns and then rows!

Slicing and masking:




Handling missing data:

-​ df.notnull()
-​ df.isnull()
-​ df.dropna()
-​ df.dropna(axis=’columns)
-​ df.fillna(0)

Data science life-cycle:
-​ Does not consist of a single step
-​ Statistics and plotting are not everything, but simply a part of the cycle
-​ Problem driven: start by posing and understanding the question
-​ It is a cycle

The most frequent failure in data analysis is mistaking the type of question being considered.
-​ Any type of question can be interesting, but we need to define it upfront and be aware and
clear about its type
-​ Type of questions:
-​ Descriptive: what is out there? (e.g, national census; no interpretations are made)
-​ Exploratory: are there (apparently) trends, correlations, or relationships between the
measurements to generate ideas or hypotheses? Should we study further?
-​ Inferential: will an observed pattern likely hold beyond the data set we have? Any
significant correlation? Can we infer a population state from our small sample?
-​ Predictive: can we use features to predict an outcome?
-​ Causal: what happens to one measurement (statistically, on average) if we change
another?
-​ Mechanistic: what happens (deterministically) to one measurement if we change
another? How does a variable change another?

, Exploratory data analysis (EDA):

Exploratory data analysis: (informal definition) process of transforming, describing and visualizing a
data set to better understand it, identify problems and inform subsequent hypothesis and analysis.
EDA steps:
-​ Formulate initial question
-​ Collect raw data and understand the format
-​ Clean and pre-process the data
-​ Describe the dataset
-​ Make plots to visualize data distribution and relationship between some variables
-​ Is there any interesting trend that suggests further analysis? Do we have the right question and
data?

Principles of Data Visualization:
Rule 1: Know the audience
Rule 2: Identify your message beforehand
Rule 3: Adapt figure to medium
Rule 4: Caption is important
Rule 5: Do not trust the defaults
Rule 6: Use color effectively
-​ Use diverging shades if there is a meaningful middle point
-​ Use a sequential color scale for a more intuitive reading
Rule 7: Do not mislead the audience
-​ Scale and visual perception are important
Rule 8: Avoid “chartjunk” (unnecessary visual elements)
Rule 9: Choose message over beauty
Rule 10: Know and use the right tool



(t-) Stochastic neighbor embedding (t-SNE):

Data visualization of high-dimensional data: t-SNE:
Goal: visualize in a reduced number of dimensions while keeping structure of data (e.g., be able to tell
apart clusters).

Geschreven voor

Instelling
Studie
Vak

Documentinformatie

Geüpload op
6 september 2025
Aantal pagina's
70
Geschreven in
2024/2025
Type
SAMENVATTING

Onderwerpen

$11.56
Krijg toegang tot het volledige document:

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF

Beoordelingen van geverifieerde kopers

Alle reviews worden weergegeven
6 maanden geleden

5.0

1 beoordelingen

5
1
4
0
3
0
2
0
1
0
Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
samirahbakker1107 Universiteit van Amsterdam
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
16
Lid sinds
8 maanden
Aantal volgers
0
Documenten
12
Laatst verkocht
1 maand geleden

3.7

3 beoordelingen

5
2
4
0
3
0
2
0
1
1

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Bezig met je bronvermelding?

Maak nauwkeurige citaten in APA, MLA en Harvard met onze gratis bronnengenerator.

Bezig met je bronvermelding?

Veelgestelde vragen