Geschreven door studenten die geslaagd zijn Direct beschikbaar na je betaling Online lezen of als PDF Verkeerd document? Gratis ruilen 4,6 TrustPilot
logo-home
Case uitwerking

Deel 2 Big Data Scientist/Engineer in R

Beoordeling
-
Verkocht
-
Pagina's
32
Cijfer
A+
Geüpload op
28-02-2021
Geschreven in
2020/2021

Deel 2 voor het vak big data scientist en engineer in R. In dit document wordt de noSQL database beschreven, machine learning modellen getraind en een eigen visualisatie weergegeven.

Instelling
Vak

Voorbeeld van de inhoud

Machine
Learning
12-1-2020


Big Data Scientist & Engineer

,Inhoudsopgave
Samenvatting..........................................................................................................................................3
Introductie..............................................................................................................................................4
RAM-oplossingen....................................................................................................................................5
Extra RAM-geheugen kopen...............................................................................................................5
Werken met een NOSQL Database.....................................................................................................5
Packages in R......................................................................................................................................5
Gebruikte modellen................................................................................................................................6
Logistic Regression.............................................................................................................................6
Random Forest...................................................................................................................................6
Naive Bayes........................................................................................................................................6
Het proces..............................................................................................................................................7
De data inladen..................................................................................................................................7
Kaggle dataset................................................................................................................................7
MongoDB............................................................................................................................................8
Query’s...........................................................................................................................................8
Spark classification...........................................................................................................................10
Machine Learning.........................................................................................................................11
FFBase Experiment...........................................................................................................................13
Dashboard opzetten.........................................................................................................................14
Global...........................................................................................................................................15
Libraries........................................................................................................................................16
Server...........................................................................................................................................17
Ui..................................................................................................................................................20
Scriptloader..................................................................................................................................21
App...............................................................................................................................................22
Resultaten............................................................................................................................................23
MongoDB..........................................................................................................................................23
Aggregation..................................................................................................................................23
Iteration........................................................................................................................................23
Map-Reduce.................................................................................................................................24
FFBase library...................................................................................................................................24
Inlaadtijden en object size............................................................................................................24
Spark.................................................................................................................................................24
Visualisatie........................................................................................................................................24



1

, Hotel Explorer...............................................................................................................................25
Data Explorer................................................................................................................................26
Sentiment Analyse........................................................................................................................27
Conclusie..............................................................................................................................................30
Literatuurlijst........................................................................................................................................31




2

, Samenvatting
In dit verslag wordt er beschreven hoe machine learning toegepast kan worden via RStudio met
behulp van Spark. Verder worden Ram-problemen beschreven en wordt er gebruik gemaakt van een
MongoDB database. Als laatste wordt er een visualisatie gemaakt met de hoteldata dataset. Ik heb
voor deze opdracht gebruik gemaakt van de modellen NaiveBayes en Logistic Regression.

In deze opdracht heb ik gebruik gemaakt van het hotel reviews dataset van de site Kaggle. Deze
dataset bevat meer dan 515 duizend hotelreviews. Om deze data niet telkens opnieuw in te hoeven
laden heb ik een script geschreven die contact maakt met een NOSQL database (MongoDB).
Daarnaast heb ik de dataset ook opgeslagen als .rds file om deze sneller in te kunnen laden voor mijn
visualisatie.

Vervolgens ben ik gestart met het filteren en subsetten van mijn data om deze uiteindelijk te kunnen
gebruiken binnen Spark. Eenmaal in de Spark omgeving heb ik de data opgeschoond en gesplitst in
training en test datasets. Met de training dataset heb ik mijn modellen NaiveBayes, Random Forest
en Logistic Regression getraind. Helaas leverde het Random Forest model errors op aan de test kant.
Gelukkig waren de NaiveBayes en Logistic egression modellen wel in staat om een predictie aan te
leveren.

Om de modellen goed te trainen werd er gebruik gemakt van een zogenaamde formule. Ik heb
gebruik gemaakt van twee formules. Met mijn eerste formule leverde dit accuacy waardes op rond
de 80%. Toen ik gebruik maakte van mijn tweede forule kwamen de accuracy scores echter hoger uit,
namelijk tussen de 95-100%. Het trainen van de formule verliep redelijk snel, alleen het Random
Forest model deed er langer over.

Om RAM- problemen te simuleren heb ik gebruik gemaakt van de FFBase library binnen R. Hiervoor
heb ik de tutorials op brightspace gevolgd en aanvullende informatie opgezocht op het internet.
Door het gebruik van de FFBase package zou de laadtijd van data sneller moeten verlopen en de data
zou minder ruimte in beslag moeten nemen. Helaas zag ik met mijn data niet echt een aanzienlijk
groot verschil dan wanneer ik de data via read.csv inlaad.

Als laatste heb ik een visualisatie gemaakt van de hotel review data. De visualisatie is een
interactieve kaart met labels geworden en een filter. Om dit te bereiken heb ik gebruik gemaakt van
de leaflet package binnen R.




3

Geschreven voor

Instelling
Studie
Vak

Documentinformatie

Geüpload op
28 februari 2021
Aantal pagina's
32
Geschreven in
2020/2021
Type
Case uitwerking
Docent(en)
-
Cijfer
A+

Onderwerpen

$7.17
Krijg toegang tot het volledige document:

Verkeerd document? Gratis ruilen Binnen 14 dagen na aankoop en voor het downloaden kun je een ander document kiezen. Je kunt het bedrag gewoon opnieuw besteden.
Geschreven door studenten die geslaagd zijn
Direct beschikbaar na je betaling
Online lezen of als PDF


Ook beschikbaar in voordeelbundel

Maak kennis met de verkoper

Seller avatar
De reputatie van een verkoper is gebaseerd op het aantal documenten dat iemand tegen betaling verkocht heeft en de beoordelingen die voor die items ontvangen zijn. Er zijn drie niveau’s te onderscheiden: brons, zilver en goud. Hoe beter de reputatie, hoe meer de kwaliteit van zijn of haar werk te vertrouwen is.
denicegroen Hogeschool van Amsterdam
Volgen Je moet ingelogd zijn om studenten of vakken te kunnen volgen
Verkocht
29
Lid sinds
5 jaar
Aantal volgers
20
Documenten
22
Laatst verkocht
1 maand geleden

2.0

4 beoordelingen

5
1
4
0
3
0
2
0
1
3

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

Student with book image

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Bezig met je bronvermelding?

Maak nauwkeurige citaten in APA, MLA en Harvard met onze gratis bronnengenerator.

Bezig met je bronvermelding?

Veelgestelde vragen