Inhoud
1 Welke machine?........................................................................................4
2 Hoe wordt taal voorgesteld op een computer?.........................................5
2.1 Van bits en bytes naar lettertekens....................................................6
2.2 Tekstbestand: wat is dat eigenlijk?...................................................10
3 Hoe wordt taal verwerkt door een computer?.........................................11
3.1 Algoritme..........................................................................................11
3.2 Verwerking op woordniveau..............................................................14
3.2.1 Tokenisering................................................................................14
3.2.2 Lemmatisering............................................................................14
3.2.3 Woordsoorttagging.....................................................................15
3.2.4 Woordbetekenisontleding...........................................................15
3.3 Verwerking op zinsniveau.................................................................17
3.3.1 Zinsafbakening...........................................................................17
3.3.2 Zinsontleding..............................................................................18
4 Samenvatting..........................................................................................20
5 Hoe leert een computer taal...................................................................21
6 Regelgebaseerde methode.....................................................................21
6.1 Wat is een reguliere expressie?........................................................24
6.2 Contextvrije grammatica..................................................................25
7 LanguageTool..........................................................................................27
8 Samenvatting..........................................................................................30
1 Hoe leert een computer taal..................................................................32
2 Informatietheorie van Shannon...............................................................33
3 Probabilistische taalmodellen..................................................................35
3.1 Kansberekeningen............................................................................36
3.2 Stochastisch proces..........................................................................36
3.3 Een probabilistisch model leren........................................................39
3.4 N-gram taalmodellen........................................................................41
3.5 Generatie..........................................................................................44
4 Voorbeeld: Brown corpus........................................................................45
1
,5 Samenvatting..........................................................................................46
1 Statistisch leren of machine learning......................................................48
2 Artificiële neurale netwerken..................................................................50
2.1 Een artificieel neuron........................................................................50
2.2 Een netwerk van artificiële neuronen...............................................51
3 Hoe kunnen we taal representeren in een neuraal netwerk...................54
3.1 Taal als invoer van een neuraal netwerk...........................................54
3.2 Hoe kunnen we een woord omzetten in een vector..........................55
4 Samenvatting..........................................................................................58
1 Artificiële neurale netwerken..................................................................59
2 Opkomst van neurale taalmodellen........................................................60
3 Transformer modellen.............................................................................64
3.1.1 Encoder.......................................................................................65
3.1.2 Decoder......................................................................................66
3.1.3 Types transformers.....................................................................66
3.1.4 Leerproces..................................................................................69
4 Samenvatting..........................................................................................71
1 Machinevertaling.....................................................................................73
1.1 Een korte ontstaansgeschiedenis.....................................................73
1.2 Regelgebaseerde machinevertaling..................................................75
1.2.1 Directe vertaling.........................................................................76
1.2.2 Machinevertaling via syntactische transfer................................77
1.2.3 Machinevertaling via een interlingua..........................................80
1.3 Statistische machinevertaling...........................................................82
1.4 Neurale machinevertaling.................................................................84
2 Samenvatting..........................................................................................86
1 Zoeksystemen.........................................................................................87
1.1 Question Answering (QA)..................................................................87
1.2 Information Retrieval (IR)..................................................................88
1.3 Regelgebaseerde aanpak..................................................................89
1.4 Datagebaseerde aanpak...................................................................91
2 Jeopardy! The IBM Challenge..................................................................94
2.1 Jeopardy!...........................................................................................94
2
,1 Tekstclassificatie.....................................................................................97
1.1 Voor het structureren van informatie................................................98
1.1.1 Topic Modeling............................................................................99
1.1.2 Topic classification....................................................................100
1.2 Voor het filteren van data...............................................................101
1.3 Voor het detecteren van subjectiviteit............................................102
1.4 Voor het evalueren van tekstkwaliteit.............................................104
2 Samenvatting........................................................................................106
1 Herhaling: automatisch genereren van taal..........................................107
2 Large language models.........................................................................109
2.1 Open-source modellen....................................................................111
2.2 3 verschillende onderdelen van LLMs.............................................111
2.2.1 Tokenisering..............................................................................111
2.2.2 Decoding...................................................................................112
2.2.3 Prompting.................................................................................113
3 Retrieval Augmented Generation..........................................................114
4 Prompt hacking.....................................................................................115
5 Evaluatie...............................................................................................116
1 Conversatie...........................................................................................117
1.1 Beurt...............................................................................................117
1.2 Taalhandelingen..............................................................................117
1.3 Grounding.......................................................................................118
1.4 Dialoogstructuur.............................................................................118
1.5 Gespreksinitiatief............................................................................118
1.6 Conversationele implicatuur...........................................................119
2 Dialoogsystemen..................................................................................119
3 Large Language Models (LLMs).............................................................123
3.1 ChatML............................................................................................125
1 Maatschappelijke implicaties................................................................127
1.1 Data................................................................................................127
1.2 Rekenkracht....................................................................................127
1.3 Rechtvaardigheid............................................................................128
1.4 The Artificial Intelligence Act..........................................................128
3
, College 2: Hoe verwerkt een machine taal?
19/02/2026
1 Welke machine?
*dia 8
1. Alan Turing en de universele machine
Het kernidee
Alan Turing stelde in 1936 dat het mogelijk is om:
Één universele machine te maken die alle mogelijke berekeningen kan uitvoeren
— zolang die berekeningen volgens vaste regels (een algoritme) verlopen.
(=rekenkundige aanpak)
Dat idee noemen we de universele machine.
Wat betekent dat?
In plaats van voor elk probleem een aparte machine te bouwen, kan één
algemene machine via instructies elk berekenbaar probleem oplossen.
Dat is het conceptuele begin van de moderne computer.
2. Basis van de computerwetenschappen
(Turing wilde zich op 2 machines focussen)
2.1 Automatische machine
Een automatische machine:
werkt volledig volgens haar configuratie(=haar ingestelde regels en
begininformatie)
heeft geen voortdurende menselijke tussenkomst nodig
volgt strikt vooraf bepaalde regels
Met andere woorden: geen constante menselijke input nodig.
2.2 Rekenmachine (computing machine)
Een computing machine:
is een automatische machine
werkt uitsluitend met symbolen
die symbolen bestaan uit 0 en 1
Daar begint alles: de computer begrijpt enkel binaire cijfers.
3. Mechanische vs. digitale machines
4