Week 1
Hoorcollege
Natuurlijketaalverwerking -> het gebruik van technologie om natuurlijke
taal te analyseren of te genereren. Een andere benaming voor natuurlijke
taalverwerking is taaltechnologie. Taaltechnologie maakt onderdeel uit van
AI en heeft verschillende deelprocessen; spraakherkenning,
tekstinterpretatie, tekstgeneratie en spraaksynthese.
Taal is ambigu. Dit houdt in dat een woord twee of meer betekenissen kan
hebben. Je hebt ambiguïteit op verschillende niveaus:
- Fonetisch: their, they’re, there (klinkt allemaal hetzelfde)
- Morfologisch: massagebed (massa gebed of massage bed)
- Syntactisch: ik heb je broer met de verrekijker gezien (had de broer
de verrekijker vast of werd hij gezien door de verrekijker heen)
- Discours: jan vertelde piet dat hij een promotie had gekregen. Hij
was er erg blij mee (wie kreeg de promotie en wie was vervolgens
blij?)
Taal kan dus op verschillende niveaus voor
verwarring zorgen. Het is daarom belangrijk om
dubbelzinnigheid te voorkomen. Een model dat
hierbij helpt is het watervalmodel. Dit is een
gestructureerd, stapsgewijze aanpak die
duidelijkheid biedt in elke fase van het proces.
Uitleg watervalmodel:
Morfologisch niveau -> analyse van woorden op het niveau van vorm
o Doel: woorden analyseren
o Taken in deze fase:
Tokenisatie: de tekst wordt opgesplitst in afzonderlijke
onderdelen zoals woorden en leestekens
Part-of-speech tagging: elk woord krijgt een woordsoort-
label zoals werkwoorden en zelfstandig naamwoorden
Lemmatisering: woorden worden herleid tot hun
‘basisvorm’, dus vervoegde werkwoorden gaan terug
naar de stam
Syntactisch niveau -> analyse van de structuur van zinnen
o Doel: zinstructuur begrijpen
o Taken in deze fase:
Chunking: groeperen van woorden in betekenisvolle
zinsdelen
Syntactische parsing: bepalen van de grammaticale
structuur, dus wie is het onderwerp, gezegde en lijdend
voorwerp
Semantisch niveau -> analyse van betekenis
, o Doel: betekenis achterhalen
o Taken in deze fase:
Named Entity Recognition (NER): herkennen van
entiteiten zoals namen, locaties en organisaties
Word Sense Disambiguation (WSD): bepalen van de
juiste betekenis van een woord dat meerdere
betekenissen heeft
Discours niveau -> analyse van de samenhang tussen zinnen
o Doel: tekst als geheel interpreteren
o Taken in deze fase:
Coreferentieresolutie: herkennen van verwijzingen naar
dezelfde entiteit
AI-winters zijn periodes waarin AI niet populair zijn en geen impact hebben
GOFAI staat voor good old fashioned AI. Het is een benadering van AI
waarbij systemen expliciete regels en logica gebruiken om beslissingen te
nemen. Het gaat om symbolische AI, je beschrijft kennis en logica als
regels van de vorm: als X het geval is, doe dan Y.
Kenmerken van GOFAI zijn:
-Goed te begrijpen want ze zijn transparant
-Werkt goed in gestructureerde domeinen
-Zijn moeilijk schaalbaar omdat er veel regels nodig zijn voor complexe
situaties
-Niet goed in het omgaan met vage of variabele taal
Na GOFAI treedt er een nieuwe fase op; machine learning. Hierbij leren
systemen van datasets in plaats van met handmatig opgestelde regels te
volgen. Er wordt dus niet meer voorgeprogrammeerd maar algoritmes
worden getraind op voorbeelden en ontdekken zelf patronen in data.
Na machine learning ontstaat deep learning. Dat is een subvorm van
machine learning. Er worden neurale netwerken gebruikt die bestaan uit
meerdere lagen, elk laagje leert een steeds complexere representatie van
de data. Waar GOFAI vaak nog afhankelijk is van handmatig gekozen
kenmerken (feature engineering), kan deep learning zelf relevante
kenmerken ontdekken in ruwe data. Hierdoor is deep learning krachtig bij
taken als: beeldherkenning, spraakherkenning, taalverwerking en
zelfrijdende auto’s
Kenmerken van deep learning zijn:
-Kan omgaan met complexe, ongestructureerde data
-Leert automatisch kenmerken zonder handmatige tussenkomst
-Vereist vaak veel data en rekenkracht
-Minder transparant omdat de beslissingen van het model moeilijk te
verklaren zijn (black box)
Modulaire systemen vs end-to-end systemen
Modulaire systemen
, o Een modulair systeem bestaat uit losse onderdelen/modules
die elk een specifieke taak uitvoeren en elke stap wordt apart
ontworpen, ontwikkeld en getraind
o Voorbeeld: als je tegen een spraak assistent zegt; wat is het
weer vandaag in amsterdam dan wordt de vraag verwerkt in
verschillende stappen;
Spraakherkenning; zet spraak om in tekst
Taalanalyse; het herkennen van zinsdelen en de
betekenis
Zoekmodule; weersinformatie opzoeken van amsterdam
Antwoordgeneratie; een zin als antwoord bouwen
Spraaksynthese; de tekst omzetten in gesproken taal
o Dit is modulair omdat elke stap zijn eigen taak heeft en los van
de rest staat
o Voordelen
Het is transparant omdat je ziet wat er in elke stap
gebeurt
Het is controleerbaar en aanpasbaar
Het is makkelijk om fouten op te sporen in specifieke
modules
o Nadelen
Fouten stapelen zich op net zoals bij het watervalmodel
Elke module vereist specialistische kennis
Het is minder flexibel voor ongestructureerde of nieuwe
data
End-to-end systemen
o Een systeem dat alle stappen tegelijk leert van input naar
output zonder dat er tussenliggende taken expliciet
geprogrammeerd hoeven te worden
o Voorbeeld: je geeft een model een email en vraagt of het spam
is of niet. Het systeem leert zelf welke woorden, structuren of
patronen belangrijk zijn zonder dat je tokenisatie of parsing
apart definieert
o Voordelen
Minder menselijke tussenkomst
Leert complexe patronen automatisch
Presteert vaak beter bij grote hoeveelheden data
o Nadelen
Minder transparant (black box)
Moeilijker om fouten te diagnosticeren
Vereist veel data en rekenkracht
Supervised learning: leren op basis van voorbeelden
Self-supervision: leren op basis van ruwe data. Bij taal betekent dit:
voorspel welk woord hier staat (lijkt op de cloze-test)
Tot aan het tijdperk van deep learning werd er voornamelijk gebruik
gemaakt van expertsystemen. Dit zijn computersystemen die goed zijn in
een specifieke taak. Deze systemen werken op basis van regels of zijn
, getraind met een beperkte hoeveelheid data, speciaal voor die ene taak.
Ze zijn slim binnen een gebied maar kunnen niets daarbuiten.
Met de komst van deep learning en vooral self-supervised learning
veranderde dit. In plaats van elk systeem een taak te leren, begonnen
onderzoekers computers te trainen met heel veel data. Dankzij slimme
algoritmes en veel rekenkracht leerden deze systemen zelf patronen
herkennen zonder dat men alles hoefde voor te doen. Hierdoor zijn
moderne AI-modellen ontstaan zoals ChatGPT. Deze kunnen veel
verschillende dingen tegelijk. We zijn dus van expertsystemen langzaam
overgegaan naar een digitale alleskunner.
Leeswerk
Taaltechnologie ontrafeld – hs1.1
Natural Language Processing (NLP) = natuurlijketaalverwerking. Dit is een
technologie om taal te analyseren of genereren. De deelprocessen van
natuurlijketaalverwerking zijn:
1. Spraakherkenning: een stem herkennen en de klanken omzetten in
woorden
2. Tekstinterpretatie: een vraag op de juiste manier
begrijpen/achterhalen wat de intentie van de spreker is
3. Tekstgeneratie: het correcte antwoord op een vraag vinden en dit
omzetten in de juiste woorden
4. Spraaksynthese: een woordencombinatie omzetten in klanken
Natuurlijketaalverwerking die ontstaat door het trainen van een algoritme
met behulp van een data set = machinelearning.
Anthropic Education Report: How University Students Use
Claude
Dit onderzoek biedt inzicht in hoe studenten de AI-assistent Claude
inzetten in hun academische werk. Op basis van meer dan een miljoen
geanonimiseerde gesprekken op Claude.ai, onthult het rapport patronen in
AI-gebruik binnen het hoger onderwijs.
Belangrijkste bevindingen:
- Computerwetenschappen en natuur- en wiskunde studenten
gebruiken veel AI en geesteswetenschappen, gezondheidszorg en
bedrijfskunde minder, vergeleken met hoeveel mensen die studies
doen.
- Studenten gebruiken Claude op vier manieren (allemaal ongeveer
25%); directe probleemoplossing, samenwerkende
probleemoplossing, directe outputcreatie en samenwerkende
outputcreatie.
- Studenten laten Claude voornamelijk educatieve content verbeterd
of gecreëerd worden maar ook veel uitleggen en oplossen.