Samenvatting Taal en technologie
Week 1
Artikel Handa – “hoe studenten AI gebruiken in hun studie”
Doel van het onderzoek: kijken hoe studenten AI echt gebruiken in hun
dagelijks schoolwerk. Niet via vragenlijsten of experimenten, maar via 1
miljoen echte (geanonimiseerde) gesprekken op claude.ai
Belangrijkste bevindingen:
- STEM-studenten (zoals informatica) zijn voorlopers van het gebruik
van AI
- Andere richtingen zoals bedrijfskunde , gezondheidszorg en
geesteswetenschappen gebruiken AI minder vaak
- Studenten gebruiken AI vooral voor moeilijke denk-taken zoals:
Creatie: iets nieuws maken (bijv. code, samenvatting).
Analyse: verbanden vinden (bijv. juridische teksten
analyseren).
Vier manieren waarop studenten AI gebruiken:
1. Directe probleemoplossing: snelle antwoorden op vragen
2. Directe outputcreatie: direct iets laten schrijven zoals een essay.
3. Samen probleem oplossen: samen met AI naar een oplossing
zoeken.
4. Samen output creëren: in gesprek iets laten opbouwen (bijv. een
presentatie).
AI-taken volgens Bloom’s Taxonomy (cognitieve niveaus):
Het meeste AI-gebruik was voor hogere orde denken: Creëren en
analyseren
Minder voor lagere orde denken: begrijpen, onthouden of toepassen
Wat doe studenten met AI?
- Inhoud verbeteren (testen nakijken, samenvatten)
- Technische uitleg of fouten oplossen (debuggen, wiskunde uitleg)
- Ondersteunen bij onderzoeksopzet of dat-analyse
Discussie en zorgen: studenten kunnen kritieke denkstappen aan AI
overlaten
Dat kan leerresultaten en ontwikkeling van basisvaardigheden beïnvloeden
Stelt vragen over onderwijstoetsing en academische eerlijkheid
Hoofdstuk 2: waarom is taal zo moeilijk
,Taal begrijpen is voor mensen vaak vanzelfsprekend, maar voor computers
is het razend moeilijk. Dat komt doordat taal vol dubbelzinnigheden zit.
Een woord of zin kan op meerdere manieren worden opgevat, afhankelijk
van hoe je het leest of in welke situatie het wordt gebruikt. Om dit te
verklaren gebruiken taaltechnologen vaak het watervalmodel: een
stapsgewijze aanpak waarbij een systeem steeds dieper in de betekenis
van taal duikt.
Watervalmodel: van klanken naar een context
1. Fonetisch niveau = klanken die op elkaar lijken maar wat anders
betekenen (zoals “their”, “they’re” en “there”).
2. Morfologisch niveau= hoe woorden zijn opgebouwd
(“massagebed” vs “massaal gebed”).
3. Syntactisch niveau = hoe zinnen in elkaar zitten (“de politie
verwondde de man met het pistool”: wie had het pistool?).
4. Semantisch niveau = wat woorden betekenen in de context
(“muis” als dier of computermuis).
5. Discours/pragmatiek = hoe zinnen samenhangen in een tekst of
gesprek, en hoe wereldkennis meespeelt.
Voorbereiding: voordat een computer iets kan begrijpen
- Zinsopslitsing en tokenisering: tekst in stukjes hakken
- Morfologische analyse: we herkennen of iets een werkwoord is, of
meervoud, enz
- PoS-tagging: elk word krijgt een label zoals “werkwoord” of
“zelfstandig naamwoord”
- Lemmatization: woorden terugbrengen naar de stamvorm
(“volgestouwd” “volstouwen”)
- Parsing = functies aan bepaalde zinsdelen of tokens toe wijzen dit
levert een syntactische analyse op
Syntactische en semantische analyse
- Woordbetekenis onderscheiden (Word Sense Disambiguation): op
basis van de context bepaalt het syteem of “vorst” vrieskou of een
koning betekent.
- NER (Named Entity Recognition): herkennen van eigennamen
zoals “Het Witte Huis” of “Rothko” = lastig als woorden figuurlijk
worden gebruikt.
Discours & pragmatiek – co-referentie: uitvinden waar “ze” naar verwijst in
een tekst (“Ann had Saar om hulp gevraagd...”).
Pragmatiek: zinnen betekenen iets anders afhankelijk
van de situatie
, Wereldkennis: Je moet weten wat "massagebed in een
sportstadion" betekent om te begrijpen dat dat raar is.
Hoe doet AI dit?
- Modulaire systemen (vroeger): elk onderdeel van taal werd apart
geanalyseerd.
- End-to-end systemen (nu): één groot model dat alles tegelijk leert
en voorspelt.
- Self-supervised learning: het systeem leert zelf patronen in taal
herkennen, zonder dat mensen elk voorbeeld moeten labelen.
- GenAI (zoals ChatGPT): dankzij self-supervision, grote
hoeveelheden data en rekenkracht kan een model veel verschillende
taalopdrachten uitvoeren: schrijven, samenvatten, vertalen,
uitleggen…
Belangrijk:
Hoe goed AI presteert, hangt sterk af van de prompt die je geeft
GenAI is krachtig, maar nog steeds afhankelijk van context, input en
wereldkennis
Het blijft lastig om ambiguïteit, ironie en cultuurverschillen goed te
begrijpen
Week 2
Artikel Daelemans
Computerlinguïstiek= hoe computers natuurlijke taal kunt laten
begrijpen, analyseren en genereren
Kan je aanpakken door:
Modulaire kennis gebaseerde methode
a. Analyse en generatiealgoritmen
End-to-end methode
a. Googlevertaalsystemen
b. ChatGPT
Diepe neurale netwerken = AI-model dat in meerdere stappen iets leert te
begrijpen of voorspellen, ze kunnen hierdoor complexere taken uitvoeren
die gewone netwerken niet kunnen
- Gewichten = de draaiknoppen die bepalen hoe sterk signalen
doorgegeven worden
- Neuronen ‘vuren’= als het signaal sterk genoeg is (net als in een
echt brein).
- Kostenfunctie = meet hoe fout een voorspelling is helpt het
model zichzelf verbeteren.
- Zo leert GPT-3 stap voor stap, net als oefenen met sommen
Week 1
Artikel Handa – “hoe studenten AI gebruiken in hun studie”
Doel van het onderzoek: kijken hoe studenten AI echt gebruiken in hun
dagelijks schoolwerk. Niet via vragenlijsten of experimenten, maar via 1
miljoen echte (geanonimiseerde) gesprekken op claude.ai
Belangrijkste bevindingen:
- STEM-studenten (zoals informatica) zijn voorlopers van het gebruik
van AI
- Andere richtingen zoals bedrijfskunde , gezondheidszorg en
geesteswetenschappen gebruiken AI minder vaak
- Studenten gebruiken AI vooral voor moeilijke denk-taken zoals:
Creatie: iets nieuws maken (bijv. code, samenvatting).
Analyse: verbanden vinden (bijv. juridische teksten
analyseren).
Vier manieren waarop studenten AI gebruiken:
1. Directe probleemoplossing: snelle antwoorden op vragen
2. Directe outputcreatie: direct iets laten schrijven zoals een essay.
3. Samen probleem oplossen: samen met AI naar een oplossing
zoeken.
4. Samen output creëren: in gesprek iets laten opbouwen (bijv. een
presentatie).
AI-taken volgens Bloom’s Taxonomy (cognitieve niveaus):
Het meeste AI-gebruik was voor hogere orde denken: Creëren en
analyseren
Minder voor lagere orde denken: begrijpen, onthouden of toepassen
Wat doe studenten met AI?
- Inhoud verbeteren (testen nakijken, samenvatten)
- Technische uitleg of fouten oplossen (debuggen, wiskunde uitleg)
- Ondersteunen bij onderzoeksopzet of dat-analyse
Discussie en zorgen: studenten kunnen kritieke denkstappen aan AI
overlaten
Dat kan leerresultaten en ontwikkeling van basisvaardigheden beïnvloeden
Stelt vragen over onderwijstoetsing en academische eerlijkheid
Hoofdstuk 2: waarom is taal zo moeilijk
,Taal begrijpen is voor mensen vaak vanzelfsprekend, maar voor computers
is het razend moeilijk. Dat komt doordat taal vol dubbelzinnigheden zit.
Een woord of zin kan op meerdere manieren worden opgevat, afhankelijk
van hoe je het leest of in welke situatie het wordt gebruikt. Om dit te
verklaren gebruiken taaltechnologen vaak het watervalmodel: een
stapsgewijze aanpak waarbij een systeem steeds dieper in de betekenis
van taal duikt.
Watervalmodel: van klanken naar een context
1. Fonetisch niveau = klanken die op elkaar lijken maar wat anders
betekenen (zoals “their”, “they’re” en “there”).
2. Morfologisch niveau= hoe woorden zijn opgebouwd
(“massagebed” vs “massaal gebed”).
3. Syntactisch niveau = hoe zinnen in elkaar zitten (“de politie
verwondde de man met het pistool”: wie had het pistool?).
4. Semantisch niveau = wat woorden betekenen in de context
(“muis” als dier of computermuis).
5. Discours/pragmatiek = hoe zinnen samenhangen in een tekst of
gesprek, en hoe wereldkennis meespeelt.
Voorbereiding: voordat een computer iets kan begrijpen
- Zinsopslitsing en tokenisering: tekst in stukjes hakken
- Morfologische analyse: we herkennen of iets een werkwoord is, of
meervoud, enz
- PoS-tagging: elk word krijgt een label zoals “werkwoord” of
“zelfstandig naamwoord”
- Lemmatization: woorden terugbrengen naar de stamvorm
(“volgestouwd” “volstouwen”)
- Parsing = functies aan bepaalde zinsdelen of tokens toe wijzen dit
levert een syntactische analyse op
Syntactische en semantische analyse
- Woordbetekenis onderscheiden (Word Sense Disambiguation): op
basis van de context bepaalt het syteem of “vorst” vrieskou of een
koning betekent.
- NER (Named Entity Recognition): herkennen van eigennamen
zoals “Het Witte Huis” of “Rothko” = lastig als woorden figuurlijk
worden gebruikt.
Discours & pragmatiek – co-referentie: uitvinden waar “ze” naar verwijst in
een tekst (“Ann had Saar om hulp gevraagd...”).
Pragmatiek: zinnen betekenen iets anders afhankelijk
van de situatie
, Wereldkennis: Je moet weten wat "massagebed in een
sportstadion" betekent om te begrijpen dat dat raar is.
Hoe doet AI dit?
- Modulaire systemen (vroeger): elk onderdeel van taal werd apart
geanalyseerd.
- End-to-end systemen (nu): één groot model dat alles tegelijk leert
en voorspelt.
- Self-supervised learning: het systeem leert zelf patronen in taal
herkennen, zonder dat mensen elk voorbeeld moeten labelen.
- GenAI (zoals ChatGPT): dankzij self-supervision, grote
hoeveelheden data en rekenkracht kan een model veel verschillende
taalopdrachten uitvoeren: schrijven, samenvatten, vertalen,
uitleggen…
Belangrijk:
Hoe goed AI presteert, hangt sterk af van de prompt die je geeft
GenAI is krachtig, maar nog steeds afhankelijk van context, input en
wereldkennis
Het blijft lastig om ambiguïteit, ironie en cultuurverschillen goed te
begrijpen
Week 2
Artikel Daelemans
Computerlinguïstiek= hoe computers natuurlijke taal kunt laten
begrijpen, analyseren en genereren
Kan je aanpakken door:
Modulaire kennis gebaseerde methode
a. Analyse en generatiealgoritmen
End-to-end methode
a. Googlevertaalsystemen
b. ChatGPT
Diepe neurale netwerken = AI-model dat in meerdere stappen iets leert te
begrijpen of voorspellen, ze kunnen hierdoor complexere taken uitvoeren
die gewone netwerken niet kunnen
- Gewichten = de draaiknoppen die bepalen hoe sterk signalen
doorgegeven worden
- Neuronen ‘vuren’= als het signaal sterk genoeg is (net als in een
echt brein).
- Kostenfunctie = meet hoe fout een voorspelling is helpt het
model zichzelf verbeteren.
- Zo leert GPT-3 stap voor stap, net als oefenen met sommen