Taaltechnologie ontrafeld, hoorcollege
aantekeningen, werkcollege vragen)
Inhoud
Taal en Technologie (samenvatting boek Taaltechnologie ontrafeld, hoorcollege
aantekeningen, werkcollege vragen)......................................................................1
Taaltechnologie ontrafeld (Cynthia van Hee & Veronique Hoste)........................2
Deel 1............................................................................................................... 2
Deel 2............................................................................................................... 5
Deel 3............................................................................................................... 7
Hoorcolleges........................................................................................................ 8
Week 1............................................................................................................. 8
Week 2............................................................................................................. 9
Week 3........................................................................................................... 10
Week 4........................................................................................................... 12
Week 5........................................................................................................... 13
Week 6........................................................................................................... 14
Werkcolleges..................................................................................................... 15
Algemene aantekeningen:............................................................................. 15
Vragen over hoofdstukken en artikelen:.........................................................16
1
,Taaltechnologie ontrafeld (Cynthia van Hee & Veronique
Hoste)
Deel 1
Hoofdstuk 1.1
Natuurlijketaalverwerking= technologie aanwenden om taal te analyseren of
te genereren.
4 deelprocessen van natuurlijketaalverwerking:
- Spraakherkenning
- Tekstinterpretatie
- Tekstgeneratie
- Spraaksynthese
Automatische systemen of toepassingen die binnen het onderzoeksdomein van
natuurlijketaalverwerking ontwikkeld worden, noemen we NLP-systemen.
Machinelearning= NLP-systemen die ontstaan door het trainen van een
algoritme met behulp van een dataset.
Hoofdstuk 1.2
Ambiguïteit= dubbelzinnigheid van woorden, dus wei/wij of licht/ligt of bank.
Bij tekstinterpretatie kan ambiguïteit op verschillende niveaus voorkomen:
- Morfologisch niveau (het woord massagebed kan bidden met een grote
groep betekenen of het bed van een massage. Het opsplitsen van de
morfemen massa, gebed of massage en bed kan de dubbelzinnigheid
oplossen)
- Syntactisch niveau (de politie verwondde de man met het pistool
heeft de politie een pistool gebruikt om de man te verwonden of heeft de
politie een man verwond die een pistool vast had?)
- Semantisch niveau (muis kan een computermuis zijn of het dier. De
context of omliggende woorden kunnen de dubbelzinnigheid oplossen)
- Discours niveau (marie nodigde eva uit. Ze had een witte broek aan.
wie van de twee had de witte broek aan?)
Deze niveaus vormen samen het watervalmodel. Hiermee kan een tekst op
verschillende niveaus onder de loep genomen worden, zodat we
taaltechnologische systemen kunnen ontwikkelen die onze taal correct
interpreteren.
Voorafgaand aan deze stappen moet zinssplitsing en tokenisering gebeuren. Elk
woord en leesteken is een los token.
Morfologisch:
Bij morfologie gaat het om welke vormen woorden kunnen aannemen
(enkelvoud/meervoud, vervoegingen, vergrotingen etc). Bij part-of-speech
tagging (PoS-tagger) wordt bij elk token ook een woordsoort toegekend. Bij
lemmatisering worden woorden herleid tot hun basisvorm.
2
, Syntactisch:
Bij parsing worden functies aan bepaalde zinsdelen of tokens toegekend.
Hierdoor ontstaat een syntactische-analyseboom.
Semantisch:
De distributionele hypothese stelt dat de betekenis van woorden bepaald
wordt door de context of de omringende woorden in de zin.
Polysemie= de verschillende betekenissen van een woord zijn verwant
Homoniem= de verschillende betekenissen van een woord zijn niet
verwant.
Er zijn twee taaltechnologische toepassingen om de juiste betekenis van
woorden in een zin te bepalen: WSD (automatische desambiguering) en
NER (automatisch herkennen van eigennamen).
Discours:
Coreferentie= meerdere woorden of woordgroepen verwijzen naar
hetzelfde.
Pragmatiek bestudeert de relatie tussen taaluitdrukkingen en de context of
situaties waarin ze passen. De zin “het is warm hier” is volgens de
pragmatiek dubbelzinnig, omdat het kan betekenen dat de spreker wil
meedelen dat die het warm heeft, of dat die wilt dat iemand het raam
opent. De betekenis van de zin hangt dus af van de context.
Hoofdstuk 1.3
Een computer kan taal op 2 manieren leren:
Regelgebaseerd: experts stellen regels op waarmee de computer leert
(top-down/deductief)
Datagebaseerd: computer extraheert de kennis die nodig is uit data
(bottom-up/inductief) machinelearning
Machinelearning is een techniek om software zich autonoom te laten
verbeteren door het analyseren en herkennen van patronen in data. 4 belangrijke
componenten:
- Data
- Taak
- Leerproces
- Evaluatie
Garbage in, garbage out: automatische systemen kunnen enkel waardevolle
output leveren als de input die ze kregen kwaliteitsvol en relevant is.
Een voorbeeld van crowdsourcing is Wikipedia, maar dit wordt ook gebruikt in
onderzoekscontexten, dan heet het echter citizen science. Vaak hebben deze
onderzoeksprojecten 2 doelen: enerzijds data verzamelen, anderzijds wetenschap
dichterbij de maatschappij brengen.
3