Hoofdstuk 1
Wat is taaltechnologie?
AI wordt in toenemende mate gebruikt op toepassingen te verbeteren die ons
dagelijks leven helpen te organiseren
Deze toepassingen zorgen ervoor dat onze maatschappij wordt gekenmerkt door een
overvloed aan digitale data big data
Taaltechnologie?
Taaltechnologie is een discipline binnen artificiële intelligentie
Wanneer we over taaltechnologie spreken, wordt vaak het woord
natuurlijketaalverwerking gebruikt
Natuurlijketaalverwerking = technologie aanwenden om taal te analyseren of te
genereren
Taaltechnologie = concrete toepassingen die mensen in staat stellen om te
communiceren met computers
De complexe taken die taaltechnologische toepassingen moeten kunnen uitvoeren,
kunnen we terugbrengen tot 4 belangrijke deelprocessen van
natuurlijketaalverwerking:
1. Spraakherkenning: een stem herkennen en de klanken omzetten in woorden
2. Tekstinterpretatie: een vraag op een correcte manier begrijpen achterhalen
wat de intentie van de spreker is
3. Tekstgeneratie: het correcte antwoord op een vraag vinden en dat antwoord
omzetten in de juiste woorden
4. Spraaksynthese: woordencombinatie omzetten in klanken
Deze processen vormen de belangrijkste onderzoeksdisciplines binnen het domein
van natuurlijketaalverwerking
Artificiële intelligentie = het vermogen van een computer om gegevens te verwerken
waarbij zoveel mogelijk wordt geprobeerd het menselijk denken na te bootsen
Alle menselijke kennis is verweven met taal
Natuurlijketaalverwerking maakt automatische tekstanalyse
mogelijk die van belang is voor tal van toepassingen en
uiteenlopende domeinen
Hoofdstuk 2
Waarom is taal zo moeilijk?
Voornaamste struikelblok bij natuurlijketaalverwerking is
ambiguïteit of dubbelzinnigheid. De term verwijst naar
woorden die meer dan 1 betekenis hebben, wat een
belangrijke uitdaging vormt bij deelprocessen van
natuurlijketaalverwerking
Ambiguïteit kan op verschillende niveaus voorkomen:
o Morfologisch niveau: het woord ‘massagebed’ kan zowel verwijzen naar een
menigte biddende mensen als naar een bed waarop je kunt liggen voor een
, massage. Een opsplitsing in de morfemen ‘massa’, ‘gebed’ of ‘massage’ en
‘bed’ kan de dubbelzinnigheid helpen op te lossen
o Syntactisch niveau: in de zin ‘de politie verwondde de man met het pistool’
kan de politie de man verwonden met een pistool of de politie heeft een man
verwond die een pistool bij zich had
o Semantisch niveau: het woord ‘muis’ kan verwijzen naar een dier, gedeelte
van een duim of besturingsapparaat van een computer. Context kan helpen
om dubbelzinnigheid op te lossen
o Discoursniveau: in de tekst ‘Marie nodigde Suzanne uit. ze had een witte
broek aan’ kan ‘ze’ zowel naar Marie als Suzanne verwijzen
Watervalmodel
Het model hanteert 4 stappen waarmee we in toenemende complexiteit een
artificieel tekstbegrip kunnen verkrijgen:
o Identificeren van zinnen en woorden en gebruiken die informatie om de
grammaticale structuur van de woorden te analyseren en te achterhalen hoe
die woorden gecombineerd worden tot woordgroepen of zinsdelen en zinnen
o Met semantische ontleding kunnen we vervolgens een betekenis toewijzen
aan woordgroepen of zinnen
o Via discoursanalyse is het mogelijk om betekenis en structuur te begrijpen op
het niveau van zinnen, alinea’s en teksten
Taalkundige kennis ontrafeld: de essentiële bouwstenen
De vier stappen in het watervalmodel moeten opeenvolgend en met een hoge graad
van nauwkeurigheid worden uitgevoerd
Voorbereidende stappen:
o Zinssplitsing en tokenisering
o Tokenisering: een eenheid van een zin wordt ook wel een token genoemd en
omvat een reeks tekens, waaronder cijfers, letters en leestekens
Morfologische analyse:
o Morfologie richt zich op de interne structuur van woorden en analyseert
welke vormen woorden kunnen aannemen
o Er wordt bestudeerd uit welke morfemen (kleinste betekenisdragende
eenheden van taal) woorden zijn gebouwd
o Door deze ontleding kan niet alleen de vormen van woorden begrepen
worden, maar ook woorden geidentificeerd worden die meerdere
betekenissen hebben
o Morfosyntaxis in een combinatie van morfologie en syntaxis bestudeert de
manier waarop woordstructuur en zinsstructuur met elkaar interageren
o Part-of-speech tagging is een softwaremethode die parts-of-speech
(woordsoorten en eventuele kenmerken) toekent aan woorden in een zin
o Vanwege ambiguïteit op woordniveau wordt bij PoS-tagging meestal naar
lokale context gekeken. De precieze woordsoort van een woord wordt pas
duidelijk in de context
o Lemmatisering is de techniek waarbij woorden automatisch worden herleid
tot hun basisvorm
Syntactische analyse: de architectuur van taal:
, o Parsing: functies toekennen aan bepaalde zinsdelen of tokens. Dit levert een
syntactische analyseboom op van een zin
o Stelt computers in staat om mrelaties tussen woorden in een zin weer te
geven
Semantische analyse: de kracht van betekenis:
o Polysemie: de verschillende betekenissen van een woord zijn verwant
(bijvoorbeeld ‘kop’ in de betekenis van krantenkop en kop van een dier)
o Als er geen etymologisch verband bestaat tussen de verschillende
betekenissen van een woord dan noemen we het een homoniem
(bijvoorbeeld vorst in de betekenis van vrieskou en heerser)
o Hierna zoomen we in op twee taaltechnologische toepassingen om de juiste
betekenis van woorden in een zin te bepalen namelijk:
Automatische desambiguering (word sense disambiguation WSD)
Automatisch herkennen van eigennamen (named entity recognition
NER)
o WSD stelt computers in staat om betekenis van een woord in een zin te
bepalen. Ze hebben geen redeneervermogen als mensen, maar ze zijn goed in
patronen zoeken en de betekenis van woorden af te leiden uit associaties met
andere woorden
o Dit komt door distributionele hypothese: betekenis van woorden wordt door
de context of omringende woorden in de zin bepaald
o Bij NER identificeert een computerprogramma automatisch eigennamen in
een tekst en wijst die vervolgens toe aan specifieke categorieën
o Door hoge mate van specificiteit zijn niet altijd alle vaktermen aanwezig in de
data. Eigennamen kunnen ook metonymisch gebruikt worden, het verwijst
dan niet naar de persoon zelf maar naar een karaktertrek
o WSD en NER vereisen dus morfologische en syntactische informatie om met
succes kunnen worden uitgevoerd. Wat een semantische analyse nog
moeilijker maakt, is de dynamische en evoluerende aard van taal
Discoursanalyse: taal in dialoog
Bij een discoursanalyse wordt er verwezen naar het niveau van de tekst
Conferentieresolutie: computer lost dubbelzinnigheid op door te bepalen naar welke
specifieke woorden of zinsdelen verwezen wordt
Conferentie betekent dat meerdere woorden of woordgroepen naar hetzelfde
verwijzen
Pragmatiek en wereldkennis
Binnen de pragmatiek wordt onderzoek gedaan naar de mechanismes die de
betekenis van woorden binnen bepaalde contexten bepalen
Relaties tussen taaluitdrukkingen en de context is belangrijk omdat de betekenis van
woorden vaak afhankelijk is van de kennis en het doel van de taalgebruiker
Wereldkennis kan ook een oorzaak zijn van ambiguïteit. Wereldkenis omvat alle
informatie, kennis, feiten en inzichten over de wereld en verschillende culturen.
Wanneer gesprekspartners te weinig van dezelfde wereldkennis delen, kunnen
misverstanden optreden