1. Introductie en Motivatie
Traditionele kennis over menselijk gedrag is vaak gebaseerd
op zelfrapportagemetingen (enquêtes, experimenten, interviews). Hoewel deze
waardevol zijn, kunnen dergelijke metingen vertekend zijn. De
communicatiewetenschap wordt geconfronteerd met een toenemende hoeveelheid
data die online beschikbaar is en door gebruikers gegenereerde inhoud. Deze
cursus richt zich op de vraag hoe grote hoeveelheden teksten geanalyseerd kunnen
worden met behulp van computationele methoden.
2. Computational Social Science (CSS)
Definitie: CSS is het veld van de sociale wetenschappen dat algoritmische
hulpmiddelen en grote/ongestructureerde data gebruikt om menselijk en
sociaal gedrag te begrijpen. CSS dient als aanvulling op traditionele
methodologieën, maar vervangt de niet.
Methoden binnen CSS omvatten onder andere:
Data mining (bijv. schrapen en verzamelen van grote datasets).
Geautomatiseerde tekstanalyse (bijv. sentimentanalyse, keyword-extractie).
Beeldclassificatie (bijv. gezichtsherkenning).
Machine learning-benaderingen (voor classificatie, voorspelling, topic
modeling).
Actormodellering (bijv. simulatie van sociaal gedrag).
Voorbeeld: Onderzoekers gebruikten enquêtegegevens van 1.000 mobiele klanten
in Rwanda om een machine learning-model te 'trainen' dat de rijkdom van een
persoon voorspelde op basis van hun complete oproepgegevens.
Enorme hoeveelheden digitaal beschikbare data, variërend van berichten op
sociale media en andere digitale sporen tot webarchieven en recent
gedigitaliseerde kranten- en andere historische archieven.
Grootschalige gegevensbestanden (big data) van personen of bedrijven
worden voortdurend aangemaakt.
Krachtige en relatief goedkope verwerkingscapaciteit, evenals
gebruiksvriendelijke computerinfrastructuur om deze data te verwerken.
Verbeterde hulpmiddelen om deze data te analyseren, waaronder
netwerkanalysemethoden en automatische tekstanalysemethoden zoals
gesuperviseerde tekstclassificatie, topic modeling, woordembeddings en grote
taalmodellen.
Typische onderzoeksgebieden:
- Politieke communicatie
o Polarisatie en hate speech
- Sociale mediagebruik,
o Tracken van het gebruik
, o Verspreiden van gedrag, informatie en emoties
- Gezondheidscommunicatie
o Prevalentie van gezondheidsinformatie online
- Journalistiek
o News coverage across decades
o Genderongelijkheid
Voorbeelden van CCS-onderzoek:
Nieuwsanalyse: Het analyseren van 51.528 nieuwsverhalen over nucleaire
technologie tussen 1945 en 2014 met behulp van "LDA topic modeling"
Persoonlijkheidsvoorspelling: Het voorspellen van persoonlijke kenmerken
en persoonlijkheid op basis van Facebook Likes.
Genderrepresentatie: Het meten van de ondervertegenwoordiging van
vrouwen op tv (bijv. een geschat aandeel van 39% vrouwelijke gezichten op
16 miljoen totaal).
Karakteristieken van big data
De relevantie van CSS hangt samen met de enorme hoeveelheid digitaal
beschikbare data en de verbeterde, krachtige en betaalbare computermiddelen. Big
Data wordt gekenmerkt door tien eigenschappen:
Karakteristiek Beschrijving
1. Big De omvang maakt de studie van zeldzame
gebeurtenissen en heterogeniteit mogelijk.
2. Always-on Constante dataverzameling maakt realtime metingen
mogelijk.
3. Nonreactive Deelnemers zijn zich niet bewust van de
dataverzameling of zijn eraan gewend, waardoor hun
gedrag minder verandert.
4. Incomplete Mist vaak de exacte informatie die nodig is voor
onderzoek, omdat de data voor andere doeleinden is
gecreëerd.
5. Inaccessible Data in handen van bedrijven en overheden zijn vaak
moeilijk toegankelijk voor onderzoekers.
6. Nonrepresentative Veel big datasets zijn niet representatief voor specifieke
populaties.
7. Drifting Systemen veranderen voortdurend, wat
langetermijntrends moeilijk maakt.
8. Algorithmically Gedrag wordt beïnvloed door de technische doelen van
confounded de systemen.
9. Dirty Bevat vaak veel ruis (junk, spam).
10. Sensitive Bevat gevoelige informatie.
,Kansen en Valkuilen van Computationele Methoden
Kansen (Opportunities) Valkuilen (Pitfalls)
Studie van daadwerkelijk gedrag in Technieken zijn vaak complex.
plaats van zelfrapportage.
Onderzoek van mensen in hun sociale Data is vaak proprietary (niet
context (niet in een kunstmatige openbaar gedeeld).
labomgeving).
Mogelijkheid tot een grotere N (hogere Samples zijn vaak vertekend (biased).
power).
Potentieel om patronen bloot te leggen die Risico dat men de gebruikte modellen
voorheen niet onderzocht konden worden. niet meer begrijpt (black box).
4. Inleiding tot geautomatiseerde tekstanalyse
Geautomatiseerde tekstanalyse is het kernthema van de cursus. Tekst is een "nieuw"
soort data, die niet gestructureerd is zoals traditionele experimentele data.
Traditionele tekstanalyse vereist veel handmatige arbeid: teksten selecteren,
analysecategorieën en -eenheden definiëren, coderingsregels ontwikkelen en het
handmatig coderen van de tekst. Dit proces is beperkt door het feit dat er altijd meer
teksten zijn dan mensen handmatig kunnen coderen.
Definitie van tekstanalyse: "een onderzoekstechniek voor het maken
van repliceerbare en geldige inferenties uit teksten (of andere betekenisvolle
materie) naar de contexten van hun gebruik".
Tekst als symbool en betekenis: Tekst bestaat uit symbolen die op zichzelf geen
betekenis hebben. Tekst krijgt pas betekenis wanneer deze in zijn context wordt
geïnterpreteerd. De belangrijkste uitdaging in geautomatiseerde tekstanalyse is
het overbruggen van de kloof tussen symbolen en zinvolle interpretatie.
Linguïstiek en feature engineering
Om geautomatiseerde tekstanalyse uit te voeren, wordt gebruikgemaakt van de
organisatieniveaus van taal om taalkenmerken (language features) te creëren.
Subveld Focus
Morfologie Hoe woorden worden gevormd.
Syntax Hoe zinnen worden gevormd uit
woorden.
Semantics Wat zinnen betekenen.
Pragmatics Hoe taal in context wordt gebruikt.
Phonetics Geluiden die mensen gebruiken in taal.
Phonology Systemen of geluiden in bepaalde talen.
, Klassieke machine learning maakt vaak gebruik van morfologische
kenmerken (bijv. opsplitsen in tekens of woorden), terwijl moderne benaderingen
(LLMs) ook syntactische en pragmatische kenmerken betrekken.
Van tekst naar getallen: Bij geautomatiseerde tekstclassificatie worden de teksten
opgesplitst in tokens (bijv. woorden, zinnen, n-grams) en vervolgens
als getallen weergegeven, zodat een computer ze kan verwerken.
Type of Feature Example
Word “Include”, “Your”, “Children”, “When”,
“Baking”, “Cookies”
n-grams “Include Your Children”, “When Baking
Cookies”
Sentence “Include Your Children When Baking
Cookies”
Bigrams “Include”, “Your Children”, “When”,
“Baking Cookies”
De algemene tekstclassificatie-pipeline
Het algemene doel van de pipeline is het labelen of annoteren van voorheen
ongelabelde tekst (bijv. met sentiment of onderwerp). De vier stappen blijven meestal
constant:
1. Tekst verkrijgen (obtaining text): Dit kan via openbaar beschikbare
datasets, door het schrapen (scraping) van primaire bronnen (let op