Methodologie 2- Johannes Fahrenfort
AI college.
Officiële standpunt van de Vu: als student geen generatieve AI mag
gebruiken, tenzij de docent of examinator van je vak aangeeft of en hoe
dat mag.
In dit college
Generative AI: Large Language Models, zoals ChatGPT, Claude,
DeepSeek Enzovoort.
Language Models worden steeds krachtiger; de kernvaardigheden
die nodig zijn om onderzoek uit te voeren (informatie opzoeken,
redeneren, schrijven en complete producten maken).
Hoe werken LLM’s
- Tokenizer
- Enorm trainingsproces
- Embedding matrix
- Transformer architectuur
- Chain of Thought (RLHF)
1. Tokenizer
o De LLM’s verwerken getallen, geen taal.
o Data (bijvoorbeeld tekst) worden geëncodeerd als getal =
tokens.
o Iedere LLM heeft zijn eigen tokenizer (zet iets om in
tokens/codes).
o Alle tokens die een LLM kan representeren worden tezamen de
vocabulary van de LLM genoemd.
Voorbeelden
o Bijvoorbeeld aan iedere letter een getal toekennen; token ID’s.
– heel weinig woordenschat nodig.
o Maar willen ook iets doen met betekenis doen soms heb je
woord tokenizers waarbij bepaalde woorden gerepresenteerd
worden door bepaalde cijfers. – veel meer woordenschat
nodig.
o Meeste LLM’s: eenvoudige deelwoord tokenizer: deelwoorden
krijgen eigen tokens. – woordenschat tussen de 50.000 en
100.000 tokens.
Woordenschat is klein genoeg om efficiënt te zijn.
Flexibel genoeg om willekeurige nieuwe woorden te
kunnen representeren.
, Methodologie 2- Johannes Fahrenfort
Kan de opdracht niet goed uitvoeren vanwege de
tokenizer; straw heeft bijvoorbeeld een token-id
van 17 en berry van 89.
Oplossing van nieuwere modellen: de woorden expliciet ont-tokeniseren.
2. Embeddingsmatrix:
o De LLM heet informatie nodig over de relatie die tokens in de
woordenschat tot elkaar hebben.
o Bestaat uit allerlei (abstracte) dimensie waarbinnen je
woorden kunt scoren.
o Individuele getallen in de matrix: gewichten.
o Een rij uit de Embeddingsmatrix die staat voor een bepaalde
dimensie.
Gewichten (paramaters) komen tot
stand door backpropagation
(leeralgoritme).
Tokens met vergelijkbare
betekenissen zullen vaak hoog
gecorreleerde vectoren hebben.
- In werkelijkheid zijn er 100.00 tokens in een model en zijn de
dimensies veel hoger.
- Wanneer de gewichten zijn vastgesteld en het model getraind is, is
het klaar en kan er geen nieuwe informatie meer bij.
- De bedrijven maken niet bekend op welke teksten hun modellen zijn
getraind.
3. Transformers
o Zijn specifiek soort neuraal netwerk dat een aandacht-
mechanisme gebruikt.
,Methodologie 2- Johannes Fahrenfort
o Input veranderen in iets anders: tekst naar spraak, tekst naar
afbeelding en taal A naar taal B.
o Stelt het architectuur in staat om woordvoorspellingen te doen
aan de hand waarschijnlijkheidsvoorspellingen.
o Het is ook een beetje raden, maar;
o Aandacht: ieder token afgaan en relaties leggen tussen alle
woorden in zo’n zin. De tokenvector van een token wordt
verplaatst door de attention head om de context waarin het
wordt gepresenteerd op te nemen.
o In taal zie je dat woorden in andere contexten andere
betekenissen hebben, daarom werden de taalmodellen zoveel
beter door deze transformtechnieken.
o Multi-layer-perceptron; na aandacht wordt er een netwerk
betrokken dat de tokenvectoren verder getrokken worden naar
de relevante context.
4. Chain of Thought:
o Modellen extra getraind op het leren van bepaalde
redeneringen.
o Met behulp van de input van mensen; zij scoren antwoorden
op of het een goed antwoord is of niet. – Reinforcement
Learning from Human Feedback.
o Bijvoorbeeld welke van de twee antwoorden vind je beter,
gebruikt Chatgpt voor de toekomst.
o Het kan een probleem in tussenstapjes opsplitsen.
Zelfhandelende AI
o Autonoom opereren zonder dat er menselijke toezicht nodig is.
o LLM’s hebben toegang tot databronnen.
o LLM’s kunnen complexe workflows uitvoeren in plaats van
afzonderlijke opdrachten.
, Methodologie 2- Johannes Fahrenfort
AI college, deel 2
- Is het okay om LLM’s te gebruiken.
Hoe zit dat met ethiek
Eerlijkheid
Transparantie
Onafhankelijkheid
Verantwoordelijkheid
Zorgvuldigheid
Eerlijkheid
- Dat men geen ongefundeerde claims doet, het onderzoeksproces
correct rapporteert, data of bronnen niet verzint, alternatieve visies
en tegenargumenten serieus neemt, open is voor
onzekerheidsmarges en de resultaten niet gunstiger of ongunstiger
voorstelt.
- In relatie tot AI: het vragen van een LLM om hulp is niet hetzelfde als
het vragen aan een expert, medestudent of een collega: genereert
de meest waarschijnlijke tekst. Als er meer gegevens beschikbaar
zijn is de kans groter dat de LLM-outputs juist zijn, maar in de
wetenschap weten we vaak niet precies hoe iets zit.
Transparantie
- Voor andere helder op welke bronnen of data het werk gebaseerd is;
controleerbaar of repliceerbaar.
- Te controleren door de artikelen op te zoeken waarop de conclusies
zijn gebaseerd.
- In AI:
o Een LLM heeft geen idee waar de informatie vandaan komt. De
gewichten zijn probalistisch.
o LLM is als iemand die miljoenen boeken heeft gelezen, maar
geen aantekeningen heeft gemaakt.
Onafhankelijkheid
- In de keuze van de methode, bij de beoordeling van de data, in de
weging van alternatieve verklaringen, bij het beoordelen van
onderzoek of onderzoeksvoorstellen, niet laten leiden door buiten-
wetenschappelijke overwegingen. Onafhankelijkheid is vereist bij de
opzet en uitvoering van een rapportage over het onderzoek.
o Geen bias.
o Onpartijdigheid.
o Wetenschappelijke methodologie.
AI college.
Officiële standpunt van de Vu: als student geen generatieve AI mag
gebruiken, tenzij de docent of examinator van je vak aangeeft of en hoe
dat mag.
In dit college
Generative AI: Large Language Models, zoals ChatGPT, Claude,
DeepSeek Enzovoort.
Language Models worden steeds krachtiger; de kernvaardigheden
die nodig zijn om onderzoek uit te voeren (informatie opzoeken,
redeneren, schrijven en complete producten maken).
Hoe werken LLM’s
- Tokenizer
- Enorm trainingsproces
- Embedding matrix
- Transformer architectuur
- Chain of Thought (RLHF)
1. Tokenizer
o De LLM’s verwerken getallen, geen taal.
o Data (bijvoorbeeld tekst) worden geëncodeerd als getal =
tokens.
o Iedere LLM heeft zijn eigen tokenizer (zet iets om in
tokens/codes).
o Alle tokens die een LLM kan representeren worden tezamen de
vocabulary van de LLM genoemd.
Voorbeelden
o Bijvoorbeeld aan iedere letter een getal toekennen; token ID’s.
– heel weinig woordenschat nodig.
o Maar willen ook iets doen met betekenis doen soms heb je
woord tokenizers waarbij bepaalde woorden gerepresenteerd
worden door bepaalde cijfers. – veel meer woordenschat
nodig.
o Meeste LLM’s: eenvoudige deelwoord tokenizer: deelwoorden
krijgen eigen tokens. – woordenschat tussen de 50.000 en
100.000 tokens.
Woordenschat is klein genoeg om efficiënt te zijn.
Flexibel genoeg om willekeurige nieuwe woorden te
kunnen representeren.
, Methodologie 2- Johannes Fahrenfort
Kan de opdracht niet goed uitvoeren vanwege de
tokenizer; straw heeft bijvoorbeeld een token-id
van 17 en berry van 89.
Oplossing van nieuwere modellen: de woorden expliciet ont-tokeniseren.
2. Embeddingsmatrix:
o De LLM heet informatie nodig over de relatie die tokens in de
woordenschat tot elkaar hebben.
o Bestaat uit allerlei (abstracte) dimensie waarbinnen je
woorden kunt scoren.
o Individuele getallen in de matrix: gewichten.
o Een rij uit de Embeddingsmatrix die staat voor een bepaalde
dimensie.
Gewichten (paramaters) komen tot
stand door backpropagation
(leeralgoritme).
Tokens met vergelijkbare
betekenissen zullen vaak hoog
gecorreleerde vectoren hebben.
- In werkelijkheid zijn er 100.00 tokens in een model en zijn de
dimensies veel hoger.
- Wanneer de gewichten zijn vastgesteld en het model getraind is, is
het klaar en kan er geen nieuwe informatie meer bij.
- De bedrijven maken niet bekend op welke teksten hun modellen zijn
getraind.
3. Transformers
o Zijn specifiek soort neuraal netwerk dat een aandacht-
mechanisme gebruikt.
,Methodologie 2- Johannes Fahrenfort
o Input veranderen in iets anders: tekst naar spraak, tekst naar
afbeelding en taal A naar taal B.
o Stelt het architectuur in staat om woordvoorspellingen te doen
aan de hand waarschijnlijkheidsvoorspellingen.
o Het is ook een beetje raden, maar;
o Aandacht: ieder token afgaan en relaties leggen tussen alle
woorden in zo’n zin. De tokenvector van een token wordt
verplaatst door de attention head om de context waarin het
wordt gepresenteerd op te nemen.
o In taal zie je dat woorden in andere contexten andere
betekenissen hebben, daarom werden de taalmodellen zoveel
beter door deze transformtechnieken.
o Multi-layer-perceptron; na aandacht wordt er een netwerk
betrokken dat de tokenvectoren verder getrokken worden naar
de relevante context.
4. Chain of Thought:
o Modellen extra getraind op het leren van bepaalde
redeneringen.
o Met behulp van de input van mensen; zij scoren antwoorden
op of het een goed antwoord is of niet. – Reinforcement
Learning from Human Feedback.
o Bijvoorbeeld welke van de twee antwoorden vind je beter,
gebruikt Chatgpt voor de toekomst.
o Het kan een probleem in tussenstapjes opsplitsen.
Zelfhandelende AI
o Autonoom opereren zonder dat er menselijke toezicht nodig is.
o LLM’s hebben toegang tot databronnen.
o LLM’s kunnen complexe workflows uitvoeren in plaats van
afzonderlijke opdrachten.
, Methodologie 2- Johannes Fahrenfort
AI college, deel 2
- Is het okay om LLM’s te gebruiken.
Hoe zit dat met ethiek
Eerlijkheid
Transparantie
Onafhankelijkheid
Verantwoordelijkheid
Zorgvuldigheid
Eerlijkheid
- Dat men geen ongefundeerde claims doet, het onderzoeksproces
correct rapporteert, data of bronnen niet verzint, alternatieve visies
en tegenargumenten serieus neemt, open is voor
onzekerheidsmarges en de resultaten niet gunstiger of ongunstiger
voorstelt.
- In relatie tot AI: het vragen van een LLM om hulp is niet hetzelfde als
het vragen aan een expert, medestudent of een collega: genereert
de meest waarschijnlijke tekst. Als er meer gegevens beschikbaar
zijn is de kans groter dat de LLM-outputs juist zijn, maar in de
wetenschap weten we vaak niet precies hoe iets zit.
Transparantie
- Voor andere helder op welke bronnen of data het werk gebaseerd is;
controleerbaar of repliceerbaar.
- Te controleren door de artikelen op te zoeken waarop de conclusies
zijn gebaseerd.
- In AI:
o Een LLM heeft geen idee waar de informatie vandaan komt. De
gewichten zijn probalistisch.
o LLM is als iemand die miljoenen boeken heeft gelezen, maar
geen aantekeningen heeft gemaakt.
Onafhankelijkheid
- In de keuze van de methode, bij de beoordeling van de data, in de
weging van alternatieve verklaringen, bij het beoordelen van
onderzoek of onderzoeksvoorstellen, niet laten leiden door buiten-
wetenschappelijke overwegingen. Onafhankelijkheid is vereist bij de
opzet en uitvoering van een rapportage over het onderzoek.
o Geen bias.
o Onpartijdigheid.
o Wetenschappelijke methodologie.