Bij AIMAZE krijgen we vaak de vraag: “Hoe werkt zo’n taalmodel nou eigenlijk? Hoe kan het dat een computer zo goed met taal omgaat?”
Het is een logische vraag, want taalmodellen zoals ChatGPT worden steeds vaker gebruikt, maar voor veel mensen is het nog steeds een mysterie. Daarom neem ik je graag mee in een heldere uitleg – zonder moeilijke taal, mét voorbeelden uit het dagelijks leven.

Waarom willen zoveel mensen dit weten?

We leven in een tijd waarin kunstmatige intelligentie overal opduikt. Chatbots schrijven teksten, beantwoorden e-mails, of leggen complexe dingen uit. Maar wat gebeurt er nu écht als je een vraag stelt?
Het geheim zit in drie slimme stappen: tokenization, word embeddings en architectural developments. Laten we die samen ontdekken!

Stap 1: Tokenization – Tekst in stukjes hakken

Voor mensen zijn zinnen logisch en vol betekenis. Voor een computer is het gewoon een reeks tekens. Daarom wordt tekst eerst opgeknipt in kleine stukjes, de zogenaamde ‘tokens’.

Voorbeeld:
Neem de zin:
“De vakantie begint volgende week.”

De computer knipt dit op in:

  • “De”
  • “vakantie”
  • “begint”
  • “volgende”
  • “week”
  • “.”

Ieder token krijgt een nummer, zodat de computer alles als getallen kan verwerken.
Het werkt een beetje zoals bij een boodschappenlijstje: elk item krijgt een nummer, zodat je snel weet wat je nodig hebt.

Stap 2: Word embeddings – Woorden krijgen betekenis

Nu weet de computer welke losse stukjes tekst er zijn, maar nog niet wat ze betekenen. Hier komt word embeddings om de hoek kijken.
Word embeddings geven elk woord een plekje op een denkbeeldige landkaart, zodat de computer begrijpt welke woorden bij elkaar horen of op elkaar lijken.

Voorbeeld:
Stel je een kaart voor met allerlei soorten eten. “Appel” en “Peer” liggen dicht bij elkaar, want het zijn allebei fruit.
“Pizza” ligt ergens anders, maar wel dichter bij “Lasagne” dan bij “Appel”.

Dit helpt het taalmodel om verbanden te leggen. Als je bijvoorbeeld vraagt:
“Wat is lekker als toetje na een pizza?”
Dan snapt het model dat een “ijsje” of “tiramisu” een logisch antwoord is, omdat die ook bij eten horen en vaak samen voorkomen.

Stap 3: Architectural developments – Slim omgaan met context

Vroeger konden computers alleen naar losse woorden kijken, maar met moderne technieken (zoals de transformer) zijn taalmodellen echte contextdenkers geworden.
Deze slimme modellen onthouden wat er eerder in een tekst of gesprek is gezegd, en gebruiken die informatie om een goed antwoord te geven.

Voorbeeld uit het dagelijks leven:
“Mijn opa maakte vroeger altijd erwtensoep. Die was heerlijk.”
Het taalmodel begrijpt nu dat met “die” de soep bedoeld wordt, niet de opa.

Door deze slimme architectuur kan het model dus écht met je meedenken, zelfs als een gesprek langer of ingewikkelder wordt.

Alles op een rijtje

Dus, als je bij AIMAZE een vraag stelt aan een digitale medewerker, gebeurt er het volgende:

  1. Tokenization: Je zin wordt opgeknipt in kleine stukjes die voor de computer begrijpelijk zijn.
  2. Word embeddings: Elk woord krijgt een plek op een soort onzichtbare kaart, waardoor de computer weet welke woorden bij elkaar horen.
  3. Architectural developments: Dankzij slimme modellen als de transformer, begrijpt de computer de hele context en krijg je een logisch, menselijk antwoord.

Waarom is dit bijzonder?

Dankzij deze drie slimme stappen voelt het soms echt alsof je met een collega praat. Dat is geen magie, maar het resultaat van slimme techniek en veel onderzoek.

Dus de volgende keer dat je met een digitale medewerker van AIMAZE praat, weet je: onder de motorkap werkt er een heel slim taalmodel, dat jouw tekst razendsnel verwerkt, begrijpt én erop reageert!

Wil je meer weten, of heb je een specifieke vraag? We leggen het graag verder uit bij AIMAZE. Nieuwsgierigheid is het begin van alle leren!