Engels|Nederlands

Hoogleraar Taal, Communicatie en Computatie aan de Universiteit Utrecht.

Bestuurslid en domeinvoorzitter Sociale en Geesteswetenschappen, NWO — Nederlandse Organisatie voor Wetenschappelijk Onderzoek.

a.p.j.vandenbosch@uu.nl

bezoekadres
Universiteit Utrecht, Faculteit Geesteswetenschappen
Trans 10
3512 JK Utrecht
Nederland

postadres
Universiteit Utrecht, Faculteit Geesteswetenschappen
Postbus 80125
3508 TC Utrecht
Nederland

Ik onderzoek hoe computers taal leren — en wat dat betekent voor de rest van ons. Mijn groep bouwt het soort AI dat chatbots zoals ChatGPT aandrijft, maar we stellen ook moeilijkere vragen: kunnen we deze technologie groener maken, eerlijker over waar haar antwoorden vandaan komen, en beter te reguleren door de samenleving?

Op deze pagina vind je mijn huidige onderzoek, teksten van lezingen en publicaties, de projecten die we doen, en de mensen met wie ik werk. Voor het hele overzicht, zie

Interactieve publicaties

Twee geïllustreerde, interactieve essays geschreven voor een breed publiek (beide in het Engels):

Catching Cyberbullies with Neural Networks — hoe AI kan helpen bij het modereren van online intimidatie. Wessel Stoop, Florian Kunneman, Antal van den Bosch, Ben Miller. The Gradient, 2021.

How Algorithms Know What You'll Type Next — een speelse uitleg van de technologie achter autocomplete. Wessel Stoop, Antal van den Bosch. The Pudding, 2019.

Waar ik aan werk

In de kern draait mijn onderzoek om één misleidend simpele taak: het voorspellen van het volgende woord. Dat is de truc achter elk modern taalmodel, inclusief ChatGPT. Het klinkt simpel, maar het blijkt dat je een verrassende hoeveelheid taal, redeneervermogen en cultuur uit een goede volgend-woord-voorspeller kunt persen.

Mijn werk ligt op het snijvlak van machine learning — computers laten leren uit voorbeelden — en taal. De modellen die we bouwen zijn op zichzelf nuttig, maar raken ook aan diepere vragen in de taalkunde, de psychologie en de neurowetenschap over hoe mensen met taal omgaan. Ik werk vooral graag aan projecten over de grenzen van disciplines heen.

Olifant: een lichter alternatief voor Generatieve AI

De huidige chatbots, zoals ChatGPT en Claude, zijn gebouwd op Transformers, een architectuur die krachtig is maar heel veel elektriciteit verbruikt. Met Maarten van Gompel, Peter Berck, Ko van der Sloot en een groeiend team studenten breng ik een ouder, simpeler idee terug — memory-based taalmodellen — en laten we zien dat het veel van hetzelfde werk kan doen voor een fractie van de energie.

De getallen zijn op z'n minst opvallend: het trainen van onze modellen kost ruwweg 1.000× minder elektriciteit dan het trainen van een vergelijkbare Transformer, en het beantwoorden van vragen kost 10 tot 100× minder. Ze schalen mooi op met meer data, en — in tegenstelling tot reguliere taalmodellen — kunnen ze laten zien op welke voorbeelden uit hun trainingsdata een antwoord gebaseerd is. Dat maakt het gedrag van het model controleerbaar en navolgbaar.

We publiceerden de software als Olifant, beschreven de methode in een paper, en delen demo's en downloadbare modellen.

Uit het Olifant-paper: geschatte CO2-uitstoot (gemeten met CodeCarbon) van verschillende taalmodellen tijdens het voorspellen van de volgende woorden in een tekst van 500.000 tokens. De stippellijnen laten alledaagse uitstoot ter vergelijking zien — een wasbeurt, tien minuten autorijden, een liter melk. Twee van onze modellen blijven ruim onder de wasmachine; grotere GPT-achtige systemen lopen steeds steiler op.

Probeer het zelf: de demo hieronder laat zien op welke eerdere voorbeelden Olifant zich baseert om het volgende woord te voorspellen, voor elke zin die je intikt. Er is ook een demo voor tekstgeneratie en een verzameling Olifant-modellen op Hugging Face.

Advies over AI-regulering

Samen met collega's Fabian Ferrari en José van Dijck adviseer ik overheden en wetenschappelijke gremia over hoe generatieve AI gereguleerd kan worden. Verstandig beleid vraagt om zowel een technische als een bestuurlijke blik aan tafel. Lees meer in het UU-nieuwsbericht of ons artikel in Nature Machine Intelligence.

Publicaties & boeken

De volledige lijst staat op de publicatiepagina; je kunt ook door mijn profielen op Google Scholar of Semantic Scholar bladeren.

Met Walter Daelemans schreef ik Memory-based language processing (Cambridge University Press, 2005), dat het fundament legt voor de Olifant-lijn van onderzoek hierboven.

       

Geredigeerde bundels

Ik was co-redacteur van bundels over Arabische computationele morfologie, interactieve multimodale question answering, en taaltechnologie voor cultureel erfgoed.

Aanstellingen

Sinds september 2022 ben ik hoogleraar Taal, Communicatie en Computatie aan de Faculteit Geesteswetenschappen van de Universiteit Utrecht. Sinds juli 2023 zit ik in het bestuur van NWO, als domeinvoorzitter Sociale en Geesteswetenschappen. Ik ben gasthoogleraar bij CLiPS, Universiteit Antwerpen.

Ik ben fellow van de European Association for Artificial Intelligence (EurAI) en lid van de Koninklijke Nederlandse Akademie van Wetenschappen en de Koninklijke Hollandsche Maatschappij der Wetenschappen.

Eerdere aanstellingen

2017–2022: directeur van het Meertens Instituut (KNAW). Daarvoor: hoogleraar Taal- en Spraaktechnologie aan de Radboud Universiteit Nijmegen, binnen het Centre for Language Studies en het Centre for Language and Speech Technology. 1997–2011: aan de Tilburg School of Humanities and Digital Sciences van Tilburg University (ILK-onderzoeksgroep). Promotie aan de Universiteit Maastricht.

Oraties & publieke lezingen

In Nederland en België geven pas benoemde hoogleraren traditioneel een publieke oratie. Ik mocht dit drie keer doen — in Tilburg (2008), Nijmegen (2012), en in 2023 in Kortrijk, toen ik de Francqui Leerstoel 2023 over Taal en AI mocht bekleden aan KU Leuven KULAK.

Alle drie de lezingen cirkelen rond één verrassend idee: het goed kunnen voorspellen van het volgende woord kan je verbazingwekkend ver brengen. Al in 2008 betoogde ik dat volgend-woord-voorspellers gewoon beter blijven worden met meer trainingstekst — tien keer meer data levert een stabiele, voorspelbare sprong in nauwkeurigheid op. Die observatie (de Wet van Heaps, voor wie de technische term zoekt) ligt stilletjes aan de basis van de enorme groei in grote taalmodellen die we nu meemaken.

De lezingen zelf zijn in het Nederlands:

Eerdere projecten

Toon onderzoeksprojecten die ik eerder leidde of mede-leidde

  • ADNEXT — Adaptive Information Extraction over Time, onderdeel van het COMMIT-programma.
  • Language in Interaction — met Peter Desain coördineerde ik WP7 'Utilization' van dit NWO-Zwaartekrachtprogramma.
  • DISCOSUMO — NWO Creatieve Industrie-project met Tilburg University en Sanoma.
  • TraMOOC — een Horizon 2020-project over machinevertaling voor Massive Open Online Courses.
  • Notoriously Toxic — een NEH-project over de taal en de kosten van online haat en intimidatie in games.
  • FACT — Folktales as Classifiable Texts, een NWO CATCH-project.
  • Tunes & Tales — een KNAW-project Computational Humanities.
  • HiTiME — Historical Timeline Mining and Extraction, een NWO CATCH-project.
  • MEMPHIX — memory-based parafraseren.
  • Implicit Linguistics — een NWO Vici-project over machine learning van tekst-naar-tekstverwerking.
  • AMICUS — een NWO-project Internationalisering in de Geesteswetenschappen over het ontdekken van motieven in erfgoedteksten.

Lopende projecten

Better-Mods ontwikkelt instrumenten waarmee burgers een scherper beeld kunnen krijgen van debatten op online platforms. Samen met nu.nl en de TULP-groep in Tilburg, gefinancierd door NWO. Een zusterproject, eveneens met NWO-financiering, leverde Wie Is De Trol? — een klassikaal spel over online manipulatie — met partners NEMO Kennislink, KNAW Meertens Instituut, Netwerk Mediawijsheid, en Alliantie Digitaal Samenleven.

Cultural AI is een lab voor "cultureel bewuste" AI — AI-systemen die serieus omgaan met hoe subtiel, meerstemmig en omstreden menselijke cultuur is.

Onderwijs

Transformers: Applications in Language and Communication — blok 3 van de master Applied Data Science aan de Universiteit Utrecht.

In deze cursus introduceren we studenten in de Transformer — de T in GPT — de werkpaard-architectuur die sinds de lancering van ChatGPT eind 2022 het AI-landschap in één klap heeft veranderd. In de kern doet de Transformer maar één ding: het volgende woord voorspellen. Hoe slaagt een volgend-woord-voorspeller dan voor examens? Hoe lijkt hij te redeneren? Waar gaat het mis, en waar gaat het veld nu naartoe? Dat zijn de vragen die we behandelen.

Promovendi die ik momenteel begeleid

  • Golshid Shekoufandeh (met Paul Boersma)
  • Joris Veerbeek (met Karin van Es en Mirko Schäfer)
  • Xiao Xu (met Anne Gauthier en Gert Stulp)
  • Ronja van Zijverden (met Marloes van Moort, Karin Fikkers en Hans Hoeken)

Voormalige promovendi

2020s

2010s

2000s

  • Toine Bogers, Aalborg University Copenhagen
  • Sabine Buchholz, Capito Systems
  • Sander Canisius, Antoni van Leeuwenhoek
  • Iris Hendrickx, Radboud Universiteit
  • Piroska Lendvai, Bavarian Academy of Science and Arts
  • Laura Maruster, Rijksuniversiteit Groningen
  • Stephan Raaijmakers, TNO en Universiteit Leiden
  • Martin Reynaert, Universiteit van Amsterdam

Software die we hebben uitgebracht

Naast publicaties en proefschriften brengen onze projecten ook software voort. Waar mogelijk maken we die beschikbaar onder open source-licenties; sommige pakketten draaien daarnaast als webservices met een vriendelijke interface, en een aantal is opgenomen in nationale en Europese onderzoeksinfrastructuren.

Een paar highlights:

  • Olifant — een memory-based taalmodel. Voortbouwend op een lange reeks eerdere systemen, waaronder WOPR uit 2010 dat — met veel minder data en veel kleinere computers — ook al volgende woorden voorspelde voor de lol. Met Peter Berck, Maarten van Gompel, Ko van der Sloot, Teun Buijse en Ainhoa Risco Paton.
  • Frog — een veelzijdige analysetool voor Nederlandse tekst; vindt woordsoorten, stamvormen en de grammaticale zinsstructuur. Met het Frog-ontwikkelteam.
  • T-Scan (ook als webtool) — analyseert Nederlandse tekst op kenmerken die met leesbaarheid samenhangen.
  • Timbl — Tilburg Memory-Based Learner. De machine learning-toolkit waarop een groot deel van ons memory-based werk is gebouwd. Met Ko van der Sloot, Walter Daelemans en Jakub Zavrel.

Meer software en digitale infrastructuur

Taaltechnologie

  • Valkuil.net en Fowlt.net — contextgevoelige spellingcorrectors voor het Nederlands en het Engels.
  • Colibri Core — efficiënte n-gram- en skip-gram-modellen. Met Maarten van Gompel.
  • Mbt — memory-based woordsoort-tagger. Met Ko van der Sloot, Jakub Zavrel en Walter Daelemans.


WOPR genereert in 2010 "woordsla" — zo zag een kleine voorloper van ChatGPT eruit.

Digitale onderzoeksinfrastructuur

  • CLARIAH — Common Lab Research Infrastructure for the Arts and Humanities.
  • Nederlab — brengt enorme hoeveelheden gedigitaliseerde Nederlandse teksten van de middeleeuwen tot nu samen in één doorzoekbare omgeving (NWO).
  • FutureTDM — een Horizon 2020-actie over text and data mining.
  • TwiNL — een Netherlands eScience Center-project met Erik Tjong Kim Sang.
  • ISHER — Integrated Social History Environment for Research.

Geselecteerde media

Nederlandstalig

Engelstalig

Games & consumentenproducten

a.p.j.vandenbosch@uu.nl