|
Ik onderzoek hoe computers taal leren — en wat dat betekent voor de rest van ons.
Mijn groep bouwt het soort AI dat chatbots zoals ChatGPT aandrijft, maar we stellen ook
moeilijkere vragen: kunnen we deze technologie groener maken, eerlijker over waar haar
antwoorden vandaan komen, en beter te reguleren door de samenleving?
Op deze pagina vind je mijn huidige onderzoek, teksten van lezingen en publicaties,
de projecten die we doen, en de mensen met wie ik werk. Voor het hele overzicht, zie
Interactieve publicaties
Twee geïllustreerde, interactieve essays geschreven voor een breed publiek
(beide in het Engels):
Catching Cyberbullies with Neural Networks
— hoe AI kan helpen bij het modereren van online intimidatie.
Wessel Stoop, Florian Kunneman, Antal van den Bosch, Ben Miller. The Gradient, 2021.
How Algorithms Know What You'll Type Next
— een speelse uitleg van de technologie achter autocomplete.
Wessel Stoop, Antal van den Bosch. The Pudding, 2019.
Waar ik aan werk
In de kern draait mijn onderzoek om één misleidend simpele taak:
het voorspellen van het volgende woord.
Dat is de truc achter elk modern taalmodel, inclusief ChatGPT.
Het klinkt simpel, maar het blijkt dat je een verrassende hoeveelheid taal,
redeneervermogen en cultuur uit een goede volgend-woord-voorspeller kunt persen.
Mijn werk ligt op het snijvlak van machine learning — computers laten leren
uit voorbeelden — en taal. De modellen die we bouwen zijn op zichzelf nuttig,
maar raken ook aan diepere vragen in de taalkunde, de psychologie en de neurowetenschap
over hoe mensen met taal omgaan. Ik werk vooral graag aan projecten over de grenzen van
disciplines heen.
Olifant: een lichter alternatief voor Generatieve AI
De huidige chatbots, zoals ChatGPT en Claude, zijn gebouwd op Transformers, een architectuur die krachtig is
maar heel veel elektriciteit verbruikt. Met Maarten van Gompel, Peter Berck, Ko van der Sloot
en een groeiend team studenten breng ik een ouder, simpeler idee terug
— memory-based taalmodellen — en laten we zien dat het veel van hetzelfde
werk kan doen voor een fractie van de energie.
De getallen zijn op z'n minst opvallend: het trainen van onze modellen kost ruwweg
1.000× minder elektriciteit dan het trainen van een vergelijkbare Transformer,
en het beantwoorden van vragen kost 10 tot 100× minder.
Ze schalen mooi op met meer data, en — in tegenstelling tot reguliere taalmodellen —
kunnen ze laten zien op welke voorbeelden uit hun trainingsdata een antwoord gebaseerd is.
Dat maakt het gedrag van het model controleerbaar en navolgbaar.
We publiceerden de software als Olifant,
beschreven de methode in een paper,
en delen demo's en downloadbare modellen.
Uit het Olifant-paper: geschatte CO2-uitstoot
(gemeten met CodeCarbon) van verschillende taalmodellen tijdens het voorspellen van de volgende woorden
in een tekst van 500.000 tokens. De stippellijnen laten alledaagse uitstoot ter vergelijking zien
— een wasbeurt, tien minuten autorijden, een liter melk. Twee van onze modellen blijven
ruim onder de wasmachine; grotere GPT-achtige systemen lopen steeds steiler op.
Probeer het zelf: de demo hieronder laat zien op welke eerdere voorbeelden Olifant zich baseert
om het volgende woord te voorspellen, voor elke zin die je intikt. Er is ook een
demo voor tekstgeneratie
en een verzameling Olifant-modellen
op Hugging Face.
Advies over AI-regulering
Samen met collega's Fabian Ferrari
en José van Dijck adviseer ik
overheden en wetenschappelijke gremia over hoe generatieve AI gereguleerd kan worden.
Verstandig beleid vraagt om zowel een technische als een bestuurlijke blik aan tafel.
Lees meer in het UU-nieuwsbericht
of ons artikel in Nature Machine Intelligence.
Publicaties & boeken
De volledige lijst staat op de publicatiepagina;
je kunt ook door mijn profielen op
Google Scholar
of Semantic Scholar bladeren.
Met Walter Daelemans schreef ik
Memory-based language processing
(Cambridge University Press, 2005), dat het fundament legt voor de Olifant-lijn van onderzoek hierboven.
Geredigeerde bundels
Ik was co-redacteur van bundels over
Arabische computationele morfologie,
interactieve multimodale question answering,
en taaltechnologie voor cultureel erfgoed.
Aanstellingen
Sinds september 2022 ben ik hoogleraar Taal, Communicatie en Computatie aan de
Faculteit Geesteswetenschappen
van de Universiteit Utrecht.
Sinds juli 2023 zit ik in het bestuur van NWO,
als domeinvoorzitter Sociale en Geesteswetenschappen.
Ik ben gasthoogleraar bij CLiPS,
Universiteit Antwerpen.
Ik ben fellow van de European Association for Artificial Intelligence
(EurAI) en lid van de
Koninklijke Nederlandse Akademie van Wetenschappen
en de Koninklijke Hollandsche Maatschappij der Wetenschappen.
Eerdere aanstellingen
2017–2022: directeur van het Meertens Instituut
(KNAW).
Daarvoor: hoogleraar Taal- en Spraaktechnologie aan de Radboud Universiteit
Nijmegen, binnen het Centre for Language Studies
en het Centre for Language and Speech Technology.
1997–2011: aan de Tilburg School of Humanities and Digital Sciences
van Tilburg University (ILK-onderzoeksgroep).
Promotie aan de Universiteit Maastricht.
Oraties & publieke lezingen
In Nederland en België geven pas benoemde hoogleraren traditioneel een publieke oratie.
Ik mocht dit drie keer doen — in Tilburg (2008), Nijmegen (2012),
en in 2023 in Kortrijk, toen ik de
Francqui Leerstoel 2023 over Taal en AI
mocht bekleden aan KU Leuven KULAK.
Alle drie de lezingen cirkelen rond één verrassend idee: het goed kunnen voorspellen
van het volgende woord kan je verbazingwekkend ver brengen. Al in 2008 betoogde ik dat
volgend-woord-voorspellers gewoon beter blijven worden met meer trainingstekst —
tien keer meer data levert een stabiele, voorspelbare sprong in nauwkeurigheid op.
Die observatie (de Wet van Heaps,
voor wie de technische term zoekt) ligt stilletjes aan de basis van de enorme groei in
grote taalmodellen die we nu meemaken.
De lezingen zelf zijn in het Nederlands:
Eerdere projecten
Toon onderzoeksprojecten die ik eerder leidde of mede-leidde
- ADNEXT — Adaptive Information Extraction over Time, onderdeel van het COMMIT-programma.
- Language in Interaction — met Peter Desain coördineerde ik WP7 'Utilization' van dit NWO-Zwaartekrachtprogramma.
- DISCOSUMO — NWO Creatieve Industrie-project met Tilburg University en Sanoma.
- TraMOOC — een Horizon 2020-project over machinevertaling voor Massive Open Online Courses.
- Notoriously Toxic — een NEH-project over de taal en de kosten van online haat en intimidatie in games.
- FACT — Folktales as Classifiable Texts, een NWO CATCH-project.
- Tunes & Tales — een KNAW-project Computational Humanities.
- HiTiME — Historical Timeline Mining and Extraction, een NWO CATCH-project.
- MEMPHIX — memory-based parafraseren.
- Implicit Linguistics — een NWO Vici-project over machine learning van tekst-naar-tekstverwerking.
- AMICUS — een NWO-project Internationalisering in de Geesteswetenschappen over het ontdekken van motieven in erfgoedteksten.
|