GPT-NL is het Nederlandse nationale taalmodel, ontwikkeld door TNO, NFI en SURF. Voor de finetuningfase moesten duizenden hoogwaardige Nederlandse instructieprompts met de hand worden gemaakt. Er bestond geen dataset die voldeed aan de strenge eisen voor schone, rechtmatig verkregen data. The AI Factory bouwde het annotatieplatform dat dit mogelijk maakte, en Spectrum Intelligence (SPIN.AI) gebruikte het om een team van annotatoren te coördineren die elke prompt met de hand maakten.
De uitdaging: finetuningdata van scratch
Het finetunen van een taalmodel vereist duizenden zorgvuldig opgestelde instructie-responsparen. Voor GPT-NL bestond er geen geschikte Nederlandse promptdataset die een volledig schone dataketen garandeerde. Elke prompt moest met de hand worden geschreven om te waarborgen dat er geen AI-gegenereerde of ongelicentieerde content in de trainingsdata terechtkwam.
Het doel: ongeveer 15.000 prompts verdeeld over acht categorieën, waaronder open vragen, gesloten vragen, chat, creatief schrijven, classificatie, brainstorming en samenvatting. Elke prompt had een bijbehorende hoogwaardige completion nodig. Dit vereiste een team van 10 tot 15 annotatoren die werkten in gestructureerde, agile sprints met continu feedbackloops.
Het annotatieplatform dat wij bouwden
The AI Factory ontwierp en bouwde de annotatiesoftware die dit hele proces aandreef. Het platform is specifiek gebouwd voor de eisen van LLM-finetuning: het aansturen van grote annotatieteams, het handhaven van kwaliteitsstandaarden en het waarborgen van schone dataherkomst bij elke stap.
Het platform bood:
Gestructureerde workflows voor het maken van instructie-completionparen, met ingebouwd categoriebeheer over alle acht prompttypes.
Kwaliteitsborgingspipelines met geautomatiseerde validatie, duplicaatdetectie en cross-review mogelijkheden tussen annotatoren.
Realtime voortgangsmonitoring en analyticsdashboards, waardoor projectmanagers volledig zicht hadden op annotatiedoorvoer en kwaliteitsmetrieken.
Volledige dataherkomstlogging, zodat elke prompt te herleiden is naar de menselijke auteur. Cruciaal voor GPT-NL's commitment aan een schone dataketen.
Samenwerken met Spectrum Intelligence
Spectrum Intelligence (SPIN.AI) leverde het annotatieteam: 10 tot 15 annotatoren, voornamelijk mensen op het autismespectrum. Wat deze samenwerking bijzonder maakt, is dat mensen met autisme vaak uitzonderlijke vaardigheden hebben in precisie, focus en oog voor detail. Precies wat hoogwaardige data-annotatie vereist.
SPIN.AI combineert een sterke sociale missie met hoogwaardig AI-werk. CEO Michael Radvany richtte het bedrijf op om betekenisvol werk te bieden aan een van de meest onderschatte groepen op de arbeidsmarkt. Ongeveer 80-90% van de mensen op het autismespectrum in de EU is werkloos. SPIN.AI bewijst dat hun talenten niet alleen waardevol zijn, maar essentieel voor werk dat de precisie vereist die de meeste mensen niet kunnen volhouden.
Kwaliteit door gestructureerde feedback
Hoogwaardige finetuningdata ontstaat niet in één keer. Ons platform is gebouwd rondom een iteratieve feedbackloop: annotatoren maken instructie-completionparen, reviewers beoordelen ze aan de hand van kwaliteitscriteria, en afgekeurde items worden teruggestuurd met specifieke aanwijzingen voor verbetering. Deze strakke loop is wat ruwe annotaties omzet in trainingsdata die je kunt vertrouwen.
De agile werkwijze tussen GPT-NL, Spectrum Intelligence en het platform van The AI Factory maakte snelle iteratie mogelijk. Projectmanagers konden kwaliteitsmetrieken realtime volgen, patronen in afkeurredenen identificeren en annotatie-instructies direct bijsturen. Het resultaat: een dataset die elke sprint beter werd, niet alleen in omvang maar ook in consistentie en diepte.
Een schone dataketen
GPT-NL is gecommitteerd aan het trainen met uitsluitend rechtmatig verkregen data. Door alle prompts met de hand te maken via ons annotatieplatform, garandeert het project dat er geen AI-modellen zijn gebruikt die op onrechtmatig verkregen data zijn getraind. Elke prompt is herleidbaar naar de menselijke maker.
Dit is niet alleen een ethische keuze. Het is een vereiste voor het bouwen van een nationaal taalmodel dat organisaties en overheidsinstellingen met vertrouwen kunnen inzetten.
Lees meer over GPT-NL finetuning
Lees op gpt-nl.nlHeb je een custom annotatieplatform nodig voor jouw AI-project?
Vraag advies aan