Benchmarking 16 LLM's: 165x Goedkoper, Zelfde Nauwkeurigheid?

Welk taalmodel moet jouw organisatie eigenlijk gebruiken? Na meer dan €500 aan API-kosten en het testen van 16 toonaangevende modellen op duizenden échte Nederlandse examenvragen, ontdekten we iets opmerkelijks: sommige van de best presterende modellen kosten 165 keer minder dan de duurste, voor dezelfde nauwkeurigheid.

Waarom Nederlandse examenbenchmarks ertoe doen

We gebruikten officiële Nederlandse eindexamenvragen over zes vakken: Nederlandse literatuur, wiskunde, en meer. Vakken die echte toepassingen van taalbegrip en redenering weerspiegelen.

Waarom examens? Omdat ze echt begrip testen, niet patroonherkenning. En omdat werken met gestandaardiseerde testdatasets die mogelijk al gecontamineerd zijn (modellen kunnen de testvragen al tijdens training gezien hebben) onbetrouwbare resultaten geeft.

De resultaten: prestatie-rankings

We testten 16 modellen in drie providercategorieën: frontier (OpenAI, Anthropic, Google, xAI), open source (DeepSeek, Mistral, Llama) en mid-range opties. De goedkoopste modellen kosten 165 keer minder dan de duurste, voor dezelfde nauwkeurigheid.

Top 5 presteerders

1. GPT-5 (OpenAI)79.5% · $29.30
2. GPT-5 Mini (OpenAI)79.5% · $5.48
3. DeepSeek-R1 (Open Source)78.7% · $10.93
4. Grok-3 (Open Source)76.8% · $43.17
5. Gemini 2.5 Pro (Google)76.7% · $31.86

GPT-5 Mini springt eruit als de duidelijke winnaar, met dezelfde top-tier 79,5% nauwkeurigheid als het volledige GPT-5 model voor een fractie van de kosten: $5,48 per run versus $29,30.

De €500 Anthropic-rekening

Het benchmarken van Claude 3.5 Opus en Claude 3.5 Sonnet was opvallend duur. Claude 3.5 en Opus 4.1 kostten $270,74 voor slechts 73,1% nauwkeurigheid, ruwweg 50 keer duurder dan GPT-5 Mini voor slechtere resultaten.

De budgetkampioenen? GPT-5 Nano voor $1,64, GPT-OSS-120B voor $2,06 en GPT-5 Mini voor $5,48. Als je top-tier nauwkeurigheid kunt krijgen voor vijf dollar, voelt honderden betalen als een strategische fout.

Open source sluit de kloof

Twee van de top vijf best presterende modellen, DeepSeek-R1 en Grok-3, zijn volledig open source. Dit weerlegt de aanname dat je dure proprietary API's nodig hebt voor hoogwaardige resultaten.

De implicaties gaan verder dan kostenbesparing. Europese organisaties die zich zorgen maken over datasoevereiniteit, regelgevingscompliance of leveringsketenweerbaarheid hebben levensvatbare alternatieven die geen compromis op kwaliteit vereisen.

Praktische aanbevelingen

Kies modellen op basis van jouw domein

Een model dat uitblinkt in Engelse coderingstaken kan worstelen met Nederlandse literatuurbegrip. Test altijd op jouw specifieke use case.

Overweeg open source voor privacy-kritieke toepassingen

Als de modelgewichten op je eigen machine kunnen draaien, ben je minder kwetsbaar voor stille updates, storingen of data-exposure.

Bind je niet aan één provider

Wanneer identieke prestaties $1,64 of $270,74 kosten afhankelijk van je provider, is vendor lock-in een dure fout.

Conclusie

Het LLM-landschap in 2025 is competitiever, betaalbaarder en opener dan ooit. Open source modellen zijn nu gelijkwaardig aan proprietary modellen, voor een fractie van de kosten.

Oorspronkelijk gepubliceerd op

Lees het volledige artikel op LinkedIn

Van benchmarking tot productie: we helpen je de juiste AI-keuzes te maken voor jouw organisatie.

Vraag advies aan