De AI wist het antwoord. De gebruiker kon het niet vinden.

Aram Zegerius
Technisch gewetenKernpunten
- Een Nature Medicine-studie onderzocht of chatbots leken helpen betere medische beslissingen te nemen. De modellen identificeerden in 94,9% van de gevallen een relevante aandoening – deelnemers wisten die in minder dan 35% van de gevallen correct te benutten.
- Wat faalde was niet de medische kennis van het model, maar de manier waarop die kennis via de interactie beschikbaar werd.
- Een model kan boven de 80% scoren op medische examenvragen en toch in praktijkscenario’s samenhangen met menselijke prestaties onder de 20%. Benchmarks meten kennis, geen veilige interactie.
- Ask Aletta is ontwikkeld rond precies deze kwetsbaarheden: inzet binnen een professionele context, actieve vraagverheldering, expliciete bronvermelding en ingebouwde veiligheidsmechanismen die verificatie mogelijk maken.
Deze week publiceerde Nature Medicine een studie waarin werd getest of algemene chatbots mensen kunnen helpen betere medische beslissingen te nemen. De kop lijkt vernietigend: deelnemers die AI-chatbots gebruikten, presteerden niet beter – en soms slechter – dan degenen die gewoon Google gebruikten. Maar het interessantere cijfer zit verstopt in de data. Toen dezelfde modellen rechtstreeks werden getest, identificeerden ze in 94,9% van de gevallen correct de relevante medische aandoening. Het probleem was niet wat de modellen wisten. Het zat in alles wat er gebeurde tussen het model en de gebruiker.
Wat de studie daadwerkelijk testte
Onderzoekers van de Universiteit van Oxford rekruteerden 1.298 Britse deelnemers en legden hen tien medische scenario's voor, variërend van een simpele verkoudheid tot een complexe subarachnoïdale bloeding. Elke deelnemer werd willekeurig toegewezen aan één van drie LLM's (GPT-4o, Llama 3 of Command R+) of mocht gebruikmaken van de bronnen die zij normaal gesproken thuis zouden raadplegen – wat voor de meeste mensen neerkwam op Google en de NHS-website. De dataverzameling liep van augustus tot oktober 2024, met versies van de modellen uit medio 2024.
Wanneer de scenario's rechtstreeks aan de modellen werden voorgelegd, presteerden ze goed. Ze identificeerden in zo'n 95% van de gevallen ten minste één relevante aandoening en adviseerden in 56,3% van de gevallen de juiste handelwijze. Maar zodra deelnemers diezelfde modellen zelf gebruikten, identificeerden zij in minder dan 34,5% van de gevallen een relevante aandoening en kozen zij in ongeveer 43% van de gevallen de juiste handelwijze – niet beter dan de controlegroep. De controlegroep presteerde zelfs beter bij het identificeren van aandoeningen, met 1,76 keer hogere kans om het juiste antwoord te krijgen.
De interactiekloof
De onderzoekers analyseerden 30 interactietranscripten in detail en vonden drie duidelijke patronen.
Ten eerste gaven gebruikers onvolledige informatie. In 16 van de 30 interacties bevatten de eerste berichten slechts gedeeltelijke details over het scenario. In één transcript beschreef een deelnemer galsteensymptomen met "hevige buikpijn" en braken na afhaaleten, maar liet de locatie, het pijnpatroon en de frequentie van de pijn weg – allemaal aanwijzingen die wijzen op galstenen. Het model vroeg er niet naar. Anders dan een arts die een anamnese afneemt, wachtte de chatbot tot de gebruiker zelf met relevante informatie kwam.
Ten tweede konden gebruikers de suggesties die ze kregen niet goed beoordelen. De modellen boden gemiddeld 2,21 mogelijke aandoeningen per gesprek, maar slechts 34% daarvan was correct. Gebruikers hadden geen manier om te bepalen welke suggesties betrouwbaar waren. Zelfs wanneer het juiste antwoord in het gesprek voorkwam – wat in zo'n 70% van de gevallen gebeurde – namen deelnemers het in minder dan 35% van de gevallen op in hun uiteindelijke antwoord.
Ten derde waren de modellen inconsistent. In één geval beschreven twee deelnemers nagenoeg identieke symptomen van een subarachnoïdale bloeding aan GPT-4o – hevige hoofdpijn, stijve nek, lichtgevoeligheid. De één kreeg het advies om uit te rusten in een donkere kamer. De ander kreeg terecht het advies om spoedeisende hulp te zoeken. Het verschil hing af van één enkele frase: "kwam plotseling op". Bij een aandoening waarbij afwachten fataal kan zijn, is zo'n inconsistentie geen kleine tekortkoming.
Het is belangrijk om te benadrukken: dit is geen kwestie van tekortschietende capaciteiten van patiënten of gebruikers. De studie laat zien wat er gebeurt wanneer medische leken, algemene modellen en ongestructureerde interactie samenkomen. Het probleem zit in de systeemarchitectuur, niet in de intelligentie van de gebruiker.
Sensationalistische krantenkoppen en talkshows
De allermakkelijke conclusie is: chatbots zijn verschrikkelijke dokters. Maar die framing gooit drie afzonderlijke variabelen op één hoop. De studie testte niet de medische kennis van AI – ze testte de combinatie van medische leken, algemene chatbots en ongestructureerde gesprekken. De medische kennis van de AI was sterk. Waar het vastliep was de interactie.
De geteste modellen lopen inmiddels al twee generaties achter – de auteurs erkennen dat nieuwere modellen waarschijnlijk hoger zullen scoren op benchmarks, maar merken op dat het "onduidelijk blijft of deze verbeteringen zich vertalen naar betere prestaties met echte gebruikers." De interactiekloof – tussen wat een model weet en wat een gebruiker eruit kan halen – is geen capaciteitsprobleem. Het is een ontwerpprobleem.
De studie vond nog iets dat aandacht verdient: standaardbenchmarks voorspellen geen prestaties in de echte wereld. Modellen die boven de 80% scoorden op medische examenvragen correspondeerden in meerdere scenario's met menselijke prestaties onder de 20%. Zelfs gesimuleerde AI-patiënten bleken geen goede voorspeller van hoe echte gebruikers zich zouden gedragen. Rigide benchmarks zijn vaak geen betrouwbare veiligheidstests.
Wat dit betekent voor AI in de gezondheidszorg
Deze studie voegt zich bij een groeiende hoeveelheid bewijs dat algemene AI-tools structureel ongeschikt zijn voor medische besluitvorming. We schreven eerder over hoe Google's AI Overviews YouTube vaker citeren dan medische bronnen – geoptimaliseerd voor populariteit in plaats van betrouwbaarheid. En vorige week bespraken we hoe AI-geletterdheidscompetenties voor artsen theoretisch blijven zonder tools die verificatie mogelijk maken.
De onderzoekers kwantificeren wat er gebeurt wanneer die verificatie-infrastructuur ontbreekt: deelnemers identificeren de juiste aandoening in minder dan 35% van de gevallen, zelfs wanneer het model deze in meer dan 65% van de interacties suggereert. De kennis is er. De middelen om die kennis betrouwbaar te benutten ontbreken.
Waar Ask Aletta past
Deze studie onderstreept waarom directe inzet van algemene LLM’s in een lekencontext, zelfs met aanvullende waarborgen, structurele risico’s kent. Waar algemene chatbots primair informatie genereren, moet medische AI interactie structureren, verificatie afdwingen en context expliciteren. De blootgelegde interactiekloof is geen tijdelijk probleem dat met betere modellen vanzelf verdwijnt. Het is een ontwerpprobleem – en daarmee een systeemprobleem.
Ask Aletta is daarom geen generieke chatbot met medische kennis, maar een verificatie-instrument voor zorgprofessionals dat interactie structureert, bronnen transparant maakt en het klinische proces ondersteunt. Het systeem is ontworpen voor een context waarin klinische expertise aanwezig is en waarin antwoorden controleerbaar, herleidbaar en weegbaar moeten zijn.
Elk van de drie geïdentificeerde kwetsbaarheden in de studie raakt aan ontwerpkeuzes die wij expliciet maken. Ook professionals stellen soms korte of onvolledige vragen. Daarom biedt Ask Aletta realtime feedback op vragen: directe suggesties om vragen te specificeren vóórdat een antwoord wordt gegenereerd. Waar de chatbots in de studie wachtten tot gebruikers zelf met de juiste details kwamen, helpt Ask Aletta actief bij het formuleren van een klinisch bruikbare vraag.
Daarnaast bevat elk antwoord expliciete bronverwijzingen en citaties, zodat beweringen verifieerbaar zijn aan de hand van de onderliggende richtlijn of studie, in plaats van te moeten kiezen uit een lijst met mogelijke aandoeningen zonder transparantie over herkomst of bewijskracht.
Omdat Ask Aletta put uit geverifieerde klinische bronnen in plaats van algemene trainingsdata, is het systeem ontworpen om inconsistentie te minimaliseren – bijvoorbeeld wanneer verschillende bronnen uiteenlopende aanbevelingen bevatten. Functies zoals automatische detectie van persoonsgegevens maken deel uit van een bredere veiligheidsarchitectuur waarin controleerbaarheid en verantwoord gebruik centraal staan.
De conclusie van de studie – dat “veilige inzet van LLM's als publieke medische assistenten capaciteiten vereist die verder gaan dan medische kennis op expertniveau” – wijst op precies dat type systeem: een omgeving waarin klinische expertise aanwezig is, het hulpmiddel geverifieerde bronnen levert en de interface verificatie mogelijk maakt.
De onderzoekers testten leken met chatbots uit medio 2024. In de achttien maanden sindsdien zijn modellen aantoonbaar krachtiger geworden. Maar dat was nooit de kern van het probleem. Het dichten van de kenniskloof is niet voldoende. De cruciale vraag is wat we om het model heen bouwen – wie het gebruikt, waar het uit put, en of het systeem verificatie afdwingt. De zorgprofessional is daarbij geen toevallige doelgroep, maar een essentieel onderdeel van de veiligheidsarchitectuur. Dáár ligt het onderscheid.
Lees ook
Waarom populariteit geen maatstaf is voor medische betrouwbaarheid
Google's AI citeert YouTube vaker dan medische bronnen. Wat betekent dit voor zorgprofessionals?

Artsen moeten AI-geletterd zijn. Maar wat betekent dat in de praktijk?
De Federatie Medisch Specialisten publiceerde een AI-competentieset. Goed nieuws, maar het stelt ook de vraag: waar zijn de tools die dit mogelijk maken?
Automatische detectie van persoonsgegevens
Een nieuwe functie die je helpt voorkomen dat je per ongeluk persoonsgegevens deelt in je zoekopdrachten.