IDstory /The Conversation/ + Tags

Hälften av alla AI-hälsosvar är fel om än de verkar trovärdiga enligt ny studie

(2026.04.20) Half of AI health answers are wrong even though they sound convincing – new study

Föreställ dig att du just har fått diagnosen tidig cancer och, innan ditt nästa läkarbesök, skriver in en fråga i en AI-chattbot: ”Vilka alternativa kliniker kan framgångsrikt behandla cancer?” Inom några sekunder får du ett välformulerat svar med fotnoter som låter som om det vore skrivet av en läkare. Men vissa av påståendena saknar grund, fotnoterna leder ingenstans och chattboten antyder inte ens att själva frågan kanske är fel att ställa.

Detta scenario är inte hypotetiskt. Det är ungefär vad en grupp på sju forskare fann när de utsatte fem av världens mest populära chattbottar för ett systematiskt stresstest av hälsoinformation. Resultaten publicerades i BMJ Open.

Från media- och forskarsajten The Conversation
Lista och Ämneskatalog ( 190 )
AI-relaterat Hälsa och livsstil

Chattbottarna – ChatGPT, Gemini, Grok, Meta AI och DeepSeek – fick var och en besvara 50 medicinska frågor inom områden som cancer, vacciner, stamceller, kost och idrottsprestation. Två experter bedömde varje svar oberoende av varandra. De fann att nästan 20% av svaren var starkt problematiska, hälften var problematiska och 30% var något problematiska. Ingen av chattbottarna producerade tillförlitliga och fullständigt korrekta referenslistor, och endast två av 250 frågor avvisades helt.

Överlag presterade de fem chattbottarna ungefär lika. Grok presterade sämst, med 58% av svaren markerade som problematiska, följt av ChatGPT med 52% och Meta AI med 50%.

Resultaten varierade dock beroende på ämne. Chattbottarna hanterade vacciner och cancer bäst – områden med omfattande och välstrukturerad forskning – men gav ändå problematiska svar ungefär en fjärdedel av gångerna. De hade störst svårigheter med kost och idrottsprestation, områden som är fyllda av motstridiga råd på nätet och där evidensen ofta är svagare.

Det var framför allt öppna frågor som ledde till problem: 32% av dessa svar bedömdes som starkt problematiska, jämfört med endast 7% för slutna frågor. Denna skillnad är viktig eftersom de flesta verkliga hälsofrågor är öppna. Människor ställer inte prydliga sant-eller-falskt-frågor till chattbottar. De frågar till exempel: ”Vilka kosttillskott är bäst för den allmänna hälsan?” Den typen av fråga inbjuder till ett flytande och självsäkert men potentiellt skadligt svar.

När forskarna bad varje chattbot om tio vetenskapliga referenser var medianvärdet för fullständighet bara 40%. Ingen chattbot lyckades producera en enda helt korrekt referenslista i 25 försök. Felen sträckte sig från felaktiga författare och brutna länkar till helt påhittade artiklar. Detta är särskilt riskabelt eftersom referenser ger ett intryck av bevis. En lekman som ser en snyggt formaterad referenslista har liten anledning att ifrågasätta innehållet ovanför.

Varför chattbottar har fel

Det finns en enkel förklaring till varför chattbottar ger felaktiga medicinska svar. Språkmodeller ”vet” inte saker. De förutsäger det statistiskt mest sannolika nästa ordet baserat på sin träningsdata och kontext. De väger inte evidens eller gör värdebedömningar. Deras träningsmaterial omfattar visserligen vetenskapligt granskade artiklar, men också Reddit-trådar, hälsobloggar och diskussioner i sociala medier.

Forskarna ställde inte neutrala frågor. De utformade medvetet frågor som skulle få chattbottarna att ge missvisande svar – en standardmetod inom AI-säkerhetsforskning som kallas ”red teaming”. Det innebär att felprocenten sannolikt är högre än vad man skulle få med mer neutralt formulerade frågor. Studien testade dessutom gratisversionerna av varje modell som fanns tillgängliga i februari 2025. Betalversioner och nyare modeller kan prestera bättre.

Trots det använder de flesta just gratisversionerna, och de flesta hälsofrågor är inte noggrant formulerade. Studiens förutsättningar speglar därför ganska väl hur människor faktiskt använder dessa verktyg.

Resultaten står inte ensamma utan passar in i en växande mängd forskning som pekar i samma riktning.

En studie från februari 2026 i Nature Medicine visade något överraskande. Chattbottarna själva kunde ge rätt medicinskt svar i nästan 95% av fallen. Men när verkliga människor använde samma chattbottar fick de rätt svar i mindre än 35% av fallen – inte bättre än personer som inte använde dem alls. Problemet är alltså inte bara om chattboten ger rätt svar, utan om vanliga användare kan förstå och använda svaret korrekt.

En ny studie publicerad i JAMA Network Open testade 21 ledande AI-modeller. Forskarna bad dem föreslå möjliga medicinska diagnoser. När modellerna endast fick grundläggande information – som patientens ålder, kön och symtom – hade de svårt att träffa rätt och misslyckades i över 80% av fallen. När forskarna lade till undersökningsfynd och laboratorieresultat steg träffsäkerheten till över 90%.

Samtidigt visade en annan amerikansk studie, publicerad i Nature Communications Medicine, att chattbottar gärna upprepade och till och med utvecklade påhittade medicinska termer som smugit sig in i frågorna.

Tillsammans tyder dessa studier på att svagheterna som identifierades i BMJ Open-studien inte är en följd av en specifik metod, utan speglar något mer grundläggande om var tekniken befinner sig i dag.

Dessa chattbottar kommer inte att försvinna, och det bör de inte heller. De kan sammanfatta komplexa ämnen, hjälpa dig att förbereda frågor till en läkare och fungera som en startpunkt för vidare research. Men studien visar tydligt att de inte bör betraktas som fristående medicinska auktoriteter.

Om du använder en sådan chattbot för medicinska råd bör du kontrollera alla hälsopåståenden, betrakta referenser som något att verifiera snarare än som fakta och vara uppmärksam när ett svar låter självsäkert men saknar viktiga förbehåll.

Referenser

Skribent

Carsten Eickhoff, Professor, Medical Data Science, University of Tübingen

Kommentarer

  1. Din kommentar // Namn, titel (2026....)

The Conversation: 2026.04.20 Publicerades i BiBB: 2026.05.04




SMS:a en kommentar
genom att klicka här [ öppnar din app ]
SMS:a en kommentar till 076 034 32 20 eller mejla.

Kategorier 25 The Conversation 190 2 flags

QR-code


Förslag till förbättringar av BiBB är välkomna



You know a lot, we may add a little®