Den verkliga orsaken till AI-hallucinationer
Originalꜜ. Author infoꜜ // Kommentarer (0)ꜜ
Reward functions, training data, and the real cause of AI hallucinations

Hallucination är den allmänt använda termen för att beskriva vad som händer när en generativ AI-modell producerar falska, påhittade eller meningslösa svar. Det är en kraftfull metafor som väcker mycket mänskliga bilder av en hjärna som ser något som egentligen inte finns där. Samtidigt är den problematisk, eftersom den antyder intentionalitet, subjektiv upplevelse, effekter av något ämne eller till och med en psykisk störning – inget av detta är relevant när det gäller en statistisk maskin som förutsäger sekvenser av ord. Verkligheten är mycket mer prosaisk: det handlar inte om hallucinationer, utan om prediktionsfel, slutsatser byggda på felaktiga eller ofullständiga data. Det är inte rätt ord, men pressen, akademin och till och med företagen i sektorn har normaliserat användningen, och vi sitter fast med termen, även om vi vet att den inte är den bästa.
En av 30 artiklar på BiBB i kategorin Näringsliv
OpenAIs senaste ”Why language models hallucinate”, publicerad på företagets webbplats, förklarar att språkmodeller fungerar genom att justera sannolikheter: givet en sekvens av tokens [basenheter] uppskattar de vilket det mest sannolika nästa ordet är. Denna förutsägelse stöds av mönster i träningsdatan, men dessa mönster återspeglar inte alltid etablerade sanningar. Även när träningsdatan är tvetydig, motsägelsefull eller falsk, fortsätter modellen att fullborda sekvensen. Den ”ljuger” eller ”fantiserar” inte: den följer helt enkelt en matematisk funktion som inte skiljer mellan sant och falskt, annat än i den utsträckning dessa skillnader avspeglas i datan.
Rapporten lyfter fram en nyckelfaktor: belöningsfunktionen, det vill säga de incitament algoritmen är programmerad att uppnå. Under fasen med förstärkningsjustering designade nästan alla företag sina modeller så att de skulle prioritera att generera ett svar, snarare än att medge okunnighet. Med andra ord uppmuntrades modellerna att svara, även med låg sannolikhet för korrekthet, eftersom det maximerade användarnöjdheten och därmed träningssystemets belöning. Illusionen av allvetande, av en ”maskin som vet allt”, föredrogs framför besvikelsen i ett ”jag vet inte”. Detta beslut, till synes pragmatiskt, präglar modellernas beteende än idag: de är maskiner som, likt ivriga skolelever, alltid säger något, även när de saknar grund för det.
De stora aktörerna (OpenAI, Google, Amazon, Anthropic, Perplexity, Mistral…) försöker hantera problemet genom strategier för att minska det, såsom retrieval-augmented generation (RAG), utvärderingsmodeller, automatisk logik, koherensmodeller eller tillgång till interna databaser. Trots dessa framsteg understryker alla den tekniska omöjligheten att fullständigt eliminera fenomenet. Agentsystem, särskilt när de används i specifika och väldefinierade kontexter, framstår som ett av de mest lovande spåren i detta avseende (mer om detta om några dagar).
Vi står inför en teknologisk paradox: företagen beslutade att träna sina modeller på i princip allt tillgängligt material: massiva textkorpusar från webben av mycket varierande kvalitet, fyllda med användbar information, ja, men också brus, fel, skräp, konspirationsteorier och propaganda. Målet var att accelerera framstegen och skapa modeller som kunde täcka alla områden av mänsklig kunskap – och göra det på rekordtid. Att använda faktagranskare för att verifiera eller filtrera de enorma mängder text algoritmen matades med skulle ha varit dyrt, långsamt, svårt att skala och dessutom anklagas för subjektivitet. Istället accepterades en kompromiss mellan precision och bredd, något inte bara OpenAI utan även forskare vid andra företag och universitet öppet medgav. Resultatet är ett ekosystem av mycket kraftfulla modeller, men som inte kan garantera att det de säger är sant.
Vad hade hänt, hur skulle situationen ha utvecklats, om motsatt beslut tagits? Om modeller hade tränats endast på verifierade, tillförlitliga och auktoritativa källor, och dessutom uppmuntrats att erkänna sina begränsningar, kanske vi idag skulle ha mindre mångsidiga men mer tillförlitliga system. Modeller som inte svarar på allt, men som sällan begår grova fel. En ”långsam men säker” AI som kunde fungera som akademisk eller professionell referens med samma trovärdighet som en bra encyklopedi. Det är på sätt och vis vad vissa alternativa projekt utforskar, såsom försök att införa verifiering i realtid eller experiment med slutna, kurerade databaser. Men marknaden, konkurrenstrycket och logiken ”move fast” drev i motsatt riktning: hellre en modell som svarar på allt och ger en illusion av allvetande, även om den ofta har fel, än en modell som svarar på lite men alltid med rigös kvalitet.
Jag anser att vi bör sluta tala om hallucinationer och använda en mer teknisk beskrivning av vad som faktiskt sker: probabilistiska prediktionsfel. Men i praktiken har termen redan slagit rot eftersom den passar in i en attraktiv och mediegenomslagskraftig berättelse. Precis som termen ”molnet” etablerades som metafor för att beskriva ett nätverk av distribuerade servrar, har termen ”hallucinationer” etablerats för att beskriva ett fenomen som varken är mystiskt, kemiskt eller psykologiskt – men som låter bra.
Det som är mest tankeväckande är hur vana vi har blivit vid att leva med dessa fel. Vi vet att modeller hallucinerar, men vi använder dem ändå, fascinerade av deras förmåga att i de flesta fall generera sammanhängande och användbart språk och av vårt självförtroende att kunna avslöja felen och filtrera bort dem ur slutprodukten. Kanske kommer vi i framtiden att se en utveckling mot mindre, mer specialiserade modeller, tränade på avsevärt striktare källor och med bättre incitament att erkänna osäkerhet, som kompletteras av stora generalistmodeller. Eller så kommer vi att resignera inför en värld där all automatisk textproduktion nödvändigtvis kräver ett lager av mänsklig verifiering (vilket, ur en akademikers perspektiv, inte nödvändigtvis är något dåligt). Men låt oss inte bli alltför antropomorfistiska ꜜ: maskiner ”hallucinerar” inte – de gör helt enkelt sitt bästa med det material vi har tränat dem på, utifrån en viss belöningsfunktion.
References
- Reward functions, training data, and the real cause of AI hallucinations, Enrique Dans (2025.08.10) | Medium |

- Enrique Dans, homepage in Spanish
- Artikeln är publicerad med tillstånd enligt Creative Commons av skribenten
- AntropomorfismORD i uppslagsverket BiBB
About BiBB, a media company and an encyclopedia 4.0
Author
Enrique Dans, Professor of Innovation, IE Business School in Spain
IE Business School
Wikipedia, 41 referenser
Kommentarer
- Din kommentar // Namn, titel (2025....)
Enrique Dans: 2025.09.12 Publicerades i BiBB: 2025.09.13
SMS:a en kommentar
genom att klicka här [ öppnar din app ]
SMS:a en kommentar till 076 034 32 20 eller mejla.
Kategorier 20 Näringsliv 30 (T) AI och samhällsförändring 14
Förslag till förbättringar av BiBB är välkomna
You know a lot, we may add a little®