IDstory /Näringsliv/ + Tags

Några hundra lögnaktiga dokument är allt som krävs för att korrumpera vilket AI-svar som helst

Originalꜜ.   Author infoꜜ  //  Kommentarer (0)ꜜ

A few hundred malign documents is all it takes to corrupt any AI

AI-genererad
AI-genererad

LLM:er kan ”förgiftas” med förvånansvärt lite data

Det finns en utbredd uppfattning om att om en AI‑modell tränas på tillräckligt mycket korrekt data så kommer all ”giftig” information i systemet att spädas ut tills den blir ofarlig. Tyvärr är den föreställningen felaktig, vilket övertygande forskning från Anthropic, UK AI Security Institute och Alan Turing Institute visar. Deras oroande slutsats är att ett litet, fast antal illasinnade exempel kan plantera en bakdörr i stora språkmodeller (LLM:er), oavsett modellens storlek.

En av 40 artiklar på BiBB i kategorin Näringsliv

I Anthropics artikel ”A small number of samples can poison LLMs of any size” förklaras fenomenet med ovanligt stor tydlighet för att vara företagskommunikation: genom att lägga in omkring 250 noggrant konstruerade dokument i träningskorpusen utvecklar modellen ett vilande beteende som kan aktiveras med en specifik trigger. Experimentet de valt är inte det mest spektakulära, men just det gör det paradoxalt nog mer trovärdigt: en denial‑of‑service‑bakdörr som, när den upptäcker ett visst nyckelord, får modellen att börja producera rappakalja, som om den vore trasig på insidan. Det är inte en attack som syftar till att förstöra modellen, stjäla pengar eller påverka val; det är framför allt en demonstrationsattack i stil med ”jag kan få din modell att göra det här när jag vill”.

Det viktiga är inte själva rappakajan, utan mätetalen. Hittills har man utgått från ett hotmodellstänk baserat på procent: för att förgifta en stor modell måste angriparen kontrollera en märkbar andel av träningsdatan, vilket i praktiken blir omöjligt när vi talar om hundratals miljarder token. Den här forskningen vänder på det: modeller tränades med mellan 600 miljoner och 13 miljarder parametrar, med mängder av Chinchilla‑optimal data (mer data för större modeller), och man såg att attacken inte skalade med storlek: samma 250 dokument komprometterade alla modeller i lika hög grad. I praktiken späds inte giftet ut som väntat – det lär sig att överleva.

Detta skapar en systemisk bräcklighet. LLM:er tränas till stor del på öppna texter från internet, och Turing‑institutet påpekar konsekvensen: vem som helst kan publicera innehåll i syfte att hamna i dessa dataset, och om tröskeln faktiskt ligger runt 250 dokument är inträdesbarriären inte särskilt hög. Du behöver inte kontrollera en hel del av internet, bara hitta svagheterna i dataleveranskedjan. Och här kommer kärnfrågan: år 2026 handlar oro kring LLM:er inte längre bara om hallucinationer eller bias, utan om integritet. Varifrån kommer det modellen ”vet”? Vem har lagt sig i? Vilka incitament finns det att göra det? Kan detta bli ett sätt att ta kontroll över berättelser och narrativ?

Bakdörrar bortom ”rappakalja”

I själva verket är rappakalja‑bakdörren nästan en leksak jämfört med vad forskningen redan visat: bakdörrar som försämrar säkerhet, inducera skadligt beteende eller låter modellen kringgå alignment. Anthropics egen artikel länkar till studier av bakdörrar som fungerar som en slags universalkommando för att få fram skadliga svar när en viss trigger dyker upp. Den som tänker ”det där handlar om alignment och RLHF, inte om själva förträningen” misstar sig: den övergripande lärdomen är exakt densamma. I ett system som lär sig korrelationer kan en avsiktligt planterad illasinnad korrelation vara mer motståndskraftig än miljoner harmlösa.

De mest oroande parallellerna uppstår när man rör sig in i områden där fel inte bara är memes utan kan kosta liv. År 2024 simulerade en studie i Nature Medicine en förgiftningsattack mot The Pile, ett av ekosystemets flaggskepps‑dataset, genom att injicera medicinsk desinformation: med bara 0,001% av token ersatta av plausibla osanningar blev den tränade modellen mer benägen att sprida medicinska fel – och det mest oroande var att den fortfarande verkade ”prestera lika bra” i vanliga benchmarktester.

Detta slår sönder ytterligare en populär fantasi: att ”objektiv” utvärdering ska rädda oss. Om attacken är målstyrd – utformad för att aktiveras av en trigger eller påverka ett visst delmängd av frågor – kan modellen klara alla vanliga tester och ändå vara komprometterad. Säkerhetsbranschen har talat om detta i decennier: system som verkar fungera korrekt under normala förhållanden men kollapsar när någon vet vilken knapp som ska tryckas. Det nya är att det här systemet nu skriver, ger råd, programmerar, sammanfattar, förhandlar, översätter – och alltmer fungerar som en kognitiv mellanhand i tusentals mänskliga beslut.

Från teoretisk risk till standardiserad hotbild

Det är därför knappast förvånande att aktuella riskramverk redan tar upp detta explicit. OWASP identifierar i sin risklista för LLM‑applikationer Data and Model Poisoning som en integritetsrisk med tydliga konsekvenser: bakdörrar, avsiktligt införda bias, degraderat beteende och attacker som är svåra att upptäcka eftersom modellen kan uppträda ”normalt” tills triggern aktiveras. NIST:s taxonomi för adversarial machine learning inkluderar kategorier som backdoor poisoning och supply chain‑attacker för att tvinga branschen att tänka i termer av livscykler – inte bara på den ”aktuella modellen”. När de mest ansedda standardiseringsorganen börjar prata på det här sättet brukar det bero på att problemet slutat vara teoretiskt och har blivit en plausibel risk.

Frågan är därför inte längre om detta kan skada LLM:ers rykte, utan vad som händer med deras trovärdighet när de blir infrastruktur för allt fler saker. Om vi accepterar att en modell kan tränas på ogenomskinlig data, med oklar proveniens och bristfälliga kontroller – och att en tålmodig angripare kan plantera ett par dussin eller hundra datapunkter som är designade för att överleva processen – då är modellen inte bara probabilistisk utan potentiellt förfalskad. Och där förändras det sociala kontraktet: ett system som ”ibland har fel” är hanterbart, men ett system som kan manipuleras utan synliga tecken blir politiskt giftigt och regulatoriskt mycket svårt att hantera.

Utvägen: en riktig leverantörskedja för data

Finns det en väg ut? Ja, men den är varken bekväm eller billig – och passar definitivt inte in i ”move fast and break things”-kulturen som tagit oss hit. Forskningen tvingar oss att erkänna att LLM:er behöver något vi tagit för givet i mjukvara i många år: en leverantörskedja med kontroller, revisioner, spårbarhet och verifieringsmekanismer. Det räcker inte att filtrera bort ”dåligt innehåll” eller deduplicera. Vi talar om verifierbar proveniens, reproducerbara kurationsprocesser, övervakning av anomalier under träning, tester utformade för att avslöja villkorade beteenden, kontinuerlig red teaming – och att acceptera att vissa kritiska användningar kommer att kräva betydligt mer slutna, specialiserade och kontrollerade modeller och dataset. Och det kostar pengar.

Låt oss inte lura oss själva: det här är inte en bugg som kan ”patchas”. Det är ett symptom på en djupare verklighet: vi bygger statistiska generaliseringsmaskiner ovanpå ett informationsunderlag – webben – som i allt högre grad är ett slagfält fullt av lik och skräp. Om träning i praktiken innebär att absorbera internet, då beror säkerheten hos din modell på säkerheten hos internet, och det är väldigt riskabelt, för vi vet alla vad som finns där ute. Anthropics artikel är en varningssignal: i den värld som kommer handlar frågan om man kan lita på vad en viss modell säger inte främst om träffsäkerhetsmätningar, utan om en mycket mer obekväm fråga: ”Kan jag lita på hur den byggdes, vilket data den tränades på och vilka som hanterade dessa data?”

References

Author

Enrique Dans, Professor of Innovation, IE Business School in Spain

IE Business School  engelsk flagga Wikipedia, 41 referenser

Kommentarer

  1. Din kommentar // Namn, titel (2026....)

Enrique Dans: 2026.02.22 Publicerades i BiBB: 2026.02.25




SMS:a en kommentar
genom att klicka här [ öppnar din app ]
SMS:a en kommentar till 076 034 32 20 eller mejla.

Kategorier 20 Näringsliv 40

QR-code


Förslag till förbättringar av BiBB är välkomna



You know a lot, we may add a little®