DeepSeeks nya modell är en radikal förbättring av skalhanteringen
Originalꜜ. Author infoꜜ // Kommentarer (0)ꜜ
How DeepSeek’s V3.2 changes everything about AI scaling

Det som speglar den snabba utvecklingen av AI är att allt fler modeller nu utvecklas i USA, där företag tävlar om att använda allt kraftfullare processorer i enorma datacenter. Samtidigt tvingas kinesiska företag, som saknar tillgång till de senaste chippen, att tänka nytt – vilket gör att de lyckas prestera över förväntan och potentiellt förändra spelreglerna.
Deepseek visar hur man gör mer med mindre – och bevisar också öppen källkods överlägsenhet. För den som tvivlar på talesättet ”nöden är uppfinningarnas moder” räcker det att titta på Deepseek.
Först kom DeepSeek i januari, kraftfullare än dåtidens amerikanska modeller och tränad till mycket lägre kostnad. Nu, knappt nio månader senare, presenteras DeepSeek-V3.2-Exp, en experimentell modell som bygger vidare på sin tidigare arkitektur.
En av 28 artiklar i BiBB Näringsliv
Det mest betydelsefulla med denna lansering är inte själva numeriska förbättringen, utan introduktionen av en fascinerande experimentell mekanism kallad DeepSeek Sparse Attention (DSA) som syftar till att kraftigt förbättra effektiviteten vid både träning och inferens, särskilt i scenarier med långa kontextlängder. Företaget kombinerar dessutom detta med en rejäl prissänkning på sin API (50 % lägre pris), vilket ihop med dess öppna natur är en kraftfull utmaning mot konkurrenter som OpenAI, Anthropic och Google. Dessutom är DeepSeek öppen källkod till skillnad från majoriteten av Big Tech-modeller, vilket tillför intressanta geopolitiska och strategiska perspektiv i debatten om AI-demokratisering.
Men det verkligt paradigmskiftande är inte handeln eller strategin, utan själva arkitekturen. AI:s utveckling har hittills stått inför en paradox: det mekanism som bäddat för de största genombrotten, transformatorn, enligt det berömda pappret ”Attention is all you need”, har en grundläggande begränsning: dess självuppmärksamhetsmekanism kräver beräkning av relationen mellan alla element i en sekvens, med kvadratisk komplexitet – n². Detta fungerar för korta kontexter, men blir snabbt orimligt vid analys av hela böcker, stora kodbaser eller långa juridiska dokument. I praktiken är det som att bygga en skyskrapa på en enfamiljsgrund.
DSA är både elegant och radikalt: total koppling mellan alla element överges. Modellen menar att inte alla element behöver kopplas till varandra, bara till ett relevant och strategiskt delmängd. Detta ersätter bakgrundsbruset i kaotisk kommunikation, där alla pratar samtidigt, med ett effektivt samtal mellan specialister.
I praktiken sker detta via Mixture of Experts (MoE)-arkitekturer: istället för en monolitisk modell får vi ett ekosystem av ”experter” – mindre och mer specialiserade neurala nätverk – som selektivt aktiveras genom en dynamisk ruttmekanism. Hela modellen kan ackumulera hundratals miljarder parametrar, men varje indata aktiverar bara några få experter, vilket drastiskt minskar beräkningskostnaden utan att tappa kapacitet.
Detta förändrar de ekonomiska förutsättningarna för skalning: det krävs inte längre ren brute force, vilket öppnar för modeller som kan hantera tiotusentals tokens snabbt och effektivt. Det är inte bara gradvisa förbättringar – det möjliggör uppgifter som tidigare varit omöjliga, till exempel att hantera hela kodbaser eller långa dokument.
Utöver tekniska framsteg är lärdomarna också konceptuella: AI:s framtid avgörs inte bara av att bygga allt större och dyrare modeller, utan av smartare och effektivare arkitekturer. Att omvärdera hur vi bearbetar information skapar en mycket bördigare horisont än att bara jaga enkel skalbarhet. Nästa framsteg ligger sannolikt inte bara i större modeller – utan i att formulera smartare arkitekturer. Genom att tänka om kring hur neurala nätverk bearbetar data vidgas horisonten för vad som är beräkningsmässigt möjligt, och vi går från en era av begränsningar till en av strategisk och intelligent överflöd.
Med DeepSeek-V3.2-Exp bidrar Kina med ännu en experimentell modell i öppen källkod och omdefinierar balansen mellan prestanda, effektivitet och tillgänglighet. Därmed utmanas föreställningen om AI:s framtid och inleds en paradox där geopolitik påverkar vetenskapen: om modellen inte hade utvecklats av ett kinesiskt bolag hade det västerländska tåget sannolikt redan hoppat på. Tiden får utvisa.
References
- How DeepSeek’s V3.2 changes everything about AI scaling, Enrique Dans (2025.10.04) | Medium.com |

- Enrique Dans, homepage in Spanish
- Artikeln är publicerad med tillstånd enligt Creative Commons av skribenten
About BiBB, an encyclopedia 4.0 and media company
Author
Enrique Dans, Professor of Innovation, IE Business School in Spain
IE Business School
Wikipedia, 41 referenser
Kommentarer
- Din kommentar // Namn, titel (2025....)
Enrique Dans: 2025.10.04 Publicerades i BiBB: 2025.10.05
SMS:a en kommentar
genom att klicka här [ öppnar din app ]
SMS:a en kommentar till 076 034 32 20 eller mejla.
Kategorier 20 Näringsliv 28 (T) AI och samhällsförändring 14
Förslag till förbättringar av BiBB är välkomna
You know a lot, we may add a little®