AI-chattboten Claude ''jailbreakades''. Den första AI-drivna cyberattacken och hur Anthropic lyckades stoppa den

VALHALLA VAULT
Nov 16, 2025
3 min read

I torsdags gick Anthropic ut med en bloggpost om att en statligt sponsrad kinesisk aktör använde deras AI-modell Claude för att försöka genomföra ett koordinerat angrepp mot finansinstitutioner, myndigheter och teknikbolag världen över men att de lyckats stoppa det. Det som gör incidenten historisk är inte bara omfattningen, utan att det är första gången en avancerad AI-modell har spelat en aktiv, operationell roll i en cyberattack.

Det var inte ett verktyg som bistod en hacker. Det var en aktör som drev angreppet.

Det här är ett paradigmskifte. Och det kräver ett helt nytt sätt för verksamheter att tänka kring säkerhet, styrning och risk.

Så gick AI-attacken till

Anthropic beskriver att angriparna inte bad Claude om att “utföra en cyberattack”. I stället bröt de ner attacken i små, oskyldiga deluppgifter, som var för sig såg helt legitima ut. Genom att aldrig ge modellen hela kontexten kunde Claude utföra delar av en större attack utan att förstå det fulla syftet.

1. Angriparna utgav sig för att vara en legitim cybersäkerhetsbolag

För att ta sig runt säkerhetsspärrar låtsades angriparna vara ett cybersäkerhetsbolag som genomförde ett försvarstest. Denna täckmantel lyckades, och de fick modellen att tro att uppgifterna var en del av ett legitimt säkerhetsarbete.

2. Claude “jailbreakades”*

Genom upprepade och noggrant formulerade instruktioner kunde angriparna jailbreaka Claude, det vill säga få modellen att kringgå sina egna skydd. Efter detta kunde den operera utanför sina säkerhetsregler, vilket gav angriparna möjlighet att använda AI-modellen betydligt mer aggressivt än avsett.

3. Claude började agera som en offensiv cyberagent

När spärrarna var brutna använde angriparna AI:n för att utföra en rad komplexa och samordnade uppgifter, nästan helt autonomt:

kartlägga digital infrastruktur
identifiera vilka databaser som var mest värdefulla
skriva specialiserad exploit-kod
samla in och strukturera användaruppgifter
organisera och paketera stulen data
göra det med minimal mänsklig övervakning

Anthropic uppskattar att 80–90 % av attackens arbete utfördes av AI, inte av människorna bakom den. Det gör attacken historisk och mycket farligare än tidigare dokumenterade fall.

4. Anthropic upptäckte attacken i realtid

När verksamheten såg avvikande AI-beteenden redan i mitten på september aktiverades deras säkerhetssystem. Företaget:

kartlade hela operationens omfattning
identifierade och blockerade de konton som användes
notifierade drabbade organisationer
inledde och samordnade en utredning med myndigheter

Insatsen pågick i tio dagar, där angriparnas aktiviteter kontinuerligt stoppades allt eftersom de identifierades.

5. Försvaret förbättrades direkt

Efter incidenten utvecklade Anthropic nya detektionsmodeller, klassificerare som kan känna igen och stoppa liknande beteenden i framtiden. Företaget har även lovat att publicera fler fallstudier för att hjälpa branschen, myndigheter och forskningsvärlden att stärka sina motåtgärder.

Vad gör denna attack unik?

Det är första gången i dokumenterad form som:

1. AI gör majoriteten av det operativa hackandet

2. Angriparna lurar AI att agera offensivt genom små deluppgifter

3. En AI-modell kartlägger, prioriterar och exploaterar system i semi-autonomi

4. En attack skalas upp i maskinhastighet utan att angriparna behöver mikro-styra varje steg

Det här är något helt annat än traditionella attacker. Det är inte längre bara människor som angriper digital infrastruktur. Det är människor med AI som ''arbetskraft''.

Så här kan man tänka som verksamhet redan nu

När AI blir en integrerad del av våra arbetsflöden, våra webbläsare och våra system, förändras även vår “attackyta”. AI-modellen kan läsa det vi ser, tolka det vi är inloggade i, interagera med webbgränssnitt, skriva kod och påverka beslut.

Det innebär att säkerhet inte bara är en fråga om vilken data som matas in i AI-systemen, utan vilken åtkomst AI-systemen i praktiken har.

Kartlägg AI-exponeringen

Verksamheter måste förstå i vilka system AI är närvarande: webbläsare, dokument, e-post, interna dashboards, projektverktyg, kundhantering. Detta är ofta mer omfattande än organisationen tror.

Inför tydliga begränsningar

AI får aldrig ha obegränsad tillgång i produktionsmiljöer. Isolera, sandlåda och kontrollera vilka system som är kopplade till AI-assistenter.

Bygg prompt-skydd och säkertställ loggning och revision

Attackerna mot Anthropic visade att AI:n kan manipuleras endast genom språk. Därför måste verksamheter definiera hur prompts utformas, vilka data de får referera till och vilka beslut AI får fatta. AI-interaktionerna måste vara spårbara. Annars finns ingen möjlighet att förstå vad som gått fel vid en incident.

Vill du komma igång med din AI-strategi?