Forskargruppen Unit 42 vid IT-säkerhetsföretaget Palo Alto Networks har granskat den uppmärksammade kinesiska AI-modellen DeepSeek och avslöjar flera risker.
Med hjälp av så kallade jailbreak-metoder visade det sig enkelt att kringgå DeepSeeks inbyggda spärrar mot olämpligt eller förbjudet innehåll. Experimenten visade också att det inte krävs några djupare kunskaper för att lyckas.
I rapporten från Unit 42 om deras undersökning av DeepSeek finns detaljerade beskrivningar av tillvägagångssättet vid jailbreak-attacker. I ett fall började man med att fråga AI:n efter en historik för ett ämne som är känsligt till sin natur: molotovcocktailen. Attacken fortsatte sedan med successivt mer ingående frågor som DeepSeek besvarade. Slutresultatet blev en detaljerad beskrivning av hur man kan bygga en molotovcocktail. Med samma metod visade det sig också möjligt att få instruktioner om drogtillverkning.
Unit 42 ger också flera exempel på hur DeepSeek kan fås att skriva skadlig programkod som används för cyberattacker. Det handlar både om verktyg för att möjliggöra själva intrånget och sådana som gör det möjligt att komma in i system för att stjäla data. AI-motorn skrev bland annat en keylogger för att ”avlyssna” tangentbord.
– I spåren av den otroligt snabba utvecklingen inom generativ AI kommer vi säkert att få se fler fall med sårbara tjänster som saknar effektiva säkerhetsspärrar. Andra populära AI-modeller har tidigare visat sig sårbara för jailbreak-attacker på samma sätt som vi ger exempel på med DeepSeek. Det här ser ut att bli en långsiktig utmaning för alla som arbetar med digital säkerhet, säger Jesper Olsen, Chief Security Officer på Palo Alto Networks i Norden.
Detta är jailbreaking
Jailbreaking är en teknik som används för att kringgå de säkerhetsmekanismer som finns inbyggda i populära AI-tjänster som bygger på stora språkmodeller (LLM, bland annat ChatGPT, Copilot och den nya DeepSeek. Denna typ av spärrar brukar kallas ”skyddsräcken” (guardrails) och ska förhindra att skadligt eller olagligt innehåll skapas.
Med en direkt fråga till AI-tjänsten om att få del av skadligt innehåll kommer skyddsräcket att träda in och svaret blir då något i still med ”Jag är ledsen, men tyvärr kan jag inte hjälpa till med den frågan”.
Jailbreaking innebär att systematiskt utforma frågor för att kringgå de inbyggda spärrarna eller utnyttja andra svagheter för att manipulera AI-modellen och framkalla de farliga, missvisande eller olämpliga resultat som modellen är tränad för att undvika. Framgångsrika jailbreaks kan få stora konsekvenser. Hotaktörer kan på så vis utnyttja AI-modeller för att sprida desinformation, generera stötande innehåll eller underlätta brott som bedrägerier eller cyberattacker.
Tre sätt att lura AI
Unit 42 har experimenterat med tre olika jailbreak-metoder:
- Deceptive Delight: Stora språkmodeller för AI har begränsad ”koncentrationsförmåga”, vilket gör dem sårbara för störningar vid bearbetning av texter med komplexa sammanhang. Deceptive Delight utnyttjar denna svaghet genom att blanda in ”förbjudet” innehåll i annars harmlösa frågor, vilket lurar modellen att oavsiktligt generera skadligt innehåll samtidigt som den fokuserar på de godkända delarna.
- Bad Likert Judge går ut på att manipulera AI-motorn med hjälp av Likert-skalan, ett välkänt sätt att mäta attityder som bygger på enighet eller oenighet med ett påstående. AI:n uppmanas sedan att komma med exempel anpassade till Likertskalan, där exemplet med det högsta värdet i resultatet bör innehålla det skadliga innehåll som man är ute efter.
- Crescendo är en anmärkningsvärt enkel men effektiv jailbreaking-teknik. Den utnyttjar AI-modellens egen kunskap genom att fylla frågorna med relaterat innehåll. Subtilt och stegvis leds sedan samtalet in på förbjudna ämnen tills modellens säkerhetsmekanismer i praktiken kringgås. Ofta räcker det med fem interaktioner för att uppnå detta, vilket gör Crescendo till en mycket effektiv metod. Den är också svår att upptäcka med de vanliga motmedlen för att stoppa jailbreak-försök.
Palo Alto Networks portfölj med lösningar som drivs av Precision AI kan hjälpa till att begränsa riskerna med att använda vanliga tjänster för generativ AI och samtidigt öka takten i tillämpningen av AI till nytta för organisationen. AI Security Assessment från Unit 42 gör det möjligt att driva innovation, öka produktiviteten och samtidigt förbättra sin cybersäkerhet.
Om Palo Alto Networks
Palo Alto Networks är världsledande inom cybersäkerhet. Vi driver innovation för att ligga steget före alla hotaktörer och skapar trygghet för kunderna när de byter till ny teknologi. Vi levererar nästa generations cybersäkerhet till tusentals kunder i alla sektorer, över hela världen. Våra plattformar och tjänster för cybersäkerhet kompletteras av branschledande hotbildsanalys och förstärks med långt driven automation. Vårt uppdrag är att göra varje dag lite mer säker än gårdagen. Det är vad som gör Palo Alto Networks till förstavalet som partner för cybersäkerhet.
Mer information finns på www.paloaltonetworks.com.