Ny undersökning – så lättlurade är AI-modellerna

Ny undersökning – så lättlurade är AI-modellerna

Publicerat av: Redaktionen

Säkerhetsriskerna med öppna AI-modeller blir allt mer välkända – men en ny undersökning visar att många populära modeller fortfarande går att utnyttja för illvilliga syften.

Sedan det globala genombrottet för generativ AI har tekniken blivit en självklar del av vardagen – och arbetslivet.

I den senaste utgåvan av Svenskarna och Internet, publicerad hösten 2025, uppger tre av tio förvärvsarbetare och fyra av tio tjänstemän att de använt AI-verktyg i jobbsammanhang.

Bland de användningsområden som lyfts fram i rapporten finns bland annat sammanfattningar och bearbetningar av källmaterial, korrekturläsning, samt att skapa affärsplaner, protokoll och presentationer.

Men en stor del av dessa data är känsliga och konfidentiella, och säkerhetsrisker uppstår när dessa data används i en öppen AI-modell, där den senare kan användas för träning, och sedan tillämpas i svar till andra användare.

Därför har säkerhetsforskare på Cisco genomfört ett stresstest av åtta av de mest populära öppna AI-plattformarna, med det egenutvecklade verktyget Cisco AI Validation. Samtliga dessa plattformar är Open Weight-modeller där de parametrar som avgör hur AI:n arbetar är publikt tillgängliga, nedladdnings- och anpassningsbara. De används därför ofta som grund när verksamheter bygger egna AI-lösningar.

Ny undersökning – så lättlurade är AI-modellerna

Henrik Bergqvist, cybersäkerhetsexpert Cisco Sverige

Testet har använt två olika tillvägagångssätt. I ”single turn” har varje modell matats med 1 024 förgenererade prompter som är skapade för att försöka manipulera dem, medan ”multi turn” bygger på en dialog med AI-modellen där man gradvis försökt förmå den att bryta mot reglerna. 499 multi turn-attacker genomfördes mot varje modell, med mellan 5-10 interaktioner.

Diagrammet visar resultatet från testet, där lägre stapel anger att färre försök lyckades. Endast tre av de öppna AI-modellerna lyckades avvärja angreppsförsöken i mer än hälften av angreppsförsöken när multi turn-tekniken användes. Vid single turn-försök presterade samtliga AI-modeller bättre men inte felfritt.

Bäst av modellerna presterade Microsoft Phi-4 och OpenAI GPT-OSS-20b, som båda klarade av att hantera mer än 93 procent av single turn-attackerna, samt Google Gemma-3-1B-IT som avvärjde nästan tre fjärdedelar, 74 procent, av multi turn-attackerna. Fyra av modellerna släppte igenom fler än tre av fyra multi turn-attacker.

”Att mata in information i en öppen AI-modell innebär att man släpper en del av kontrollen över den informationen, och testet visar att dagens öppna plattformar fortfarande inte är vattentäta. Medvetenheten om dessa risker ökar men fortfarande sker mängder av incidenter och misstag dagligen. Att fortsätta utveckla stängda och interna lösningar för känslig data och göra ansvarsfull AI-användning till en central del av medarbetares utbildning, är viktigare än någonsin”, säger Henrik Bergqvist, cybersäkerhetsexpert på Cisco Sverige.

”En annan viktig slutsats är att man behöver ha ett extra starkt säkerhetsfokus när man bygger egna AI-tillämpningar baserade på Open Weight-modeller. Bara genom att ändra olika vikter och parametrar riskerar man att oavsiktligt minska säkerheten – i många open weight-varianter läggs ansvaret för säkerheten till stor del över på användaren. Därför är det också viktigt att ha tillgång till verktyg som gör det möjligt att göra liknande stresstester på de egna tillämpningarna”, säger Henrik Bergqvist.

Relaterade Artiklar

Vi använder cookies och andra identifierare för att förbättra din upplevelse. Detta gör att vi kan säkerställa din åtkomst, analysera ditt besök på vår webbplats. Det hjälper oss att erbjuda dig ett personligt anpassat innehåll och smidig åtkomst till användbar information. Klicka på ”Jag godkänner” för att acceptera vår användning av cookies och andra identifierare eller klicka ”Mer information” för att justera dina val. Jag Godkänner Mer Information >>

-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00