TrendAI presenterar idag nya analyser som visar hur enkel manipulation av text, så kallad sockpuppeting, kan få AI-modeller som GPT-4o, Claude 4 Sonnet och Gemini 2.5 Flash att kringgå sina egna säkerhetsspärrar.
Genom att maskera skadliga instruktioner i en till synes oskyldig prompt kan man manipulera assistenten att bryta mot sina riktlinjer. Samtliga modeller med API som accepterar förifylld kontext, så kallad prefill, visade sig sårbara.
TrendAI har testat metoden mot elva olika modeller från fyra leverantörer. Resultaten visar att sårbarheten inte begränsad till enskilda leverantörer, utan påverkar både öppna och internt hostade modeller. Så länge en modell accepterar prefill är den åtminstone delvis exponerad för sårbarheten. Endast modeller som blockerar denna funktion på API-nivå visade sig helt skyddade.
– Sårbarheten är särskilt allvarlig eftersom den inte kräver vare sig särskilda verktyg eller avancerad teknik, säger Martin Fribrock, Country Manager Sweden, Finland and Baltics på TrendAI. Den här typen av attacker riktar sig mot själva kärnan i hur AI fungerar. Det handlar inte om att lyckas bryta sig in i systemen, utan det räcker för en cyberkriminell att formulera sig på rätt sätt.
Så fungerar attacken
De flesta språkmodeller har inbyggda skydd som ska förhindra att de genererar skadligt innehåll eller bryter mot policyer. Vid en sockpuppeting-attack räcker det med att använda en kort textrad för att manipulera modellens kontext. Detta kan få den att ignorera sina säkerhetsmekanismer och svara på annars blockerade förfrågningar och generera annars oönskat eller otillåtet innehåll.
TrendAIs analyser visar samtidigt att modeller som inte accepterar prefill stoppar den här typen av attack redan på API-nivå. För övriga modeller varierar graden av sårbarhet, men samtliga påverkades av sårbarheten. Detta pekar på en bred systemrisk snarare än enskilda svagheter hos leverantörerna.
Rekommendationer till organisationer
TrendAI uppmanar organisationer som använder AI att vidta åtgärder för att minska riskerna det här för med sig:
- Säkerställ kontroll över meddelandeflödet på API-nivå och avvisa konsekvent förfrågningar där det sista meddelandet har rollen assistant.
- Testa regelbundet hur modeller hanterar förifylld kontext (prefill), även efter uppdateringar eller leverantörsbyten.
- Var särskilt uppmärksam vid användning av open weight-modeller, där skydd ofta saknas som standard.
- Genomför breda säkerhetstester, olika modeller kan vara sårbara för olika typer av attacker.





