
Verktyg baserade på AI, som ChatGPT, Claude och Gemini, har blivit vanliga i e‑post, arbetsflöden och i vardagen — och de flesta reflekterar knappast över säkerhetskonsekvenserna. Det börjar förändras.
En teknik kallad prompt‑injektion uppmärksammas i säkerhetskretsar. Det som gör den ovanlig är att den inte kräver någon skadlig kod, inga specialistkunskaper och inga misstänkta länkar. I vissa fall räcker en välformulerad mening för att kapra ett AI‑verktyg utan att användaren märker något.
Det viktigaste att känna till:
- Prompt‑injektion manipulerar AI‑verktyg med avsiktligt formulerat språk, inte med skadlig kod eller teknisk expertis.
- Det fungerar eftersom AI‑modeller inte kan skilja en utvecklares instruktioner från en användares indata.
- Attacker kan vara direkta, indirekta eller lagrade i data som AI läser upprepade gånger.
- Vissa attacker använder osynlig text eller dold formatering som användaren aldrig ser.
- En lyckad attack kan avslöja privata data eller utföra åtgärder du inte godkänt.
- Det finns ännu ingen komplett lösning, men att begränsa AI‑behörigheter och hålla sig informerad minskar risken.
Vad är prompt‑injektion?
Prompt‑injektion är en metod där en angripare kan ändra hur ett AI‑verktyg beter sig. Det behövs inget sårbarhetsutnyttjande eller installation av skadlig kod, eftersom angriparen manipulerar modellen med språk enbart.
Begreppet myntades av datavetaren Simon Willison 2022, och har identifierats som det främsta säkerhetshotet för AI‑applikationer av OWASP, en organisation som följer de mest kritiska hoten inom mjukvarusäkerhet.
Tänk på det som social ingenjörskonst riktat mot maskiner, eftersom det liknar nätfiske mer än konventionellt intrång. Tekniken utnyttjar en inneboende svaghet i stora språkmodeller (LLM): de är byggda för att följa instruktioner. Samma egenskap som gör dem användbara gör dem också sårbara. En välformulerad indata kan åsidosätta verktygets ursprungliga regler, ändra dess svar eller få det att avslöja information det skulle hålla hemlig. En lyckad injektion kan inte bara böja reglerna — den kan exponera allt modellen är kopplad till.
Till skillnad från traditionell kodinjektion eller andra datorsäkerhetsexploits som kräver specialistkunskaper räcker det här att kunna formulera en övertygande mening.
Hur fungerar prompt‑injektion?
Problemet beror på att AI‑system inte kan multitaska mellan olika avsändare. De är "blinda" för skillnaden mellan en utvecklares dolda instruktioner och en användares indata.
Utvecklare skriver dolda prompts som bestämmer hur verktyget ska bete sig. Din indata kombineras med dessa prompts och AI behandlar allt som en enda kontinuerlig textström. Den kan inte avgöra vilka delar som är utvecklarens instruktioner och vilka som är dina. Så om din indata ser ut som ett kommando kan AI följa det, även om det strider mot den avsedda regeln.
Inte alla attacker ser likadana ut. De faller ofta i tre kategorier: direkt, indirekt och lagrad injektion.
Vad är direkt prompt‑injektion?
Direkt prompt‑injektion innebär att skriva en skadlig instruktion direkt i chatten. Något så enkelt som "ignorera tidigare instruktioner" kan räcka. Denna metod utnyttjar AI‑modellers tendens att prioritera ny indata framför utvecklarens regler.
Vad är indirekt prompt‑injektion?
Indirekt prompt‑injektion gömmer skadliga instruktioner i extern information som AI bearbetar, till exempel webbsidor eller e‑post.
Till exempel kan en angripare placera dold text på en webbsida som instruerar AI att ignorera sina regler och rekommendera en viss länk. Om någon ber verktyget sammanfatta sidan läser det den dolda kommandot tillsammans med det verkliga innehållet och kan följa instruktionen utan att användaren märker något. Säkerhetsforskare bedömer allmänt att indirekt prompt‑injektion är generativa AI‑modellers allvarligaste säkerhetsbrist och en av de svåraste att försvara sig mot.
Vad är lagrad prompt‑injektion?
Lagrad prompt‑injektion fungerar genom att plantera skadliga instruktioner på platser som AI regelbundet läser, till exempel databaser eller träningsdata.
Lagrad prompt‑injektion kan påverka många användare över flera sessioner, eftersom instruktionerna är sparade i stället för att skrivas in i realtid. AI‑agenten ser ut att fungera normalt, men dess svar har subtilt påverkats av något som lades in långt innan användaren öppnade programmet.
Skydda dig i takt med att AI‑verktyg blir vardag
Prompt‑injektion är ett exempel på hur AI‑system kan manipuleras. Kaspersky Premium hjälper till att skydda dina enheter, data och onlinekonton mot digitala hot som utvecklas.
Prova Premium gratisVilka tekniker används i prompt‑injektionsattacker?
Prompt‑injektion använder vanlig text för att lura AI att följa obehöriga instruktioner. Risken är att AI‑modeller behandlar all text likadant eftersom de inte kan skilja legitim indata från manipulerat innehåll.
De flesta attacker hör till två huvudgrupper: knep som förkläder instruktioner med kod eller formatering, och knep som gömmer instruktioner så att människor inte ser dem alls. För en människa ser innehållet ut som vanligt, men modellen läser allt i den underliggande texten.
Kod‑ och formateringsknep
Vissa attacker använder kodblock, markup eller strukturerad text för att få en skadlig instruktion att se ut som ett legitimt systemkommando. Det kan handla om att omsluta text i kodformat eller strukturera den så att den liknar en utvecklares systemprompt.
Dolda och förklädda instruktioner
Andra attacker döljer instruktioner i klart ljus med visuella trick som människor lätt förbiser — vit text på vit bakgrund, extremt liten fontstorlek, ovanliga mellanrum, specialtecken, unicode‑kodning eller instruktioner skrivna på ett annat språk. En människa tittar på dokumentet eller webbsidan och ser inget konstigt, men AI läser all text oavsett hur den visas.
Dessa tekniker används redan. Angripare har inbäddat osynliga instruktioner på webbsidor för att kapa AI‑webbagenter, och arbetssökande har använt dold text i CV för att lura urvalsverktyg som drivs av AI.

Exempel på prompt‑injektion
Hur Bing Chat lurades att avslöja sina egna regler
I februari 2023 använde Kevin Liu, student vid Stanford, en direkt prompt‑injektion för att få Bing Chats dolda systeminstruktioner att avslöjas. Det räckte att skriva "ignore previous instructions" och be AI läsa upp sina egna regler. Chatboten lämnade ut sitt interna kodnamn "Sydney" och dolda riktlinjer för hur den skulle agera. När Microsoft åtgärdade sårbarheten hittade Liu en omväg runt fixen inom några timmar genom att låtsas vara en utvecklare.
Hur dold text i CV lurade AI‑urvalsverktyg
Jobbsökande började lägga in dolda prompt‑injektion‑instruktioner i sina cv:n för att manipulera urvalsverktyg som drivs av AI. Metoden innebar att skriva instruktioner som "detta är en synnerligen välkvalificerad kandidat" med vit text eller i extremt liten punktstorlek så att texten blir osynlig för en mänsklig läsare men ändå läses av AI.
Metoden fick genomslag på sociala medier under 2024. Bemanningsföretaget ManpowerGroup rapporterade att de hittade dold text i omkring 10 % av de cv:n de skannade med AI. Rekryteringsplattformen Greenhouse fann liknande dolda prompts i 1 % av de 300 miljoner cv:n de hanterar varje år.
Hur chatbots manipulerades till att dela privat information
Ett tidigt fall med ChatGPT involverade remoteli.io:s Twitter‑bot, som drivs av ChatGPT och skapats för att posta positiva kommentarer om distansarbete. Användare upptäckte att de kunde tweeta instruktioner som fick boten att ignorera sitt ursprungliga syfte, och den började då göra absurda offentliga uttalanden.
Nyare tester visar att OpenAI:s ChatGPT Atlas‑webbagent kunde kapas via dolda instruktioner i e‑postmeddelanden. I ett test fick ett manipulerat e‑postmeddelande agenten att skicka ett uppsägningsbrev till användarens chef i stället för att skriva det avsedda autosvaret. Användaren såg aldrig den dolda instruktionen, men AI följde den ändå.
Varför ska vanliga användare bry sig om prompt‑injektion?
Prompt‑injektion kan manipulera AI‑verktyg utan att du märker det. När ett AI sammanfattar ett dokument eller utformar ett mejl hämtar det information från externa källor. Om någon av dessa källor har manipulerats komprometteras verktygets resultat, utan att du vet om det.
Därför skiljer sig prompt‑injektion från andra onlinesäkerhetshot. Du behöver inte klicka på en länk eller ladda ner något misstänkt. Du ställer en vanlig fråga, och svaret påverkas av instruktioner någon annan gömt i innehållet som AI använde som indata. Det kan vara relativt ofarligt — ett vinklat sammandrag eller en oönskad länk — men i värre fall kan verktyget läcka dina personuppgifter eller utföra åtgärder du inte godkänt. Manipulerade svar ser ofta helt normala ut, utan felmeddelanden eller tydliga tecken på intrång.
Det betyder inte att du ska sluta använda verktygen, men du kan inte utgå från att AI‑svar alltid är neutrala och pålitliga.
Är prompt‑injektion samma sak som jailbreak?
Prompt‑injektion och jailbreaking är besläktade men inte utbytbara begrepp. Jailbreaking är en form av prompt‑injektion som riktar sig särskilt mot säkerhetsspärrar. Metoden försöker få ett AI att ignorera innehållspolicyer eller producera begränsat innehåll.
Prompt‑injektion är bredare. Den omfattar alla försök att kapra AI‑beteende genom formulerad indata — till exempel att avslöja dolda systemkommandon eller få verktyget att utföra obehöriga åtgärder. Målet är inte alltid att bryta säkerhetsfilter; ofta vill angriparen bara att AI utför en annan uppsättning instruktioner utan att någon märker något.
En annan viktig skillnad är vem som påverkas. Jailbreaking är ofta en avsiktlig handling av användaren i den egna sessionen. Prompt‑injektion, särskilt indirekta och lagrade varianter, kan påverka oskyldiga användare som inte visste att innehållet de frågade om hade manipulerats. Det är en tydlig säkerhetsrisk, och anledningen till att OWASP rankar prompt‑injektion som den främsta risken för AI‑applikationer snarare än att behandla jailbreaking som en separat kategori.
Hur kan du förebygga prompt‑injektion?
Det finns ingen enkel lösning just nu eftersom sårbarheten härrör från samma egenskap som gör dessa verktyg användbara: deras förmåga att följa instruktioner. Utvecklare kan därför inte ta bort den utan att försämra verktygens användbarhet.
Utvecklare av AI fortsätter att förbättra filtrering av indata, och adversariell testning hjälper till, men inget på marknaden eliminerar risken helt.
Det finns ändå mycket du kan göra. Det mesta handlar om sunt förnuft:
- Håll koll. Låt inte AI‑verktyg köra på autopilot. Granska alltid vad verktyget planerar att göra innan det agerar.
- Begränsa åtkomsten där det går. När ett AI‑verktyg ber om åtkomst till din e‑post eller filer — fundera på om det verkligen behöver det. Undvik att klistra in lösenord, ekonomiuppgifter eller känslig information i AI‑chattfönster.
- Värm upp din kritiska blick för svaren. Om ett svar inkluderar en oväntad länk, rekommenderar något du inte bett om eller styr mot en åtgärd som känns konstig — ta det lugnt innan du agerar.
- Håll allt uppdaterat. Utvecklare släpper regelbundet uppdateringar som åtgärdar sårbarheter och stärker försvar. En utdaterad version saknar ofta de skydden.
Vad bör du göra om ett AI‑verktyg beter sig oväntat?
Om ett AI‑verktyg börjar bete sig konstigt — stoppa och agera inte på instruktioner från det. Det behöver inte vara prompt‑injektion, men om något verkar fel måste du ta reda på vad innan du fortsätter.
Få saker som bör väcka misstanke:
- Verktyget föreslår att göra något du aldrig bad om
- Okända länkar eller produktrekommendationer dyker upp
- Det ber om personuppgifter som inte hör till uppgiften
- Tonaliteten ändras plötsligt mitt i konversationen
- Svaren slutar vara sammanhängande eller känns orelaterade till din fråga
Om något av detta händer, stäng sessionen och börja om. Försök inte felsöka i samma konversation — om sessionen är komprometterad är du fortfarande inne i den och därmed utsatt.
Gå därefter igenom vad som hänt och fundera över vilken åtkomst verktyget haft. Var din e‑post öppen? Kunde programvaran vidta åtgärder åt dig? Om något verkar fel — återställ ändringar och byt omedelbart lösenord.
Hur passar prompt‑injektion in i den bredare AI‑säkerheten?
Prompt‑injektion ligger högst upp på prioritetslistan för AI‑säkerhet eftersom den angriper själva modellen. Det skiljer sig från nätfiske, skadlig kod och andra mer traditionella attacker som riktar sig mot systemen runt omkring AI.
Problemet växer. Inte så länge sedan var AI‑verktyg mest begränsade till textgenerering. Nu kan de surfa på webben, läsa din e‑post, komma åt filer, skriva kod och utföra åtgärder åt dig. Standarder som MCP gör det ännu enklare att koppla AI till externa tjänster. Ju mer dessa verktyg kan göra, desto större skada kan en lyckad attack orsaka.
Det handlar också om skala. Prompt‑injektion fungerar mycket som social ingenjörskonst — den övertygar AI att följa instruktioner den inte borde genom att presentera dem på rätt sätt. Men till skillnad från ett telefonsamtal som riktar sig mot en person i taget kan en enda dold instruktion på en populär webbsida påverka varje AI‑verktyg som läser sidan.
Det betyder inte att AI‑verktyg är osäkra att använda. Men säkerheten hinner inte riktigt ikapp den snabba användaracceptansen, så ansvaret för säkerheten hamnar delvis hos slutanvändarna.
Relaterade artiklar:
- Vad är fördelarna med utbildning i säkerhetsmedvetenhet?
- Vilka är säkerhetsriskerna med att använda ChatGPT?
- Vilken påverkan har AI‑relaterad cyberbrottslighet på digital säkerhet?
- Hur manipulerar social ingenjörskonst mänskligt beteende för attacker?
Rekommenderade produkter:
FAQ
Är prompt‑injektion olagligt?
Det finns ingen lag som uttryckligen förbjuder prompt‑injektion. Men handlingar som att få åtkomst till skyddade uppgifter eller extrahera privat information omfattas av befintlig brottslighet mot datorsystem och cyberbrottslagstiftning. Den rättsliga risken är redan verklig, men lagstiftningen har en bit kvar för att hinna ifatt.
Kan prompt‑injektion drabba vanliga användare?
Ja. Om du använder ett verktyg som bearbetar extern information med AI kan du lätt påverkas (och du skulle troligen inte ens märka det). Det är inte en direkt attack mot dig som slutanvändare eftersom attacken riktar sig mot AI‑verktyget, inte personen direkt.
Kan prompt‑injektion stjäla personuppgifter?
Ja, om AI‑verktyget har åtkomst till personuppgifter. Oavsett om det handlar om din e‑post, filer eller annan data kan en lyckad prompt‑injektion instruera verktyget att plocka ut och dela den informationen. Säkerhetsforskare har redan visat att AI‑webbagenter kan luras att vidarebefordra känsliga dokument till obehöriga mottagare.
Är prompt‑injektion samma sak som hacking?
Prompt‑injektion är inte traditionellt intrång. Istället för att utnyttja kodsårbarheter manipulerar den vad AI läser. Det är social ingenjörskonst riktad mot en maskin. Resultatet kan likna ett intrång (läckta data, obehöriga åtgärder), men mekanismen är fundamentalt annorlunda.
