AI Security Literacy · 2 March 2026AI Security Literacy · 2 mars 2026

LLM Information LeakageInformationsläckage i LLM-system

General deck: model, prompt, RAG, tool, and operations leakage pathsGenerell deck: läckagevägar i modell, prompt, RAG, verktyg och drift

Krister Hedfors

Krister Hedfors

Why leakage is the default failure modeVarför läckage är det vanligaste felläget

NATURALNATURLIG
TECHNICALTEKNISK
The same natural-language channel carries trusted intent and adversarial instructionsSamma språkkanal bär både legitim avsikt och skadliga instruktioner
Instruction-data boundaries are probabilistic in LLM behavior and can be manipulatedGränsen mellan instruktion och data är probabilistisk i LLM-beteende och kan manipuleras
Model output can trigger real operations through tools and automationModellutdata kan trigga verkliga operationer via verktyg och automation
Tool invocation, connectors, and orchestration turn text influence into system actionsVerktygsanrop, kopplingar och orkestrering omvandlar textpåverkan till systemåtgärder
Runtime context often contains high-value internal informationRuntime-kontext innehåller ofta intern information med högt värde
System prompts, memory, chat history, and private corpora become extraction targetsSystemprompter, minne, chatthistorik och privata korpusar blir extraktionsmål
Confidentiality becomes a system-wide property, not a model-only propertyKonfidentialitet blir en systemegenskap, inte bara en modellegenskap
Leakage risk depends on architecture, policy, observability, and operational disciplineLäckagerisk beror på arkitektur, policy, observability och operativ disciplin

Leakage taxonomy for LLM applicationsTaxonomi för läckage i LLM-applikationer

Core leakage classesKärnklasser för läckage

Practical implicationPraktisk innebörd

Threat model (concrete, testable)Hotmodell (konkret och testbar)

NATURALNATURLIG
TECHNICALTEKNISK
Define exactly what must stay confidentialDefiniera exakt vad som måste förbli konfidentiellt
Assets include prompts, corpora, credentials, model behavior, and telemetry artifactsTillgångar inkluderar promptar, korpusar, behörigheter, modellbeteende och telemetri-artefakter
Assume multiple attacker types with different access and motivationUtgå från flera angripartyper med olika åtkomst och motivation
External users, malicious content providers, insiders, and co-tenants create different abuse pathsExterna användare, skadliga innehållsleverantörer, insiders och co-tenants skapar olika missbruksvägar
Map how attackers can enter the systemKartlägg hur angripare kan ta sig in i systemet
Entry paths include direct prompts, indirect ingestion, API probing, and tool callsIngångsvägar inkluderar direkta promptar, indirekt ingestion, API-probing och verktygsanrop
Map how sensitive data can leave the systemKartlägg hur känslig data kan lämna systemet
Egress paths include responses, actions, logs, telemetry, and side effectsUtflödesvägar inkluderar svar, åtgärder, loggar, telemetri och bieffekter

Repeatable leakage chainRepeterbar läckagekedja

NATURALNATURLIG
TECHNICALTEKNISK
Step 1: attacker controls at least one input channelSteg 1: angriparen kontrollerar minst en inkanal
Inputs can arrive through user text, documents, connectors, tickets, or imported web contentInput kan komma via användartext, dokument, kopplingar, ärenden eller importerat webbinnehåll
Step 2: input reaches sensitive runtime stateSteg 2: input når känsligt runtime-tillstånd
Sensitivity concentrates in context windows, retrieval buffers, memory, and tool stateKänslighet koncentreras i kontextfönster, retrieval-buffertar, minne och verktygstillstånd
Step 3: attacker amplifies weak signalsSteg 3: angriparen förstärker svaga signaler
Retries, adaptation, and probing improve extraction reliability over timeRetries, anpassning och probing ökar extraktionssäkerheten över tid
Step 4: sensitive data exits through normal product behaviorSteg 4: känslig data lämnar systemet via normalt produktbeteende
Leakage can appear in model output, tool actions, logs, or downstream side effectsLäckage kan synas i modellutdata, verktygsåtgärder, loggar eller nedströms bieffekter
Step 5: low-noise behavior delays detectionSteg 5: lågbrusigt beteende fördröjer upptäckt
Without detection engineering, leaks blend into normal workload varianceUtan detektionsdesign smälter läckor in i normal variation i arbetslasten

Evidence timeline (selected)Tidslinje för bevis (urval)

NATURALNATURLIG
TECHNICALTEKNISK
Extraction and inversion attacks became practical earlyExtraktions- och inversionsattacker blev tidigt praktiska
2015 to 2016 research showed model extraction feasibility against prediction interfacesForskning 2015 till 2016 visade genomförbar modelextraktion mot prediktionsgränssnitt
Large-scale memorization leakage was demonstrated on modern LMsStorskaligt memoriseringsläckage demonstrerades på moderna språkmodeller
USENIX Security 2021 showed training-data extraction from GPT-2USENIX Security 2021 visade extraktion av träningsdata från GPT-2
Prompt injection matured from concept to robust offensive techniquePrompt injection gick från koncept till robust offensiv teknik
2023 to 2025 benchmarks showed reliable policy bypass and exfiltration behaviorBenchmarks 2023 till 2025 visade pålitlig policy-kringgång och exfiltration
RAG and tool-integrated systems became major enterprise leakage surfacesRAG- och verktygsintegrerade system blev stora risker för läckage av företagsinformation
By 2024 to 2025 the highest business risk shifted to production retrieval and action pathsSenast 2024 till 2025 flyttade den högsta affärsrisken till produktionsflöden för retrieval och åtgärder

Path 1: training-data extractionVäg 1: extraktion av träningsdata

NATURALNATURLIG
TECHNICALTEKNISK
Rare and repeated strings are most likely to leak verbatimSällsynta och upprepade strängar läcker oftast ordagrant
Low-entropy or duplicated sequences create stronger memorization tracesLåg entropi och duplicerade sekvenser skapar starkare memoriseringsspår
Attackers do not always need deep internal accessAngripare behöver inte alltid djup intern åtkomst
Black-box querying can still recover memorized fragments under the right conditionsBlack-box-frågor kan fortfarande extrahera memoriserade fragment under rätt förhållanden
Fine-tuning on sensitive corpora can increase leakage pressureFine-tuning på känsliga korpusar kan öka läckagetrycket
Data mix, duplication, and objective design influence memorization behaviorDatamix, duplicering och objective-design påverkar memoriseringsbeteende
Privacy claims require adversarial validationIntegritetsanspråk kräver adversariell validering
Run extraction probes before release and on every significant model changeKör extraktionsprober före release och vid varje större modellförändring

Path 2: membership inferenceVäg 2: membership inference

NATURALNATURLIG
TECHNICALTEKNISK
The attacker goal is to infer whether a specific record was in trainingAngriparens mål är att avgöra om en viss post fanns i träningen
This can expose sensitive participation in private datasets even without verbatim outputDet kan avslöja känsligt deltagande i privata dataset även utan ordagrann output
Impact is high in regulated and high-trust domainsPåverkan är hög i reglerade och förtroendekritiska domäner
Healthcare, legal, HR, and government contexts can face compliance and legal consequencesSjukvård, juridik, HR och offentlig sektor kan få regelefterlevnads- och rättsliga konsekvenser
Risk varies by model, data, and deployment surfaceRisken varierar med modell, data och deploy-yta
Fine-tuning strategy, access pattern, and output controls strongly affect attack successFine-tuning-strategi, åtkomstmönster och output-kontroller påverkar attackutfall starkt
You need empirical testing per deploymentEmpirisk testning krävs per deployment
There is no universal safe threshold transferable across environmentsDet finns ingen universell säker tröskel som kan flyttas mellan miljöer

Path 3: prompt injection (direct and indirect)Väg 3: prompt injection (direkt och indirekt)

NATURALNATURLIG
TECHNICALTEKNISK
Direct injection comes from attacker-crafted user inputDirekt injection kommer från angriparskapad användarinput
Malicious instructions compete with system and policy instructions in the same channelSkadliga instruktioner konkurrerar med system- och policyinstruktioner i samma kanal
Indirect injection hides inside ingested contentIndirekt injection göms i ingestat innehåll
Documents, webpages, tickets, and email can smuggle instructions into retrieval contextDokument, webbsidor, ärenden och e-post kan smuggla instruktioner till sökkontext
Root cause is ambiguous instruction-data separationRotorsaken är tvetydig separation mellan instruktion och data
LLM parsing does not provide deterministic trust boundaries by defaultLLM-parsning ger inte deterministiska tillitsgränser som standard
Operational effect is policy bypass and data disclosureOperativ effekt är policy-kringgång och dataexponering
Unchecked injection can trigger unsafe tool calls, over-retrieval, and silent exfiltrationOkontrollerad injection kan trigga osäkra verktygsanrop, över-retrieval och tyst exfiltration

Path 4: RAG leakageVäg 4: RAG-läckage

NATURALNATURLIG
TECHNICALTEKNISK
RAG turns private corpora into live query contextRAG gör privata korpusar till levande frågekontekst
Authorization mistakes at retrieval time expose content outside intended audienceBehörighetsfel vid retrieval exponerar innehåll utanför avsedd målgrupp
Prompt pressure can induce selective over-disclosurePrompt-tryck kan orsaka selektiv överexponering
Even when direct quoting is blocked, semantic leakage can still occur through paraphraseÄven när direkt citering blockeras kan semantiskt läckage uppstå via parafras
String filters alone are not enoughSträngfilter räcker inte ensamma
Attackers can reframe intent to bypass literal pattern matchingAngripare kan omformulera avsikter för att kringgå bokstavlig mönstermatchning
Retrieval ACL and provenance are core controlsRetrieval-ACL och proveniens är centrala kontroller
Enforce per-document and per-chunk authorization with traceable source attributionTillämpa behörighet per dokument och per chunk med spårbar källattribuering

Path 5: tool and agent exfiltrationVäg 5: exfiltration via verktyg och agenter

NATURALNATURLIG
TECHNICALTEKNISK
Tool access converts model influence into real-world actionsVerktygsåtkomst omvandlar modellpåverkan till verkliga åtgärder
Any tool with network, file, or transaction scope can become an exfil channelAlla verktyg med nät-, fil- eller transaktionsscope kan bli en exfiltrationskanal
Unscoped tools dramatically increase blast radiusOavgränsade verktyg ökar spridningsradien kraftigt
Missing constraints allow model-driven data movement outside approved boundariesSaknade begränsningar möjliggör modelldriven dataflytt utanför godkända gränser
Models should propose actions, not enforce policyModeller ska föreslå åtgärder, inte verkställa policy
Deterministic policy engines must validate schema, identity, and destination before executionDeterministiska policymotorer måste validera schema, identitet och destination före exekvering
Auditability is part of containmentSpårbarhet är en del av begränsning
Maintain full logs for tool intent, parameters, approvals, and outcomesBehåll fulla loggar för verktygsavsikt, parametrar, godkännanden och utfall

Output handling is part of confidentialityHantering av output är en del av konfidentialitet

NATURALNATURLIG
TECHNICALTEKNISK
Treat model output as untrusted until validatedBehandla modelloutput som opålitlig tills den validerats
Unsafe output can carry hidden instructions, tainted data, or exploit payloadsOsäker output kan bära dolda instruktioner, kontaminerad data eller exploateringspayloads
Render and execution layers can transform leakage into compromiseRender- och exekveringslager kan omvandla läckage till kompromettering
SQL, shell, template, browser, and parser boundaries need explicit sanitization policiesGränser för SQL, shell, mallar, browser och parser kräver explicit sanitiseringspolicy
Protect downstream systems from model-side uncertaintySkydda nedströms system från osäkerhet på modellsidan
Validate, normalize, and constrain outputs before storage, routing, or executionValidera, normalisera och begränsa output före lagring, routing eller exekvering
Confidentiality controls fail if unsafe output is trusted by defaultKonfidentialitetskontroller faller om osäker output litas på som standard
Add mandatory guardrails at every output handoff boundaryLägg in obligatoriska guardrails vid varje överlämningsgräns för output

Control pillar 1: minimize and compartmentalizeKontrollpelare 1: minimera och compartmentalisera

NATURALNATURLIG
TECHNICALTEKNISK
Keep secrets out of prompts by defaultHåll hemligheter borta från promptar som standard
Use scoped retrieval and just-in-time access instead of broad context injectionAnvänd avgränsad retrieval och just-in-time-åtkomst i stället för bred kontextinjektion
Use short-lived, narrowly scoped credentialsAnvänd kortlivade och snävt avgränsade behörigheter
Limit lateral movement by rotating and constraining token capabilitiesBegränsa lateral rörelse genom att rotera och begränsa token-kapabiliteter
Segment contexts by identity and taskSegmentera kontexter efter identitet och uppgift
Isolate sessions, memory, and retrieval indexes across users and workflowsIsolera sessioner, minne och retrieval-index mellan användare och arbetsflöden
Reduce unnecessary metadata exposureMinska onödig metadataexponering
Confidence, timing, and verbose traces can become attacker signal amplification vectorsKonfidens, timing och detaljerade spår kan bli förstärkare för angriparsignaler

Control pillar 2: enforce policy outside the modelKontrollpelare 2: verkställ policy utanför modellen

NATURALNATURLIG
TECHNICALTEKNISK
Authorize retrieval at document and chunk levelAuktorisera retrieval på dokument- och chunknivå
Bind access decisions to user identity, role, and request contextBind åtkomstbeslut till användaridentitet, roll och förfrågningskontext
Use strict contracts for tool callsAnvänd strikta kontrakt för verktygsanrop
Require schema validation, policy checks, and destination allowlists before executionKräv schemavalidering, policykontroller och destinationsallowlists före exekvering
Control egress for network and connectorsKontrollera utgående trafik för nätverk och kopplingar
Restrict outbound paths to approved domains, APIs, and data classesBegränsa utgående vägar till godkända domäner, API:er och dataklasser
Gate high-impact actions with human approvalGranska åtgärder med hög påverkan med mänskligt godkännande
Human-in-the-loop reduces catastrophic mis-execution when confidence is low or impact is highHuman-in-the-loop minskar katastrofala felkörningar när tilliten är låg eller påverkan är hög

Control pillar 3: measure leakage continuouslyKontrollpelare 3: mät läckage kontinuerligt

NATURALNATURLIG
TECHNICALTEKNISK
Run pre-release extraction and membership probesKör extraktions- och membership-prober före release
Security validation should mirror attacker methods, not only unit testsSäkerhetsvalidering ska spegla angriparmetoder, inte bara enhetstester
Continuously red-team prompt injection and tool misuseRed-teama kontinuerligt prompt injection och verktygsmissbruk
Scenario-based testing catches regressions introduced by model or policy updatesScenariobaserad testning fångar regressioner från modell- eller policyuppdateringar
Tie release gates to measurable thresholdsKnyt releasegrindar till mätbara trösklar
Fail builds when leakage, bypass, or policy-violation rates exceed policy limitsStoppa builds när läckage-, kringgångs- eller policybrottsnivåer överstiger policygränser
Monitor runtime anomalies in retrieval, tools, and actionsÖvervaka runtime-avvikelser i retrieval, verktyg och åtgärder
Detection engineering must track drift, burst patterns, and unusual data access chainsDetektionsdesign måste följa drift, burstmönster och ovanliga dataåtkomstkedjor

Operational checklist (next sprint)Operativ checklista (nästa sprint)

NATURALNATURLIG
TECHNICALTEKNISK
Map sensitive data flows end-to-endKartlägg känsliga dataflöden från början till slut
Document prompts, retrieval sources, tools, outputs, logs, and storage boundariesDokumentera promptar, retrieval-källor, verktyg, output, loggar och lagringsgränser
Define attacker model and abuse cases explicitlyDefiniera angriparmodell och missbruksscenarier explicit
Prioritize cases by impact, likelihood, and detectability for actionable mitigation planningPrioritera fall efter påverkan, sannolikhet och upptäckbarhet för handlingsbar mitigering
Implement retrieval ACL, provenance, and tool policy enforcementImplementera retrieval-ACL, proveniens och verktygspolicy-verkställning
Make controls deterministic and centrally testable across all agent workflowsGör kontroller deterministiska och centralt testbara över alla agentarbetsflöden
Stand up benchmark-driven security tests in CIEtablera benchmarkdrivna säkerhetstester i CI
Automate extraction, injection, and exfil test suites as release criteriaAutomatisera testsviter för extraktion, injection och exfiltration som releasekriterier
Create incident response playbooks for leakage eventsSkapa incident playbooks för läckagehändelser
Define triage, containment, communication, and recovery paths before incidents occurDefiniera triage, begränsning, kommunikation och återställning innan incidenter inträffar

Further reading and implementation referencesFördjupning och implementationsreferenser

Foundational referencesGrundreferenser

Technical papersTekniska artiklar

Implementation guidanceImplementationsvägledning

Q&A prompt setFrågebank för Q&A

Closing askAvslutande uppmaning

Ship evidence, not assurancesLeverera evidens, inte försäkringar

Treat leakage as a measurable reliability and security property.Behandla läckage som en mätbar egenskap för tillförlitlighet och säkerhet.

Krister Hedfors on LinkedIn

AISecurityLiteracy.dev