Why leakage is the default failure modeVarför läckage är det vanligaste felläget

NATURALNATURLIG

TECHNICALTEKNISK

The same natural-language channel carries trusted intent and adversarial instructionsSamma språkkanal bär både legitim avsikt och skadliga instruktioner

Instruction-data boundaries are probabilistic in LLM behavior and can be manipulatedGränsen mellan instruktion och data är probabilistisk i LLM-beteende och kan manipuleras

Model output can trigger real operations through tools and automationModellutdata kan trigga verkliga operationer via verktyg och automation

Tool invocation, connectors, and orchestration turn text influence into system actionsVerktygsanrop, kopplingar och orkestrering omvandlar textpåverkan till systemåtgärder

Runtime context often contains high-value internal informationRuntime-kontext innehåller ofta intern information med högt värde

System prompts, memory, chat history, and private corpora become extraction targetsSystemprompter, minne, chatthistorik och privata korpusar blir extraktionsmål

Confidentiality becomes a system-wide property, not a model-only propertyKonfidentialitet blir en systemegenskap, inte bara en modellegenskap

Leakage risk depends on architecture, policy, observability, and operational disciplineLäckagerisk beror på arkitektur, policy, observability och operativ disciplin

Leakage taxonomy for LLM applicationsTaxonomi för läckage i LLM-applikationer

Core leakage classesKärnklasser för läckage

Training-data extraction and memorizationExtraktion av träningsdata och memorisering
Membership inference (was this record in training?)Membership inference (fanns denna post i träningen?)
Runtime context leakage (system prompt, memory, chat history)Läckage av runtime-kontext (systemprompt, minne, chatthistorik)
RAG disclosure and retrieval-time authorization bypassRAG-exponering och kringgång av behörighet vid retrieval
Tool and API exfiltration through unsafe action chainsExfiltration via verktyg och API:er i osäkra åtgärdskedjor
Metadata leakage (timing, logs, token and accounting channels)Metadata-läckage (timing, loggar, token- och redovisningskanaler)

Practical implicationPraktisk innebörd

You need controls at model, app, data, and operations layers simultaneouslyKontroller behövs samtidigt i modell-, applikations-, data- och driftlager

Threat model (concrete, testable)Hotmodell (konkret och testbar)

NATURALNATURLIG

TECHNICALTEKNISK

Define exactly what must stay confidentialDefiniera exakt vad som måste förbli konfidentiellt

Assets include prompts, corpora, credentials, model behavior, and telemetry artifactsTillgångar inkluderar promptar, korpusar, behörigheter, modellbeteende och telemetri-artefakter

Assume multiple attacker types with different access and motivationUtgå från flera angripartyper med olika åtkomst och motivation

External users, malicious content providers, insiders, and co-tenants create different abuse pathsExterna användare, skadliga innehållsleverantörer, insiders och co-tenants skapar olika missbruksvägar

Map how attackers can enter the systemKartlägg hur angripare kan ta sig in i systemet

Entry paths include direct prompts, indirect ingestion, API probing, and tool callsIngångsvägar inkluderar direkta promptar, indirekt ingestion, API-probing och verktygsanrop

Map how sensitive data can leave the systemKartlägg hur känslig data kan lämna systemet

Egress paths include responses, actions, logs, telemetry, and side effectsUtflödesvägar inkluderar svar, åtgärder, loggar, telemetri och bieffekter

Repeatable leakage chainRepeterbar läckagekedja

NATURALNATURLIG

TECHNICALTEKNISK

Step 1: attacker controls at least one input channelSteg 1: angriparen kontrollerar minst en inkanal

Inputs can arrive through user text, documents, connectors, tickets, or imported web contentInput kan komma via användartext, dokument, kopplingar, ärenden eller importerat webbinnehåll

Step 2: input reaches sensitive runtime stateSteg 2: input når känsligt runtime-tillstånd

Sensitivity concentrates in context windows, retrieval buffers, memory, and tool stateKänslighet koncentreras i kontextfönster, retrieval-buffertar, minne och verktygstillstånd

Step 3: attacker amplifies weak signalsSteg 3: angriparen förstärker svaga signaler

Retries, adaptation, and probing improve extraction reliability over timeRetries, anpassning och probing ökar extraktionssäkerheten över tid

Step 4: sensitive data exits through normal product behaviorSteg 4: känslig data lämnar systemet via normalt produktbeteende

Leakage can appear in model output, tool actions, logs, or downstream side effectsLäckage kan synas i modellutdata, verktygsåtgärder, loggar eller nedströms bieffekter

Step 5: low-noise behavior delays detectionSteg 5: lågbrusigt beteende fördröjer upptäckt

Without detection engineering, leaks blend into normal workload varianceUtan detektionsdesign smälter läckor in i normal variation i arbetslasten

Evidence timeline (selected)Tidslinje för bevis (urval)

NATURALNATURLIG

TECHNICALTEKNISK

Extraction and inversion attacks became practical earlyExtraktions- och inversionsattacker blev tidigt praktiska

2015 to 2016 research showed model extraction feasibility against prediction interfacesForskning 2015 till 2016 visade genomförbar modelextraktion mot prediktionsgränssnitt

Large-scale memorization leakage was demonstrated on modern LMsStorskaligt memoriseringsläckage demonstrerades på moderna språkmodeller

USENIX Security 2021 showed training-data extraction from GPT-2USENIX Security 2021 visade extraktion av träningsdata från GPT-2

Prompt injection matured from concept to robust offensive techniquePrompt injection gick från koncept till robust offensiv teknik

2023 to 2025 benchmarks showed reliable policy bypass and exfiltration behaviorBenchmarks 2023 till 2025 visade pålitlig policy-kringgång och exfiltration

RAG and tool-integrated systems became major enterprise leakage surfacesRAG- och verktygsintegrerade system blev stora risker för läckage av företagsinformation

By 2024 to 2025 the highest business risk shifted to production retrieval and action pathsSenast 2024 till 2025 flyttade den högsta affärsrisken till produktionsflöden för retrieval och åtgärder

Path 1: training-data extractionVäg 1: extraktion av träningsdata

NATURALNATURLIG

TECHNICALTEKNISK

Rare and repeated strings are most likely to leak verbatimSällsynta och upprepade strängar läcker oftast ordagrant

Low-entropy or duplicated sequences create stronger memorization tracesLåg entropi och duplicerade sekvenser skapar starkare memoriseringsspår

Attackers do not always need deep internal accessAngripare behöver inte alltid djup intern åtkomst

Black-box querying can still recover memorized fragments under the right conditionsBlack-box-frågor kan fortfarande extrahera memoriserade fragment under rätt förhållanden

Fine-tuning on sensitive corpora can increase leakage pressureFine-tuning på känsliga korpusar kan öka läckagetrycket

Data mix, duplication, and objective design influence memorization behaviorDatamix, duplicering och objective-design påverkar memoriseringsbeteende

Privacy claims require adversarial validationIntegritetsanspråk kräver adversariell validering

Run extraction probes before release and on every significant model changeKör extraktionsprober före release och vid varje större modellförändring

Path 2: membership inferenceVäg 2: membership inference

NATURALNATURLIG

TECHNICALTEKNISK

The attacker goal is to infer whether a specific record was in trainingAngriparens mål är att avgöra om en viss post fanns i träningen

This can expose sensitive participation in private datasets even without verbatim outputDet kan avslöja känsligt deltagande i privata dataset även utan ordagrann output

Impact is high in regulated and high-trust domainsPåverkan är hög i reglerade och förtroendekritiska domäner

Healthcare, legal, HR, and government contexts can face compliance and legal consequencesSjukvård, juridik, HR och offentlig sektor kan få regelefterlevnads- och rättsliga konsekvenser

Risk varies by model, data, and deployment surfaceRisken varierar med modell, data och deploy-yta

Fine-tuning strategy, access pattern, and output controls strongly affect attack successFine-tuning-strategi, åtkomstmönster och output-kontroller påverkar attackutfall starkt

You need empirical testing per deploymentEmpirisk testning krävs per deployment

There is no universal safe threshold transferable across environmentsDet finns ingen universell säker tröskel som kan flyttas mellan miljöer

Path 3: prompt injection (direct and indirect)Väg 3: prompt injection (direkt och indirekt)

NATURALNATURLIG

TECHNICALTEKNISK

Direct injection comes from attacker-crafted user inputDirekt injection kommer från angriparskapad användarinput

Malicious instructions compete with system and policy instructions in the same channelSkadliga instruktioner konkurrerar med system- och policyinstruktioner i samma kanal

Indirect injection hides inside ingested contentIndirekt injection göms i ingestat innehåll

Documents, webpages, tickets, and email can smuggle instructions into retrieval contextDokument, webbsidor, ärenden och e-post kan smuggla instruktioner till sökkontext

Root cause is ambiguous instruction-data separationRotorsaken är tvetydig separation mellan instruktion och data

LLM parsing does not provide deterministic trust boundaries by defaultLLM-parsning ger inte deterministiska tillitsgränser som standard

Operational effect is policy bypass and data disclosureOperativ effekt är policy-kringgång och dataexponering

Unchecked injection can trigger unsafe tool calls, over-retrieval, and silent exfiltrationOkontrollerad injection kan trigga osäkra verktygsanrop, över-retrieval och tyst exfiltration

Path 4: RAG leakageVäg 4: RAG-läckage

NATURALNATURLIG

TECHNICALTEKNISK

RAG turns private corpora into live query contextRAG gör privata korpusar till levande frågekontekst

Authorization mistakes at retrieval time expose content outside intended audienceBehörighetsfel vid retrieval exponerar innehåll utanför avsedd målgrupp

Prompt pressure can induce selective over-disclosurePrompt-tryck kan orsaka selektiv överexponering

Even when direct quoting is blocked, semantic leakage can still occur through paraphraseÄven när direkt citering blockeras kan semantiskt läckage uppstå via parafras

String filters alone are not enoughSträngfilter räcker inte ensamma

Attackers can reframe intent to bypass literal pattern matchingAngripare kan omformulera avsikter för att kringgå bokstavlig mönstermatchning

Retrieval ACL and provenance are core controlsRetrieval-ACL och proveniens är centrala kontroller

Enforce per-document and per-chunk authorization with traceable source attributionTillämpa behörighet per dokument och per chunk med spårbar källattribuering

Path 5: tool and agent exfiltrationVäg 5: exfiltration via verktyg och agenter

NATURALNATURLIG

TECHNICALTEKNISK

Tool access converts model influence into real-world actionsVerktygsåtkomst omvandlar modellpåverkan till verkliga åtgärder

Any tool with network, file, or transaction scope can become an exfil channelAlla verktyg med nät-, fil- eller transaktionsscope kan bli en exfiltrationskanal

Unscoped tools dramatically increase blast radiusOavgränsade verktyg ökar spridningsradien kraftigt

Missing constraints allow model-driven data movement outside approved boundariesSaknade begränsningar möjliggör modelldriven dataflytt utanför godkända gränser

Models should propose actions, not enforce policyModeller ska föreslå åtgärder, inte verkställa policy

Deterministic policy engines must validate schema, identity, and destination before executionDeterministiska policymotorer måste validera schema, identitet och destination före exekvering

Auditability is part of containmentSpårbarhet är en del av begränsning

Maintain full logs for tool intent, parameters, approvals, and outcomesBehåll fulla loggar för verktygsavsikt, parametrar, godkännanden och utfall

Output handling is part of confidentialityHantering av output är en del av konfidentialitet

NATURALNATURLIG

TECHNICALTEKNISK

Treat model output as untrusted until validatedBehandla modelloutput som opålitlig tills den validerats

Unsafe output can carry hidden instructions, tainted data, or exploit payloadsOsäker output kan bära dolda instruktioner, kontaminerad data eller exploateringspayloads

Render and execution layers can transform leakage into compromiseRender- och exekveringslager kan omvandla läckage till kompromettering

SQL, shell, template, browser, and parser boundaries need explicit sanitization policiesGränser för SQL, shell, mallar, browser och parser kräver explicit sanitiseringspolicy

Protect downstream systems from model-side uncertaintySkydda nedströms system från osäkerhet på modellsidan

Validate, normalize, and constrain outputs before storage, routing, or executionValidera, normalisera och begränsa output före lagring, routing eller exekvering

Confidentiality controls fail if unsafe output is trusted by defaultKonfidentialitetskontroller faller om osäker output litas på som standard

Add mandatory guardrails at every output handoff boundaryLägg in obligatoriska guardrails vid varje överlämningsgräns för output

Control pillar 1: minimize and compartmentalizeKontrollpelare 1: minimera och compartmentalisera

NATURALNATURLIG

TECHNICALTEKNISK

Keep secrets out of prompts by defaultHåll hemligheter borta från promptar som standard

Use scoped retrieval and just-in-time access instead of broad context injectionAnvänd avgränsad retrieval och just-in-time-åtkomst i stället för bred kontextinjektion

Use short-lived, narrowly scoped credentialsAnvänd kortlivade och snävt avgränsade behörigheter

Limit lateral movement by rotating and constraining token capabilitiesBegränsa lateral rörelse genom att rotera och begränsa token-kapabiliteter

Segment contexts by identity and taskSegmentera kontexter efter identitet och uppgift

Isolate sessions, memory, and retrieval indexes across users and workflowsIsolera sessioner, minne och retrieval-index mellan användare och arbetsflöden

Reduce unnecessary metadata exposureMinska onödig metadataexponering

Confidence, timing, and verbose traces can become attacker signal amplification vectorsKonfidens, timing och detaljerade spår kan bli förstärkare för angriparsignaler

Control pillar 2: enforce policy outside the modelKontrollpelare 2: verkställ policy utanför modellen

NATURALNATURLIG

TECHNICALTEKNISK

Authorize retrieval at document and chunk levelAuktorisera retrieval på dokument- och chunknivå

Bind access decisions to user identity, role, and request contextBind åtkomstbeslut till användaridentitet, roll och förfrågningskontext

Use strict contracts for tool callsAnvänd strikta kontrakt för verktygsanrop

Require schema validation, policy checks, and destination allowlists before executionKräv schemavalidering, policykontroller och destinationsallowlists före exekvering

Control egress for network and connectorsKontrollera utgående trafik för nätverk och kopplingar

Restrict outbound paths to approved domains, APIs, and data classesBegränsa utgående vägar till godkända domäner, API:er och dataklasser

Gate high-impact actions with human approvalGranska åtgärder med hög påverkan med mänskligt godkännande

Human-in-the-loop reduces catastrophic mis-execution when confidence is low or impact is highHuman-in-the-loop minskar katastrofala felkörningar när tilliten är låg eller påverkan är hög

Control pillar 3: measure leakage continuouslyKontrollpelare 3: mät läckage kontinuerligt

NATURALNATURLIG

TECHNICALTEKNISK

Run pre-release extraction and membership probesKör extraktions- och membership-prober före release

Security validation should mirror attacker methods, not only unit testsSäkerhetsvalidering ska spegla angriparmetoder, inte bara enhetstester

Continuously red-team prompt injection and tool misuseRed-teama kontinuerligt prompt injection och verktygsmissbruk

Scenario-based testing catches regressions introduced by model or policy updatesScenariobaserad testning fångar regressioner från modell- eller policyuppdateringar

Tie release gates to measurable thresholdsKnyt releasegrindar till mätbara trösklar

Fail builds when leakage, bypass, or policy-violation rates exceed policy limitsStoppa builds när läckage-, kringgångs- eller policybrottsnivåer överstiger policygränser

Monitor runtime anomalies in retrieval, tools, and actionsÖvervaka runtime-avvikelser i retrieval, verktyg och åtgärder

Detection engineering must track drift, burst patterns, and unusual data access chainsDetektionsdesign måste följa drift, burstmönster och ovanliga dataåtkomstkedjor

Operational checklist (next sprint)Operativ checklista (nästa sprint)

NATURALNATURLIG

TECHNICALTEKNISK

Map sensitive data flows end-to-endKartlägg känsliga dataflöden från början till slut

Document prompts, retrieval sources, tools, outputs, logs, and storage boundariesDokumentera promptar, retrieval-källor, verktyg, output, loggar och lagringsgränser

Define attacker model and abuse cases explicitlyDefiniera angriparmodell och missbruksscenarier explicit

Prioritize cases by impact, likelihood, and detectability for actionable mitigation planningPrioritera fall efter påverkan, sannolikhet och upptäckbarhet för handlingsbar mitigering

Implement retrieval ACL, provenance, and tool policy enforcementImplementera retrieval-ACL, proveniens och verktygspolicy-verkställning

Make controls deterministic and centrally testable across all agent workflowsGör kontroller deterministiska och centralt testbara över alla agentarbetsflöden

Stand up benchmark-driven security tests in CIEtablera benchmarkdrivna säkerhetstester i CI

Automate extraction, injection, and exfil test suites as release criteriaAutomatisera testsviter för extraktion, injection och exfiltration som releasekriterier

Create incident response playbooks for leakage eventsSkapa incident playbooks för läckagehändelser

Define triage, containment, communication, and recovery paths before incidents occurDefiniera triage, begränsning, kommunikation och återställning innan incidenter inträffar

Q&A prompt setFrågebank för Q&A

Where is your highest-value sensitive context today?Var finns er mest värdefulla känsliga kontext idag?
Which controls in your stack are deterministic versus best-effort?Vilka kontroller i er stack är deterministiska respektive best-effort?
What leakage metric can you start reporting monthly?Vilket läckagemått kan ni börja rapportera månadsvis?

Closing askAvslutande uppmaning

Ship evidence, not assurancesLeverera evidens, inte försäkringar

Treat leakage as a measurable reliability and security property.Behandla läckage som en mätbar egenskap för tillförlitlighet och säkerhet.

AISecurityLiteracy.dev

LLM Provider Local (WebLLM) Remote

Knowledge Base Local (in-browser) Remote

System Prompt Temperature 0.7 Max Iterations 10

Enable persistent memory Require approval for shell commands

API key stored locally, sent only to selected provider.

LLM Information LeakageInformationsläckage i LLM-system

Why leakage is the default failure modeVarför läckage är det vanligaste felläget

Leakage taxonomy for LLM applicationsTaxonomi för läckage i LLM-applikationer

Threat model (concrete, testable)Hotmodell (konkret och testbar)

Repeatable leakage chainRepeterbar läckagekedja

Evidence timeline (selected)Tidslinje för bevis (urval)

Path 1: training-data extractionVäg 1: extraktion av träningsdata

Path 2: membership inferenceVäg 2: membership inference

Path 3: prompt injection (direct and indirect)Väg 3: prompt injection (direkt och indirekt)

Path 4: RAG leakageVäg 4: RAG-läckage

Path 5: tool and agent exfiltrationVäg 5: exfiltration via verktyg och agenter

Output handling is part of confidentialityHantering av output är en del av konfidentialitet

Control pillar 1: minimize and compartmentalizeKontrollpelare 1: minimera och compartmentalisera

Control pillar 2: enforce policy outside the modelKontrollpelare 2: verkställ policy utanför modellen

Control pillar 3: measure leakage continuouslyKontrollpelare 3: mät läckage kontinuerligt

Operational checklist (next sprint)Operativ checklista (nästa sprint)

Further reading and implementation referencesFördjupning och implementationsreferenser

Q&A prompt setFrågebank för Q&A

Ship evidence, not assurancesLeverera evidens, inte försäkringar

Agent Settings

LLM Information LeakageInformationsläckage i LLM-system

Why leakage is the default failure modeVarför läckage är det vanligaste felläget

Leakage taxonomy for LLM applicationsTaxonomi för läckage i LLM-applikationer

Threat model (concrete, testable)Hotmodell (konkret och testbar)

Repeatable leakage chainRepeterbar läckagekedja

Evidence timeline (selected)Tidslinje för bevis (urval)

Path 1: training-data extractionVäg 1: extraktion av träningsdata

Path 2: membership inferenceVäg 2: membership inference

Path 3: prompt injection (direct and indirect)Väg 3: prompt injection (direkt och indirekt)

Path 4: RAG leakageVäg 4: RAG-läckage

Path 5: tool and agent exfiltrationVäg 5: exfiltration via verktyg och agenter

Output handling is part of confidentialityHantering av output är en del av konfidentialitet

Control pillar 1: minimize and compartmentalizeKontrollpelare 1: minimera och compartmentalisera

Control pillar 2: enforce policy outside the modelKontrollpelare 2: verkställ policy utanför modellen

Control pillar 3: measure leakage continuouslyKontrollpelare 3: mät läckage kontinuerligt

Operational checklist (next sprint)Operativ checklista (nästa sprint)

Further reading and implementation referencesFördjupning och implementationsreferenser

Q&A prompt setFrågebank för Q&A

Ship evidence, not assurancesLeverera evidens, inte försäkringar

Security Warning

Agent Settings