AI Security Literacy · 2 March 2026AI Security Literacy · 2 mars 2026

Information Leakage Through Shared HardwareInformationsläckage via delad hårdvara

Deep dive: multi-tenant GPU/accelerator risk for LLM workloadsFördjupning: risker i delad GPU/accelerator-miljö för LLM-workloads

Krister Hedfors

Why this matters nowVarför detta är viktigt nu

NATURALNATURLIG

TECHNICALTEKNISK

Most teams now run AI workloads on infrastructure shared with other customersDe flesta team kör nu AI workloads på infrastruktur som delas med andra kunder

Schedulers co-locate unrelated tenants on the same accelerators, hosts, and fabricsSchemaläggare samplacerar orelaterade tenants på samma acceleratorer, värdar och nät

The risk has moved from theory to repeatable demonstrationsRisken har gått från teori till upprepbara demonstrationer

Research from 2018 to early 2026 showed practical leakage paths across multiple vendorsForskning från 2018 till början av 2026 visade praktiska läckagevägar hos flera leverantörer

Real business impact is possible, not just minor telemetry exposureReell affärspåverkan är möjlig, inte bara begränsad telemetri-exponering

Published results include response reconstruction, model extraction signals, and memory corruptionPublicerade resultat inkluderar rekonstruktion av svar, signaler för modelextraktion och minneskorruption

Where you place workloads is a core security controlVar workloads placeras är en central säkerhetskontroll

Tenancy choices define blast radius alongside app controls, IAM, and network policyVal av tenancy avgör spridningsradien tillsammans med appkontroller, IAM och nätverkspolicy

Scope of this deep diveOmfattning för denna fördjupning

Primary focusPrimärt fokus

Cross-tenant leakage and integrity risk in shared GPU and accelerator environmentsCross-tenant-läckage och integritetsrisk i delade GPU- och accelerator-miljöer

Environment modelMiljömodell

MIG or vGPU partitionsMIG- eller vGPU-partitioner
Containerized inference stacksContaineriserade inference-stackar
Multi-GPU nodes with shared interconnectMulti-GPU-noder med delad interconnect
RDMA-connected clustersRDMA-anslutna kluster

Channel families coveredKanalfamiljer som täcks

Memory residue and allocator reuseMinnesrester och återanvändning i allocator
Cache and timing side channelsCache- och timing-sidokanaler
Interconnect and bus contention channelsInterconnect- och busskontentionskanaler
Control-plane and runtime escape pathsControl-plane- och runtime-escape-vägar

OutcomeUtfall

Practical, evidence-based isolation decisions for sensitive LLM workloadsPraktiska, evidensbaserade beslut om isolering för känsliga LLM-workloads

Shared-hardware attacker modelAngriparmodell för delad hårdvara

NATURALNATURLIG

TECHNICALTEKNISK

An attacker does not need to break into your app to start creating riskEn angripare behöver inte bryta sig in i appen för att börja skapa risk

Sharing any physical boundary (GPU, host, interconnect, or switch) can be enoughDet kan räcka att dela en fysisk gräns (GPU, host, interconnect eller switch)

Attackers can start simple and scale up if defenses are weakAngripare kan börja enkelt och skala upp om skydden är svaga

Capability ranges from lightweight probes to side-channel measurement, runtime escape, and bus observationKapaciteten sträcker sig från lätta prober till sidokanalmätning, runtime-escape och bussobservation

The exposed data can include both business content and model internalsExponerad data kan omfatta både affärsinnehåll och modellinterna delar

At risk are prompts, outputs, KV artifacts, weights, model fingerprints, and runtime metadataI riskzonen finns prompts, outputs, KV artifacts, weights, modellfingeravtryck och runtime-metadata

This is an operations problem, not only a lab curiosityDetta är ett operationsproblem, inte bara en labbkuriositet

Several demonstrations crossed VM and tenant boundaries in realistic multi-tenant setupsFlera demonstrationer korsade VM- och tenant-gränser i realistiska multi-tenant-upplägg

Hardware leakage taxonomyTaxonomi för hårdvaruläckage

NATURALNATURLIG

TECHNICALTEKNISK

Data can leak when memory is reused without safe cleanupData kan läcka när minne återanvänds utan säker rensning

Uninitialized local or global memory can retain prior-tenant residueOinitialiserat lokalt eller globalt minne kan behålla rester från tidigare tenant

Timing differences can reveal what another workload is doingTiming-skillnader kan avslöja vad en annan workload gör

TLB and cache contention encode victim behavior into measurable latency patternsTLB- och cache-kontention kodar offrets beteende i mätbara latensmönster

Shared links between GPUs can disclose workload behaviorDelade länkar mellan GPU:er kan avslöja workload-beteende

NVLink and PCIe contention can reveal patterns and, in some setups, model internalsNVLink- och PCIe-kontention kan avslöja mönster och i vissa upplägg modellinterna delar

Platform plumbing can bypass expected boundariesPlattformens plumbing kan kringgå förväntade gränser

RDMA key handling or runtime escape can collapse intended tenant isolationRDMA-nyckelhantering eller runtime-escape kan slå ut avsedd tenant-isolering

Evidence timeline (selected)Tidslinje för bevis (urval)

NATURALNATURLIG

TECHNICALTEKNISK

Early work proved that GPU memory residue can cross process boundariesTidigt arbete visade att GPU-minnesrester kan korsa processgränser

2013 to 2016 CUDA and remanence research established practical recovery pathsForskning 2013 till 2016 om CUDA och remanens etablerade praktiska återhämtningsvägar

Side-channel research then matured into usable attack methodsSidokanalsforskningen mognade därefter till användbara attackmetoder

2018 to 2023 studies demonstrated covert channels and workload fingerprintingStudier 2018 till 2023 demonstrerade covert channels och workload-fingerprinting

Recent disclosures broadened the attack surface for cloud inference stacksNya disclosures breddade attackytan för cloud inference-stackar

2024 to 2025 exposed LeftoverLocals, MIG bypasses, toolkit escapes, and NVLink channelsÅren 2024 till 2025 exponerade LeftoverLocals, MIG-förbikopplingar, toolkit-escapes och NVLink-kanaler

Integrity attacks are now part of the discussion, not just confidentialityIntegritetsattacker är nu en del av diskussionen, inte bara konfidentialitet

2025 GPUHammer demonstrated rowhammer-style corruption on discrete GPU memoryGPUHammer 2025 visade rowhammer-lik korruption i diskret GPU-minne

Case study: LeftoverLocals (2024)Fallstudie: LeftoverLocals (2024)

NATURALNATURLIG

TECHNICALTEKNISK

Some GPU memory was reused without being fully cleared firstViss GPU-minne återanvändes utan att först rensas helt

CVE-2023-4969 exposed non-zeroed local memory across kernel boundariesCVE-2023-4969 exponerade icke-nollat lokalt minne över kernel-gränser

The issue affected several major hardware ecosystemsProblemet påverkade flera större hårdvaruekosystem

Reported impact included AMD, Apple, Qualcomm, and Imagination stacksRapporterad påverkan inkluderade stackar från AMD, Apple, Qualcomm och Imagination

Exploitation did not require large or exotic toolingExploatering krävde inte stor eller exotisk tooling

Trail of Bits recovered data with a compact OpenCL probeTrail of Bits återfann data med en kompakt OpenCL-prob

Default assumptions are unsafe without testingStandardantaganden är osäkra utan testning

Memory scrubbing behavior must be validated per platform and driver versionMemory scrubbing-beteende måste valideras per plattform och drivrutinsversion

Case study: MIG and partition bypassesFallstudie: MIG och partitionsförbikopplingar

NATURALNATURLIG

TECHNICALTEKNISK

Many teams treat MIG as full tenant isolationMånga team ser MIG som full tenant-isolering

In practice, some resources remain shared even with partitions enabledI praktiken förblir vissa resurser delade även när partitioner är aktiverade

Covert communication was shown across partition boundariesCovert communication visades över partitionsgränser

TunneLs for Bootlegging used shared last-level TLB behaviorTunneLs for Bootlegging använde delat beteende i last-level TLB

Follow-on work expanded what can still be sharedUppföljande arbete breddade vad som fortfarande kan vara delat

Veiled Pathways identified additional engines and contention surfacesVeiled Pathways identifierade ytterligare engines och kontentionsytor

MIG is risk reduction, not a final control for crown-jewel dataMIG är riskreduktion, inte en slutlig kontroll för crown-jewel-data

Highest-sensitivity workloads still need stronger tenancy boundariesWorkloads med högst känslighet behöver fortfarande starkare tenancy-gränser

Case study: NVLink and PCIe leakageFallstudie: NVLink- och PCIe-läckage

NATURALNATURLIG

TECHNICALTEKNISK

Shared GPU interconnects can leak what neighboring workloads are doingDelade GPU-interconnects kan läcka vad närliggande workloads gör

NVBleed and related work extracted workload signals and application fingerprintsNVBleed och relaterat arbete extraherade workload-signaler och applikationsfingeravtryck

Cache behavior can be measured across execution contextsCache-beteende kan mätas över exekveringskontexter

Spy in the GPU-box demonstrated Prime+Probe-style cross-context leakageSpy in the GPU-box demonstrerade Prime+Probe-liknande läckage mellan kontexter

Bus-level observation can reveal model information in tested setupsObservation på bussnivå kan avslöja modellinformation i testade upplägg

Hermes-style PCIe snooping reconstructed structure and parameter dataHermes-lik PCIe snooping rekonstruerade struktur- och parameterdata

Encrypting traffic is necessary but not sufficientAtt kryptera trafik är nödvändigt men inte tillräckligt

Timing and contention side channels remain even when payloads are encryptedTiming- och kontentions-sidokanaler kvarstår även när payloads är krypterade

Where leakage appears in serving stacksVar läckage uppstår i serving-stackar

NATURALNATURLIG

TECHNICALTEKNISK

Leakage risk appears at multiple layers of the serving systemLäckagerisk uppstår i flera lager av serving-systemet

It is rarely just one isolated bugDet är sällan bara en isolerad bugg

Application-level runtime behavior can preserve recoverable tracesRuntime-beteende på applikationsnivå kan bevara återvinningsbara spår

KV cache reuse, allocators, and batching pipelines affect exposureÅteranvändning av KV cache, allocators och batching-pipelines påverkar exponeringen

Hardware and interconnect design create measurable shared signalsDesign av hårdvara och interconnect skapar mätbara delade signaler

Controllers, counters, NVLink/NVSwitch, PCIe, RDMA, and GPUDirect all matterControllers, counters, NVLink/NVSwitch, PCIe, RDMA och GPUDirect spelar alla roll

Control-plane policy decides who can end up adjacent to whomPolicy i control-plane avgör vilka som kan hamna bredvid varandra

Runtime hooks, vGPU manager settings, and placement logic define real isolationRuntime hooks, inställningar i vGPU manager och placeringslogik definierar faktisk isolering

Cloud assumptions vs engineering realityMolnantaganden kontra ingenjörsmässig verklighet

NATURALNATURLIG

TECHNICALTEKNISK

"Our containers isolate us from neighbors" is often overstated"Våra containers isolerar oss från grannar" är ofta överdrivet

CVE-2024-0132 and CVE-2025-23266 showed practical runtime and container escape impactCVE-2024-0132 och CVE-2025-23266 visade praktisk påverkan från runtime- och container-escape

"MIG fully separates tenants" is not always true in practice"MIG separerar tenants fullt ut" är inte alltid sant i praktiken

Shared resources still enable covert channels under realistic co-tenant conditionsDelade resurser möjliggör fortfarande covert channels under realistiska co-tenant-förhållanden

"Confidential GPU features eliminate the problem" is incomplete"Confidential GPU-funktioner eliminerar problemet" är en ofullständig bild

They help, but still depend on firmware trust and verified end-to-end attestationDe hjälper, men är fortfarande beroende av firmware-förtroende och verifierad end-to-end-attestering

"The cloud provider owns all of this risk" is the wrong operating model"Cloud-providern äger hela risken" är fel operationsmodell

Customers still own workload classification, tenancy policy, and assurance evidenceKunder äger fortfarande workload-klassificering, tenancy-policy och verifieringsunderlag

Isolation strategy by sensitivityIsoleringsstrategi efter känslighetsnivå

NATURALNATURLIG

TECHNICALTEKNISK

Lower-sensitivity workloads can usually stay on shared pools with guardrailsWorkloads med lägre känslighet kan oftast ligga kvar i delade pooler med guardrails

Tier 1 uses shared GPUs plus baseline hardening and rapid patch governanceTier 1 använder delade GPU:er plus grundläggande hardening och snabb patchstyrning

Confidential workloads need stronger partitioning and monitoringConfidential workloads behöver starkare partitionering och övervakning

Tier 2 adds partition controls, reduced observability surfaces, and recurring leakage testsTier 2 lägger till partitionskontroller, reducerade observability-ytor och återkommande läckagetester

Regulated workloads should avoid casual co-tenancyReglerade workloads bör undvika informell co-tenancy

Tier 3 requires dedicated accelerator tenancy and constrained runtime exposure by policyTier 3 kräver dedikerad accelerator-tenancy och begränsad runtime-exponering via policy

Crown-jewel workloads should remove untrusted neighbors entirelyCrown-jewel-workloads bör helt eliminera opålitliga grannar

Tier 4 uses dedicated hosts and accelerators with no untrusted co-tenancyTier 4 använder dedikerade hosts och acceleratorer utan opålitlig co-tenancy

Hardening controls: memory and executionHärdningskontroller: minne och exekvering

NATURALNATURLIG

TECHNICALTEKNISK

Start by treating memory lifecycle hygiene as mandatory, not optionalBörja med att göra memory lifecycle-hygien obligatorisk, inte valfri

Require tested zeroing on teardown and context transitionsKräv testad nollställning vid teardown och context transitions

Reduce the amount of side-channel signal exposed by defaultMinska mängden sidokanalssignal som exponeras som standard

Disable or tightly scope counters, debug APIs, and nonessential shared enginesInaktivera eller begränsa counters, debug-API:er och icke-nödvändiga delade engines

Add integrity safeguards where the platform supports themLägg till integritetsskydd där plattformen stödjer det

Enable ECC and alert on corruption or instability anomaliesAktivera ECC och larma vid korruptions- eller instabilitetsavvikelser

Keep high-value workloads away from unknown or untrusted neighborsHåll högvärdiga workloads borta från okända eller opålitliga grannar

Enforce placement controls across accelerator pools and schedulersTillämpa placeringskontroller över acceleratorpooler och schedulers

Hardening controls: orchestration and policyHärdningskontroller: orkestrering och policy

NATURALNATURLIG

TECHNICALTEKNISK

Governance has to include the GPU software stack, not just applicationsGovernance måste omfatta GPU-mjukvarustacken, inte bara applikationer

Prioritize toolkit, vGPU manager, driver, and host runtime CVEsPrioritera CVE:er i toolkit, vGPU manager, drivrutin och host runtime

Workload sensitivity should directly drive where jobs may runWorkload-känslighet ska direkt styra var jobb får köras

Tie data classification to approved tenancy and partition profilesKnyt dataklassificering till godkända tenancy- och partitionsprofiler

Provider claims should be validated with evidencePåståenden från provider ska valideras med evidens

Request proof for scrubbing behavior, counter policy, and attestation workflowBegär bevis för scrubbing-beteende, counter-policy och attestationsflöde

When evidence is weak, move critical workloads to stronger isolationNär evidensen är svag, flytta kritiska workloads till starkare isolering

Escalate exceptions to dedicated tenancy by policyEskalera undantag till dedikerad tenancy enligt policy

Detection and assurance programProgram för detektion och verifiering

NATURALNATURLIG

TECHNICALTEKNISK

Detection programs should explicitly include co-tenant abuse scenariosDetektionsprogram bör uttryckligen inkludera scenarier med co-tenant-missbruk

Red-team residue, contention, breakout, and bus-observation casesRed-team-fall för rester, kontention, breakout och bussobservation

Observability should watch for cross-tenant leakage signalsObservability bör övervaka signaler för cross-tenant-läckage

Track contention anomalies, timing drift, and privilege-boundary changesFölj avvikelser i kontention, timing-drift och förändringar i privilegiegränser

Patch state must be continuously verified, not assumedPatch-läge måste verifieras kontinuerligt, inte antas

Validate driver, toolkit, vGPU manager, and firmware dependenciesValidera beroenden i drivrutin, toolkit, vGPU manager och firmware

Promotion gates should include leakage canariesPromotionsgrindar bör inkludera läckage-canaries

Run boundary tests after infrastructure changes and before production rolloutKör gränstester efter infrastrukturförändringar och före produktionsutrullning

Next sprint checklistChecklista för nästa sprint

NATURALNATURLIG

TECHNICALTEKNISK

First, create a real map of where sensitive AI workloads currently runBörja med att skapa en verklig karta över var känsliga AI-workloads körs idag

Inventory shared, partitioned, and dedicated accelerator poolsInventera delade, partitionerade och dedikerade acceleratorpooler

Then close the highest-risk known weaknesses quicklyStäng sedan de kända svagheterna med högst risk snabbt

Patch priority runtime and orchestration CVEs and verify mitigation efficacyPatcha prioriterade CVE:er i runtime och orkestrering och verifiera mitigeringseffekt

Validate that boundary controls work in your own environmentValidera att gränskontroller fungerar i den egna miljön

Test memory clearing, counter exposure limits, and cross-tenant isolation behaviorTesta minnesrensning, gränser för counter-exponering och beteende för cross-tenant-isolering

Convert decisions into enforceable platform rulesOmvandla beslut till verkställbara plattformsregler

Implement policy-as-code that maps sensitivity tiers to allowed tenancy classesImplementera policy-as-code som mappar känslighetsnivåer till tillåtna tenancy-klasser

Core technical referencesCentrala tekniska referenser

LeftoverLocals (Trail of Bits, 2024)LeftoverLocals (Trail of Bits, 2024): https://blog.trailofbits.com/2024/01/16/leftoverlocals-listening-to-llm-responses-through-leaked-gpu-local-memory/
TunneLs for Bootlegging (ACM CCS 2023)TunneLs for Bootlegging (ACM CCS 2023): https://dl.acm.org/doi/10.1145/3576915.3623135
NVBleed (arXiv, 2025)NVBleed (arXiv, 2025): https://arxiv.org/abs/2503.07053
Spy in the GPU-box (ISCA 2023)Spy in the GPU-box (ISCA 2023): https://arxiv.org/abs/2203.15981
Deep-dive source PDF for this deckFördjupnings-PDF för denna deck: Information Leakage Through Shared GPU ...nters_ A Comprehensive Threat Analysis.pdf

Vendor guidance and standardsLeverantörsvägledning och standarder

AMD mitigation bulletinAMD:s åtgärdsbulletin: https://www.amd.com/en/resources/product-security/bulletin/amd-sb-7008.html
NVIDIA MIG documentationNVIDIA MIG-dokumentation: https://docs.nvidia.com/datacenter/tesla/mig-user-guide/
NVIDIA GPUHammer mitigation noticeNVIDIA GPUHammer-åtgärdsnotis: https://nvidia.custhelp.com/app/answers/detail/a_id/5671
NIST AI RMF and GenAI profileNIST AI RMF och GenAI-profil: https://www.nist.gov/itl/ai-risk-management-framework
OWASP LLM Top 10 (LLM02)OWASP LLM Top 10 (LLM02): https://genai.owasp.org/llm-top-10/

Q&A prompt setFrågebank för Q&A

Current state: Which Tier 3 or Tier 4 workloads still run in shared accelerator pools?Nuvarande läge: Vilka Tier 3- eller Tier 4-workloads kör fortfarande i delade acceleratorpooler?
Evidence state: What tested proof do we have for scrub, counter, and breakout controls on our current stack?Evidensläge: Vilket testat bevis har vi för scrub-, counter- och breakout-kontroller i vår nuvarande stack?
Decision state: Which workloads should move first to dedicated tenancy this quarter?Beslutsläge: Vilka workloads bör flyttas först till dedikerad tenancy detta kvartal?

Closing askAvslutande uppmaning

Treat accelerator tenancy as a security controlBehandla accelerator-tenancy som en säkerhetskontroll

For sensitive AI workloads, dedicated tenancy remains the only architecture that removes cross-tenant leakage risk.För känsliga AI-workloads är dedikerad tenancy fortsatt den enda arkitektur som eliminerar risken för cross-tenant-läckage.

AISecurityLiteracy.dev

LLM Provider Local (WebLLM) Remote

Knowledge Base Local (in-browser) Remote

System Prompt Temperature 0.7 Max Iterations 10

Enable persistent memory Require approval for shell commands

API key stored locally, sent only to selected provider.

Information Leakage Through Shared HardwareInformationsläckage via delad hårdvara

Why this matters nowVarför detta är viktigt nu

Scope of this deep diveOmfattning för denna fördjupning

Shared-hardware attacker modelAngriparmodell för delad hårdvara

Hardware leakage taxonomyTaxonomi för hårdvaruläckage

Evidence timeline (selected)Tidslinje för bevis (urval)

Case study: LeftoverLocals (2024)Fallstudie: LeftoverLocals (2024)

Case study: MIG and partition bypassesFallstudie: MIG och partitionsförbikopplingar

Case study: NVLink and PCIe leakageFallstudie: NVLink- och PCIe-läckage

Where leakage appears in serving stacksVar läckage uppstår i serving-stackar

Cloud assumptions vs engineering realityMolnantaganden kontra ingenjörsmässig verklighet

Isolation strategy by sensitivityIsoleringsstrategi efter känslighetsnivå

Hardening controls: memory and executionHärdningskontroller: minne och exekvering

Hardening controls: orchestration and policyHärdningskontroller: orkestrering och policy

Detection and assurance programProgram för detektion och verifiering

Next sprint checklistChecklista för nästa sprint

Core technical referencesCentrala tekniska referenser

Vendor guidance and standardsLeverantörsvägledning och standarder

Q&A prompt setFrågebank för Q&A

Treat accelerator tenancy as a security controlBehandla accelerator-tenancy som en säkerhetskontroll

Security Warning

Agent Settings