AI Security Literacy · 2 March 2026AI Security Literacy · 2 mars 2026

Information Leakage Through Shared HardwareInformationsläckage via delad hårdvara

Deep dive: multi-tenant GPU/accelerator risk for LLM workloadsFördjupning: risker i delad GPU/accelerator-miljö för LLM-workloads

Krister Hedfors

Krister Hedfors

Why this matters nowVarför detta är viktigt nu

NATURALNATURLIG
TECHNICALTEKNISK
Most teams now run AI workloads on infrastructure shared with other customersDe flesta team kör nu AI workloads på infrastruktur som delas med andra kunder
Schedulers co-locate unrelated tenants on the same accelerators, hosts, and fabricsSchemaläggare samplacerar orelaterade tenants på samma acceleratorer, värdar och nät
The risk has moved from theory to repeatable demonstrationsRisken har gått från teori till upprepbara demonstrationer
Research from 2018 to early 2026 showed practical leakage paths across multiple vendorsForskning från 2018 till början av 2026 visade praktiska läckagevägar hos flera leverantörer
Real business impact is possible, not just minor telemetry exposureReell affärspåverkan är möjlig, inte bara begränsad telemetri-exponering
Published results include response reconstruction, model extraction signals, and memory corruptionPublicerade resultat inkluderar rekonstruktion av svar, signaler för modelextraktion och minneskorruption
Where you place workloads is a core security controlVar workloads placeras är en central säkerhetskontroll
Tenancy choices define blast radius alongside app controls, IAM, and network policyVal av tenancy avgör spridningsradien tillsammans med appkontroller, IAM och nätverkspolicy

Scope of this deep diveOmfattning för denna fördjupning

Primary focusPrimärt fokus

Environment modelMiljömodell

Channel families coveredKanalfamiljer som täcks

OutcomeUtfall

Shared-hardware attacker modelAngriparmodell för delad hårdvara

NATURALNATURLIG
TECHNICALTEKNISK
An attacker does not need to break into your app to start creating riskEn angripare behöver inte bryta sig in i appen för att börja skapa risk
Sharing any physical boundary (GPU, host, interconnect, or switch) can be enoughDet kan räcka att dela en fysisk gräns (GPU, host, interconnect eller switch)
Attackers can start simple and scale up if defenses are weakAngripare kan börja enkelt och skala upp om skydden är svaga
Capability ranges from lightweight probes to side-channel measurement, runtime escape, and bus observationKapaciteten sträcker sig från lätta prober till sidokanalmätning, runtime-escape och bussobservation
The exposed data can include both business content and model internalsExponerad data kan omfatta både affärsinnehåll och modellinterna delar
At risk are prompts, outputs, KV artifacts, weights, model fingerprints, and runtime metadataI riskzonen finns prompts, outputs, KV artifacts, weights, modellfingeravtryck och runtime-metadata
This is an operations problem, not only a lab curiosityDetta är ett operationsproblem, inte bara en labbkuriositet
Several demonstrations crossed VM and tenant boundaries in realistic multi-tenant setupsFlera demonstrationer korsade VM- och tenant-gränser i realistiska multi-tenant-upplägg

Hardware leakage taxonomyTaxonomi för hårdvaruläckage

NATURALNATURLIG
TECHNICALTEKNISK
Data can leak when memory is reused without safe cleanupData kan läcka när minne återanvänds utan säker rensning
Uninitialized local or global memory can retain prior-tenant residueOinitialiserat lokalt eller globalt minne kan behålla rester från tidigare tenant
Timing differences can reveal what another workload is doingTiming-skillnader kan avslöja vad en annan workload gör
TLB and cache contention encode victim behavior into measurable latency patternsTLB- och cache-kontention kodar offrets beteende i mätbara latensmönster
Shared links between GPUs can disclose workload behaviorDelade länkar mellan GPU:er kan avslöja workload-beteende
NVLink and PCIe contention can reveal patterns and, in some setups, model internalsNVLink- och PCIe-kontention kan avslöja mönster och i vissa upplägg modellinterna delar
Platform plumbing can bypass expected boundariesPlattformens plumbing kan kringgå förväntade gränser
RDMA key handling or runtime escape can collapse intended tenant isolationRDMA-nyckelhantering eller runtime-escape kan slå ut avsedd tenant-isolering

Evidence timeline (selected)Tidslinje för bevis (urval)

NATURALNATURLIG
TECHNICALTEKNISK
Early work proved that GPU memory residue can cross process boundariesTidigt arbete visade att GPU-minnesrester kan korsa processgränser
2013 to 2016 CUDA and remanence research established practical recovery pathsForskning 2013 till 2016 om CUDA och remanens etablerade praktiska återhämtningsvägar
Side-channel research then matured into usable attack methodsSidokanalsforskningen mognade därefter till användbara attackmetoder
2018 to 2023 studies demonstrated covert channels and workload fingerprintingStudier 2018 till 2023 demonstrerade covert channels och workload-fingerprinting
Recent disclosures broadened the attack surface for cloud inference stacksNya disclosures breddade attackytan för cloud inference-stackar
2024 to 2025 exposed LeftoverLocals, MIG bypasses, toolkit escapes, and NVLink channelsÅren 2024 till 2025 exponerade LeftoverLocals, MIG-förbikopplingar, toolkit-escapes och NVLink-kanaler
Integrity attacks are now part of the discussion, not just confidentialityIntegritetsattacker är nu en del av diskussionen, inte bara konfidentialitet
2025 GPUHammer demonstrated rowhammer-style corruption on discrete GPU memoryGPUHammer 2025 visade rowhammer-lik korruption i diskret GPU-minne

Case study: LeftoverLocals (2024)Fallstudie: LeftoverLocals (2024)

NATURALNATURLIG
TECHNICALTEKNISK
Some GPU memory was reused without being fully cleared firstViss GPU-minne återanvändes utan att först rensas helt
CVE-2023-4969 exposed non-zeroed local memory across kernel boundariesCVE-2023-4969 exponerade icke-nollat lokalt minne över kernel-gränser
The issue affected several major hardware ecosystemsProblemet påverkade flera större hårdvaruekosystem
Reported impact included AMD, Apple, Qualcomm, and Imagination stacksRapporterad påverkan inkluderade stackar från AMD, Apple, Qualcomm och Imagination
Exploitation did not require large or exotic toolingExploatering krävde inte stor eller exotisk tooling
Trail of Bits recovered data with a compact OpenCL probeTrail of Bits återfann data med en kompakt OpenCL-prob
Default assumptions are unsafe without testingStandardantaganden är osäkra utan testning
Memory scrubbing behavior must be validated per platform and driver versionMemory scrubbing-beteende måste valideras per plattform och drivrutinsversion

Case study: MIG and partition bypassesFallstudie: MIG och partitionsförbikopplingar

NATURALNATURLIG
TECHNICALTEKNISK
Many teams treat MIG as full tenant isolationMånga team ser MIG som full tenant-isolering
In practice, some resources remain shared even with partitions enabledI praktiken förblir vissa resurser delade även när partitioner är aktiverade
Covert communication was shown across partition boundariesCovert communication visades över partitionsgränser
TunneLs for Bootlegging used shared last-level TLB behaviorTunneLs for Bootlegging använde delat beteende i last-level TLB
Follow-on work expanded what can still be sharedUppföljande arbete breddade vad som fortfarande kan vara delat
Veiled Pathways identified additional engines and contention surfacesVeiled Pathways identifierade ytterligare engines och kontentionsytor
MIG is risk reduction, not a final control for crown-jewel dataMIG är riskreduktion, inte en slutlig kontroll för crown-jewel-data
Highest-sensitivity workloads still need stronger tenancy boundariesWorkloads med högst känslighet behöver fortfarande starkare tenancy-gränser

Case study: NVLink and PCIe leakageFallstudie: NVLink- och PCIe-läckage

NATURALNATURLIG
TECHNICALTEKNISK
Shared GPU interconnects can leak what neighboring workloads are doingDelade GPU-interconnects kan läcka vad närliggande workloads gör
NVBleed and related work extracted workload signals and application fingerprintsNVBleed och relaterat arbete extraherade workload-signaler och applikationsfingeravtryck
Cache behavior can be measured across execution contextsCache-beteende kan mätas över exekveringskontexter
Spy in the GPU-box demonstrated Prime+Probe-style cross-context leakageSpy in the GPU-box demonstrerade Prime+Probe-liknande läckage mellan kontexter
Bus-level observation can reveal model information in tested setupsObservation på bussnivå kan avslöja modellinformation i testade upplägg
Hermes-style PCIe snooping reconstructed structure and parameter dataHermes-lik PCIe snooping rekonstruerade struktur- och parameterdata
Encrypting traffic is necessary but not sufficientAtt kryptera trafik är nödvändigt men inte tillräckligt
Timing and contention side channels remain even when payloads are encryptedTiming- och kontentions-sidokanaler kvarstår även när payloads är krypterade

Where leakage appears in serving stacksVar läckage uppstår i serving-stackar

NATURALNATURLIG
TECHNICALTEKNISK
Leakage risk appears at multiple layers of the serving systemLäckagerisk uppstår i flera lager av serving-systemet
It is rarely just one isolated bugDet är sällan bara en isolerad bugg
Application-level runtime behavior can preserve recoverable tracesRuntime-beteende på applikationsnivå kan bevara återvinningsbara spår
KV cache reuse, allocators, and batching pipelines affect exposureÅteranvändning av KV cache, allocators och batching-pipelines påverkar exponeringen
Hardware and interconnect design create measurable shared signalsDesign av hårdvara och interconnect skapar mätbara delade signaler
Controllers, counters, NVLink/NVSwitch, PCIe, RDMA, and GPUDirect all matterControllers, counters, NVLink/NVSwitch, PCIe, RDMA och GPUDirect spelar alla roll
Control-plane policy decides who can end up adjacent to whomPolicy i control-plane avgör vilka som kan hamna bredvid varandra
Runtime hooks, vGPU manager settings, and placement logic define real isolationRuntime hooks, inställningar i vGPU manager och placeringslogik definierar faktisk isolering

Cloud assumptions vs engineering realityMolnantaganden kontra ingenjörsmässig verklighet

NATURALNATURLIG
TECHNICALTEKNISK
"Our containers isolate us from neighbors" is often overstated"Våra containers isolerar oss från grannar" är ofta överdrivet
CVE-2024-0132 and CVE-2025-23266 showed practical runtime and container escape impactCVE-2024-0132 och CVE-2025-23266 visade praktisk påverkan från runtime- och container-escape
"MIG fully separates tenants" is not always true in practice"MIG separerar tenants fullt ut" är inte alltid sant i praktiken
Shared resources still enable covert channels under realistic co-tenant conditionsDelade resurser möjliggör fortfarande covert channels under realistiska co-tenant-förhållanden
"Confidential GPU features eliminate the problem" is incomplete"Confidential GPU-funktioner eliminerar problemet" är en ofullständig bild
They help, but still depend on firmware trust and verified end-to-end attestationDe hjälper, men är fortfarande beroende av firmware-förtroende och verifierad end-to-end-attestering
"The cloud provider owns all of this risk" is the wrong operating model"Cloud-providern äger hela risken" är fel operationsmodell
Customers still own workload classification, tenancy policy, and assurance evidenceKunder äger fortfarande workload-klassificering, tenancy-policy och verifieringsunderlag

Isolation strategy by sensitivityIsoleringsstrategi efter känslighetsnivå

NATURALNATURLIG
TECHNICALTEKNISK
Lower-sensitivity workloads can usually stay on shared pools with guardrailsWorkloads med lägre känslighet kan oftast ligga kvar i delade pooler med guardrails
Tier 1 uses shared GPUs plus baseline hardening and rapid patch governanceTier 1 använder delade GPU:er plus grundläggande hardening och snabb patchstyrning
Confidential workloads need stronger partitioning and monitoringConfidential workloads behöver starkare partitionering och övervakning
Tier 2 adds partition controls, reduced observability surfaces, and recurring leakage testsTier 2 lägger till partitionskontroller, reducerade observability-ytor och återkommande läckagetester
Regulated workloads should avoid casual co-tenancyReglerade workloads bör undvika informell co-tenancy
Tier 3 requires dedicated accelerator tenancy and constrained runtime exposure by policyTier 3 kräver dedikerad accelerator-tenancy och begränsad runtime-exponering via policy
Crown-jewel workloads should remove untrusted neighbors entirelyCrown-jewel-workloads bör helt eliminera opålitliga grannar
Tier 4 uses dedicated hosts and accelerators with no untrusted co-tenancyTier 4 använder dedikerade hosts och acceleratorer utan opålitlig co-tenancy

Hardening controls: memory and executionHärdningskontroller: minne och exekvering

NATURALNATURLIG
TECHNICALTEKNISK
Start by treating memory lifecycle hygiene as mandatory, not optionalBörja med att göra memory lifecycle-hygien obligatorisk, inte valfri
Require tested zeroing on teardown and context transitionsKräv testad nollställning vid teardown och context transitions
Reduce the amount of side-channel signal exposed by defaultMinska mängden sidokanalssignal som exponeras som standard
Disable or tightly scope counters, debug APIs, and nonessential shared enginesInaktivera eller begränsa counters, debug-API:er och icke-nödvändiga delade engines
Add integrity safeguards where the platform supports themLägg till integritetsskydd där plattformen stödjer det
Enable ECC and alert on corruption or instability anomaliesAktivera ECC och larma vid korruptions- eller instabilitetsavvikelser
Keep high-value workloads away from unknown or untrusted neighborsHåll högvärdiga workloads borta från okända eller opålitliga grannar
Enforce placement controls across accelerator pools and schedulersTillämpa placeringskontroller över acceleratorpooler och schedulers

Hardening controls: orchestration and policyHärdningskontroller: orkestrering och policy

NATURALNATURLIG
TECHNICALTEKNISK
Governance has to include the GPU software stack, not just applicationsGovernance måste omfatta GPU-mjukvarustacken, inte bara applikationer
Prioritize toolkit, vGPU manager, driver, and host runtime CVEsPrioritera CVE:er i toolkit, vGPU manager, drivrutin och host runtime
Workload sensitivity should directly drive where jobs may runWorkload-känslighet ska direkt styra var jobb får köras
Tie data classification to approved tenancy and partition profilesKnyt dataklassificering till godkända tenancy- och partitionsprofiler
Provider claims should be validated with evidencePåståenden från provider ska valideras med evidens
Request proof for scrubbing behavior, counter policy, and attestation workflowBegär bevis för scrubbing-beteende, counter-policy och attestationsflöde
When evidence is weak, move critical workloads to stronger isolationNär evidensen är svag, flytta kritiska workloads till starkare isolering
Escalate exceptions to dedicated tenancy by policyEskalera undantag till dedikerad tenancy enligt policy

Detection and assurance programProgram för detektion och verifiering

NATURALNATURLIG
TECHNICALTEKNISK
Detection programs should explicitly include co-tenant abuse scenariosDetektionsprogram bör uttryckligen inkludera scenarier med co-tenant-missbruk
Red-team residue, contention, breakout, and bus-observation casesRed-team-fall för rester, kontention, breakout och bussobservation
Observability should watch for cross-tenant leakage signalsObservability bör övervaka signaler för cross-tenant-läckage
Track contention anomalies, timing drift, and privilege-boundary changesFölj avvikelser i kontention, timing-drift och förändringar i privilegiegränser
Patch state must be continuously verified, not assumedPatch-läge måste verifieras kontinuerligt, inte antas
Validate driver, toolkit, vGPU manager, and firmware dependenciesValidera beroenden i drivrutin, toolkit, vGPU manager och firmware
Promotion gates should include leakage canariesPromotionsgrindar bör inkludera läckage-canaries
Run boundary tests after infrastructure changes and before production rolloutKör gränstester efter infrastrukturförändringar och före produktionsutrullning

Next sprint checklistChecklista för nästa sprint

NATURALNATURLIG
TECHNICALTEKNISK
First, create a real map of where sensitive AI workloads currently runBörja med att skapa en verklig karta över var känsliga AI-workloads körs idag
Inventory shared, partitioned, and dedicated accelerator poolsInventera delade, partitionerade och dedikerade acceleratorpooler
Then close the highest-risk known weaknesses quicklyStäng sedan de kända svagheterna med högst risk snabbt
Patch priority runtime and orchestration CVEs and verify mitigation efficacyPatcha prioriterade CVE:er i runtime och orkestrering och verifiera mitigeringseffekt
Validate that boundary controls work in your own environmentValidera att gränskontroller fungerar i den egna miljön
Test memory clearing, counter exposure limits, and cross-tenant isolation behaviorTesta minnesrensning, gränser för counter-exponering och beteende för cross-tenant-isolering
Convert decisions into enforceable platform rulesOmvandla beslut till verkställbara plattformsregler
Implement policy-as-code that maps sensitivity tiers to allowed tenancy classesImplementera policy-as-code som mappar känslighetsnivåer till tillåtna tenancy-klasser

Core technical referencesCentrala tekniska referenser

Vendor guidance and standardsLeverantörsvägledning och standarder

Q&A prompt setFrågebank för Q&A

Closing askAvslutande uppmaning

Treat accelerator tenancy as a security controlBehandla accelerator-tenancy som en säkerhetskontroll

For sensitive AI workloads, dedicated tenancy remains the only architecture that removes cross-tenant leakage risk.För känsliga AI-workloads är dedikerad tenancy fortsatt den enda arkitektur som eliminerar risken för cross-tenant-läckage.

Krister Hedfors on LinkedIn

AISecurityLiteracy.dev