Phison AI Data Platform Infrastructure Phison AI Data Platform 基礎設施

Phison Cache Server Phison Cache Server

aiDAPTIV Cache Server 把 GPU 叢集的 KV Cache 變成跨節點共享的儲存池 — VRAM / DRAM / SSD 分層推論,透過 InfiniBand 或 RoCE 高速網路即取即用。
現有GPU叢集即刻上線、GPU推論成本砍半、Concurrent User倍增、TTFT 大幅下降。

0 0 %↑ %↑ GPU Saved GPU 算力節省

Reuse the KV Cache and save more than half of your GPU compute. 透過 KV Cache 重用,GPU 節省一半以上的算力。

0 0 .x↑ .x↑ Concurrent Users 並行使用者

Same GPU cluster — more than 2× concurrent online users. 同樣的 GPU 叢集,同時並行使用者 2 倍以上。

0 0 × × Faster TTFT vs. Recompute TTFT 較重算更快

Streaming KV Cache back to the GPU is 5×+ faster than recomputing prefill, and rock‑steady. 透過 KV Cache 回傳 GPU,比重算 prefill 快 5× 以上,且穩定。

架構

GPU 叢集 + Cache Server

現有 GPU Server 透過 InfiniBand / RoCE 連到 Cache Server。VRAM → DRAM → SSD 三層分層快取,容量隨需擴張,效能與成本同時兼顧。

Cluster Inference with KVCache ReUse
GPU Server 1
Compute Node
VRAM
DRAM
GPU Server 2
Compute Node
VRAM
DRAM
GPU Server 3
Compute Node
VRAM
DRAM
Hyper-Connections
Cache Server 1
Shared Cache Node
SSD
SSD
Cache Server 2
Shared Cache Node
SSD
SSD
Shared Cache Pool
▸ Toggle Hyper-Connections to bring up the shared cache pool
現有 GPU 叢集即刻啟用

現有 GPU Server 透過高速網路存取 Cache Server,無需更換 GPU 或重編應用。

分層快取架構

VRAM / DRAM / SSD 三層快取,隨需擴充容量、同時壓低 GPU 運算成本。

彈性部署能力

從單一節點到大規模 GPU 叢集,靈活擴張,Kubernetes 原生支援。

高性價比升級

以經濟的 SSD 取代昂貴 DRAM 擴充,低成本實現效能升級。

為 Long-Context 與 Agentic AI 而生

從 RAG、文件摘要到 Agent 多輪對話 — 一種架構,適合各種推論規模。

Long-Context · RAG / 文件摘要 Agent / Tool-Use 多輪對話 需要優化目前 GPU ROI 計畫導入 K8s 叢集推論平台
為何需要 KV Cache

Agent 每一步都在累加 KV Cache 需求

Agent 不是「一問一答」,而是「思考 → 動作 → 觀察」反覆循環 —— 每一步都把整段歷史壓進 cache。沒有 KV Cache Reuse,每步都得重算全部歷史 token。 Agents aren't one‑shot Q&A — they loop through Think → Act → Observe, packing the full history into cache at every step. Without KV Cache reuse, every step recomputes all historical tokens.

超長系統提示 + 工具定義

Tool schemas、MCP definitions、role instructions —— 5–20k tokens 起跳。

ReAct 迴圈不斷累積

Thought → Action → Observation,每一步都附加進 context,且必須完整保留以維持推理連貫。

會話暫停後,使用者再度載入時需重算

使用者累積 Long-Context 上下文後暫停。下次回來時,系統需讓 GPU 重算。

工具回傳結果龐大

Web search、檔案讀取、資料庫查詢、API 回應常常一次塞進數千 tokens。

Sub-agent 與並行分支

多個 sub-agent 各自帶完整 context,parallel tool calls 導致倍增 Cache 需求。

沒有 KV Cache Reuse,Agent 每一步都得重算所有歷史 token —— GPU 算力被 prefill 重算淹沒。

AI Memory Wall AI Memory Wall

VRAM Cache 空間太小,GPU 需不斷重算。 VRAM cache is too small — the GPU keeps recomputing.

KV Cache 需求是數百 GB 到 TB 級,VRAM+DRAM 卻只能容納一小部分。新 request 一進來就 evict 舊熱資料,舊 session 回來只能重算 prefill —— 惡性循環。 KV Cache demand reaches hundreds of GB to TBs, but VRAM + DRAM holds only a small slice. New requests evict hot data on arrival; returning sessions are forced to recompute prefill — a vicious cycle.

Before Before VRAM / DRAM only VRAM / DRAM only

Cache 空間不足 → 持續 Swap → 命中率崩跌 Low Cache capacity → constant swap → hit rate collapses

惡性循環 VICIOUS LOOP

  • 新 request 載入 KV New request loads KV

    舊的熱資料被 LRU 踢掉。 Old hot data gets kicked out by LRU.

  • 舊 session 回來 Old session returns

    Cache miss,只能重算 prefill。 Cache miss — only option is to recompute prefill.

  • 再次 evict 別人 Evict someone else again

    下一輪又重複此循環。 The next round repeats the same loop.

Hit Rate ≈ 10–30% · TTFT 抖動嚴重 Hit Rate ≈ 10–30% · TTFT highly jittery

After After VRAM / DRAM + NVMe SSD Tier VRAM / DRAM + NVMe SSD Tier

Cache 空間擴大 → 命中率躍升 More Cache capacity → hit rate jumps

帶來的改變 THE CHANGE

  • Hot 資料留在 VRAM/DRAM Hot data stays in VRAM/DRAM

    高頻訪問仍享有 ns–ms 級延遲。 High‑frequency access still enjoys ns–ms latency.

  • Warm / Cold 留到 SSD Warm / Cold offloaded to SSD

    TB 級空間,evict 不再是常態。 TB‑scale capacity — eviction is no longer the norm.

  • 需要時再 prefetch 回來 Prefetch back when needed

    比重算 prefill 仍快 7×+。 Still 7×+ faster than recomputing prefill.

Hit Rate ≈ 60–80%+ · TTFT 穩定 Hit Rate ≈ 60–80%+ · TTFT stable

Tiered Cache Architecture Tiered Cache Architecture

Move the KV Cache out of scarce, expensive VRAM and down to cost‑effective storage. 把 KV Cache 從昂貴稀缺的 VRAM,搬到成本效益的儲存層。

VRAM is expensive and too small. With tiered caching, hot data stays in VRAM/DRAM while warm and cold data lives on NVMe or the Distributed Cache Server — and any node in the cluster can hit and reuse it. VRAM 昂貴又太少容量。透過分層快取,熱資料留在 VRAM/DRAM,溫冷資料使用 NVMe 或 Distributed Cache Server,叢集任一節點都能命中重用。

GPU VRAM GPU VRAM Fastest · most expensive · scarcest. For the hottest KV currently decoding. 最快 · 最貴 · 最稀缺。給最熱、正在解碼的 KV。
~GB · ns ~GB · ns
Host DRAM Host DRAM Second fastest · scales to hundreds of GB. Catches recent demand spilling out of VRAM. 次快 · 容量擴增至數百 GB。承接 VRAM 溢出的近期需求。
GB-TB · μs GB-TB · μs
Local NVMe Local NVMe TB‑scale capacity · millisecond access. A low‑cost home for warm data. TB 級容量 · 毫秒級存取。低成本承接溫資料。
~10 TB · ms ~10 TB · ms
Distributed Cache Server Distributed Cache Server TB–PB scale · RDMA‑shared across nodes — reusable from any prefill node in the cluster. TB–PB 級 · RDMA 跨節點共享,叢集任一 prefill node 都可重用。
PB · ms PB · ms
Longer session retention 更長的 Session 留存

Old conversations no longer get squeezed out by VRAM. When users return, the cache is recalled — no recompute, continuous experience. 舊對話不再被 VRAM 容量擠掉,使用者回來時,調用 cache 不須重算,體驗連貫。

Higher hit rate 更高的命中率

Cache on any cluster node can be reused by another prefill node — no session‑aware routing required. Cluster 內任一節點的 cache 可被其他 prefill node 重用,不需 session-aware routing。

Decoupled cost structure 成本結構解耦

Trade cheap NVMe / DRAM for expensive VRAM — per‑token serving cost drops dramatically. 用便宜的 NVMe / DRAM 換取貴的 VRAM,單位 token 服務成本顯著下降。

Biggest wins for agentic AI Agentic AI 場景受益最大

Agent workflows, multi‑turn dialogue, RAG, and document summarization all gain latency and stability together. Agent Workflow、多輪對話、RAG、文件摘要的延遲與穩定性同步改善。

Benefits 效益

Storage in place of compute, GPU cycles saved at scale. 以存代算,大量節省 GPU 算力。

Once produced, KV Cache is shared across the entire cluster. Long prompts, multi‑turn dialogue, agent workflows, and RAG prefixes don't have to run from scratch every time — Time‑to‑First‑Token drops immediately. KV Cache 一旦產生,就在整個 Cluster 內可共用。長 prompt、多輪對話、Agent workflow、RAG 的 prefix 不必再每次從零跑起,Time-to-First-Token 立刻下降。

Concurrent Users 2.x ↑ Up 同時並行使用者 2.x↑ Up

Same GPU cluster, more than 2× concurrency. Prefill no longer hogs the GPU. 同樣的 GPU 叢集,翻倍以上的併發。Prefill 不再佔滿 GPU。

Half the GPU compute GPU算力節省一半

With KV Cache reuse, GPU compute drops by more than half. 透過 KV-Cache,GPU 節省一半以上的算力。

Dramatically 5×+ faster TTFT TTFT 大幅快 5× 以上

Hit‑and‑return replaces recompute. 命中即返,取代重算。

Stop letting the GPU re‑run prefill at scale. 不再讓 GPU 大幅重複算 Prefill。

Give GPU time back to decode. Push prefill's compute cost down to storage. aiDAPTIV keeps your AI Factory running fuller, steadier, and cheaper. 把 GPU 的時間還給 decode。把 prefill 的計算成本轉嫁給儲存。aiDAPTIV 讓你的 AI Factory 跑得更滿、更穩、更便宜。

Capacity Explorer Capacity Explorer

More Concurrent Users, Same GPU 相同 GPU,更多並行使用者

Drag SLA thresholds to find your workload's operating point. See how aiDAPTIV KV Cache reuse doubles capacity from the same GPU. 拖曳 SLA 門檻,找到你工作負載的最佳營運點。看 aiDAPTIV KV Cache 重用如何從相同 GPU 獲得雙倍容量。

Context length
TTFT SLA · upper bound
≤ 10.0 s
Token Per Second SLA · lower bound
≥ 20 t/s

Concurrent users

Without aiDAPTIV
Concurrent Users Enhanced
With aiDAPTIV
GPU Saved

Latency & throughput curves

at currently selected context length
TTFT seconds

Lower is better

Token Per Second per user

Higher is better

Without aiDAPTIV
With aiDAPTIV
SLA threshold