OpenRouter推出響應快取功能，可實現AI請求「零Token成本」快取返回

BlockBeats 消息，5 月 3 日，OpenRouter 宣布推出 Response Caching（響應快取）功能，允許開發者對完全相同的 AI 請求直接返回快取結果，且無需再次消耗 Token 成本。

官方表示，開發者僅需添加 X-OpenRouter-Cache: true 請求頭，首次請求仍正常呼叫模型，而後續相同請求則可在 80 至 300 毫秒內直接返回快取結果，且完全免費。相比之下，未快取情況下，Gemini 2.5 Flash 平均響應約 1.3 秒，Kimi K2.6 約 4.6 秒，GPT-5.5 約 9.1 秒。

OpenRouter 稱，該功能適用於 Agent 重試、自動化測試及重複上下文呼叫等場景。例如當 AI Workflow 中途失敗時，開發者可直接重試，僅為新增部分付費。

官方同時強調，Response Caching 不同於 Prompt Caching：後者僅降低共享上下文成本，而 Response Caching 可直接跳過模型提供商請求。該功能現已進入 Beta 測試階段，支持 /chat/completions、/responses、/messages 與 /embeddings 等介面。

原文鏈接

糾錯/舉報