BlockBeats 消息,5 月 3 日,OpenRouter 宣布推出 Response Caching(響應快取)功能,允許開發者對完全相同的 AI 請求直接返回快取結果,且無需再次消耗 Token 成本。
官方表示,開發者僅需添加 X-OpenRouter-Cache: true 請求頭,首次請求仍正常呼叫模型,而後續相同請求則可在 80 至 300 毫秒內直接返回快取結果,且完全免費。相比之下,未快取情況下,Gemini 2.5 Flash 平均響應約 1.3 秒,Kimi K2.6 約 4.6 秒,GPT-5.5 約 9.1 秒。
OpenRouter 稱,該功能適用於 Agent 重試、自動化測試及重複上下文呼叫等場景。例如當 AI Workflow 中途失敗時,開發者可直接重試,僅為新增部分付費。
官方同時強調,Response Caching 不同於 Prompt Caching:後者僅降低共享上下文成本,而 Response Caching 可直接跳過模型提供商請求。該功能現已進入 Beta 測試階段,支持 /chat/completions、/responses、/messages 與 /embeddings 等介面。