header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

OpenRouter推出響應快取功能,可實現AI請求「零Token成本」快取返回

BlockBeats 消息,5 月 3 日,OpenRouter 宣布推出 Response Caching(響應快取)功能,允許開發者對完全相同的 AI 請求直接返回快取結果,且無需再次消耗 Token 成本。


官方表示,開發者僅需添加 X-OpenRouter-Cache: true 請求頭,首次請求仍正常呼叫模型,而後續相同請求則可在 80 至 300 毫秒內直接返回快取結果,且完全免費。相比之下,未快取情況下,Gemini 2.5 Flash 平均響應約 1.3 秒,Kimi K2.6 約 4.6 秒,GPT-5.5 約 9.1 秒。


OpenRouter 稱,該功能適用於 Agent 重試、自動化測試及重複上下文呼叫等場景。例如當 AI Workflow 中途失敗時,開發者可直接重試,僅為新增部分付費。


官方同時強調,Response Caching 不同於 Prompt Caching:後者僅降低共享上下文成本,而 Response Caching 可直接跳過模型提供商請求。該功能現已進入 Beta 測試階段,支持 /chat/completions、/responses、/messages 與 /embeddings 等介面。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成