AI LLM OpenRouter a16z Report

100 Trillion Tokens: OpenRouter State of AI Report Analysis

前言

與以往依賴基準測試或定性分析的研究不同,這份報告直接從數據出發,揭示了開發者和終端用戶「在野外」如何真正使用這些模型。從開源與閉源模型的競爭格局、代理推理(Agentic Inference)的崛起,到令人意外的使用場景分布,這份報告打破了許多我們對 AI 使用的既有認知。

本文將深入解析這份報告的核心發現,探討其對模型開發者、AI 應用開發者以及整個產業的深遠影響。

推理模型的範式轉移:從單次生成到多步驟思考

報告首先強調了一個關鍵的轉折點:2024 年 12 月 5 日,OpenAI 發布了 o1 推理模型的完整版本。這標誌著 LLM 從傳統的單次自迴歸預測,轉向了多步驟內部推理的新範式。

在 o1 之前,即使是最先進的模型如 Anthropic 的 Claude 或 Cohere 的 Command R,雖然在工具使用和指令遵循方面表現出色,但其核心推理過程仍然是「一次性」的前向傳播。o1 的出現改變了這一切——它採用了擴展的推理時間計算過程,包含內部多步驟推敲、隱式規劃和迭代精煉。

數據顯示,這種轉變已經深刻影響了用戶行為:

  • 推理模型的使用佔比已超過 50%:從 2025 年初的微乎其微,到年底已佔據超過一半的總 token 使用量
  • 領先的推理模型:xAI 的 Grok Code Fast 1 目前處理最大份額的推理相關流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash
  • 提示詞長度增長近四倍:平均提示詞長度從約 1,500 token 增長到超過 6,000 token
  • 完成詞長度近乎翻倍:這主要是因為推理 token 的增加

這意味著,典型的 LLM 請求不再是簡單的問答或孤立指令,而是成為結構化、類代理迴圈的一部分——調用外部工具、推理狀態、並在更長的上下文中持續運作。

開源模型的崛起:30% 的新均衡

報告中最引人注目的發現之一,是開源模型的市場份額已達到一個新的均衡點:約 30%

中國模型的異軍突起

中國開發的模型在這波開源浪潮中扮演了關鍵角色。從 2024 年底不足 1.2% 的週佔比,到某些週達到近 30% 的使用量,這一增長令人矚目。主要推手包括:

  • DeepSeek:以 14.37 兆 token 的總使用量位居開源模型榜首
  • Qwen(通義千問):5.59 兆 token
  • Meta LLaMA:3.96 兆 token
  • Mistral AI:2.92 兆 token

值得注意的是,開源模型的市場結構正在從「近乎壟斷」轉向「多元競爭」。2024 年底,DeepSeek V3 和 R1 曾佔據開源 token 使用量的一半以上。但到了 2025 年底,沒有任何單一模型能持續超過 25% 的佔比。這種「碎片化」實際上是市場健康的標誌——用戶在更廣泛的選項中找到價值。

中型模型的崛起

報告提出了一個有趣的觀察:「中型」模型正在成為新的主流。按參數量分類:

  • 小型(< 150 億參數):使用佔比持續下降
  • 中型(150-700 億參數):快速增長,由 Qwen2.5 Coder 32B、Mistral Small 3 等引領
  • 大型(> 700 億參數):形成多元競爭格局

這反映了用戶正在尋求能力與效率之間的平衡——既不像小模型那樣功能受限,又不像超大模型那樣成本高昂。

令人意外的使用場景:角色扮演壓倒性領先

或許報告中最出人意料的發現是:角色扮演(Roleplay)是 LLM 最主要的使用場景之一,尤其在開源模型中佔據壓倒性優勢。

開源模型的使用分布

  • 角色扮演:約 52%(超過一半的開源模型使用量)
  • 程式設計:第二大類別
  • 翻譯、一般問答、生產力工具等佔據長尾

這完全顛覆了「LLM 主要用於寫程式碼、郵件或摘要」的既有認知。數據顯示,大量用戶將 LLM 用於陪伴互動、故事創作、遊戲角色扮演等娛樂性質的場景。

為什麼開源模型在角色扮演中佔優勢?

報告分析了幾個原因:

  1. 較少的內容限制:開源模型通常沒有商業模型那麼嚴格的安全過濾
  2. 可客製化:用戶可以根據需求微調模型
  3. 成本效益:角色扮演通常需要大量來回對話,低成本模型更具優勢

程式設計:另一大主戰場

雖然角色扮演佔比驚人,但程式設計仍然是最具戰略重要性的類別之一。數據顯示:

  • Anthropic 的 Claude 系列在程式設計任務中佔據超過 60% 的份額
  • 程式設計相關請求的提示詞長度是所有類別中最長的,經常超過 20,000 token
  • 這一類別的競爭最為激烈,模型品質或延遲的微小變化都可能在週與週之間改變市場份額

代理推理(Agentic Inference):下一個前沿

報告詳細記錄了 LLM 使用從「單輪對話」向「代理推理」轉變的過程。所謂代理推理,是指模型不僅生成文字,還要執行規劃、調用工具、跨越延伸上下文進行互動。

工具調用的增長

數據顯示,工具調用的採用率在 2025 年持續上升。最常使用工具調用的模型包括:

  • OpenAI 的 gpt-4o-mini
  • Anthropic 的 Claude 3.5 和 3.7 系列
  • 較新的 Claude 4.5 Sonnet

序列長度的增長

平均序列長度(提示詞 + 完成詞)在過去 20 個月內增長了超過三倍——從不到 2,000 token 增長到超過 5,400 token。這種增長反映了:

  • 更長的上下文窗口需求
  • 更深入的任務歷史記錄
  • 更複雜的完成內容

報告預測:代理推理很快將(如果尚未)超越人類推理,成為 AI 推理的主流形式

全球視角:亞洲的快速崛起

LLM 的使用正在變得越來越全球化和去中心化。報告中的地理數據顯示:

區域分布

地區使用佔比
北美47.22%
亞洲28.61%
歐洲21.32%
其他2.85%

亞洲的快速成長

亞洲的使用份額從數據集早期的約 13% 增長到最近的約 31%,增長超過一倍。這反映了:

  • 企業採用率的提高
  • 本地創新能力的增強
  • 中國不僅成為模型的生產者,也成為重要的消費者

語言分布

語言Token 佔比
英語82.87%
簡體中文4.95%
俄語2.47%
西班牙語1.43%
泰語1.03%

雖然英語仍佔據主導地位,但簡體中文近 5% 的佔比顯示了雙語或中文優先環境中用戶的持續參與。

灰姑娘效應:用戶留存的深層邏輯

報告提出了一個有趣的框架來解釋用戶留存現象:「灰姑娘玻璃鞋效應」(Cinderella Glass Slipper Effect)

什麼是玻璃鞋效應?

在快速演進的 AI 生態系統中,存在一組高價值的工作負載,這些需求在連續的模型迭代中一直未能得到滿足。每個新的前沿模型就像是「試穿」這些未解決的問題。當某個新發布的模型恰好匹配了先前未滿足的技術和經濟約束時,它就達成了精確契合——隱喻中的「玻璃鞋」。

對於那些工作負載終於「合適」的開發者或組織,這種契合會產生強大的鎖定效應:

  • 他們的系統、數據管道和用戶體驗會錨定在第一個解決其問題的模型上
  • 隨著成本下降和可靠性提高,重新平台化的動機會急劇減少

留存數據的啟示

報告分析了多個主要模型的用戶留存曲線,發現:

  • 基礎性群組(Foundational Cohorts):早期用戶的參與度持續時間遠超後來的群組
  • Claude 4 Sonnet 的 2025 年 6 月群組Gemini 2.5 Pro 的 2025 年 5 月群組在第 5 個月仍保持約 40% 的留存率
  • 相比之下,Gemini 2.0 FlashLlama 4 Maverick 從未建立起高績效的基礎性群組

回力鏢效應

DeepSeek 模型展現了一個更複雜的模式:「復活跳躍」。與典型的單調遞減留存不同,幾個 DeepSeek 群組在初始流失期後,留存率出現明顯回升。這表明部分流失用戶在嘗試替代方案後,又回到了 DeepSeek——這暗示 DeepSeek 在特定工作負載上提供了最佳的技術性能、成本效益組合。

成本與使用量的動態關係

報告的另一個重要發現是:LLM 市場尚未商品化——價格對使用量的解釋力非常有限

市場分層

數據揭示了四種使用-成本原型:

  1. 高端領導者:如 Anthropic 的 Claude 系列,每百萬 token 約 2 美元,但使用量仍然很高
  2. 高效巨頭:如 Google 的 Gemini 2.0 Flash 和 DeepSeek V3,價格低於 0.40 美元/百萬 token,同時達到類似的使用量水平
  3. 長尾模型:價格低廉但使用量有限,反映了性能或可見度的限制
  4. 高端專家:如 OpenAI 的 GPT-4 和 GPT-5 Pro,約 35 美元/百萬 token,用於高風險、利基工作負載

價格彈性有限

趨勢線幾乎是平的,表明需求相對缺乏價格彈性——價格下降 10% 僅對應約 0.5-0.7% 的使用量增加。這意味著:

  • 閉源模型:為任務關鍵型應用保持定價權
  • 開源模型:吸收來自成本敏感用戶的流量

然而,報告也指出,隨著品質差距的縮小,價格彈性可能會增加,將原本差異化的市場轉變為更具流動性的市場。

對產業的啟示

對模型開發者

  1. 持續迭代的重要性:DeepSeek 之所以能保持競爭力,是因為其連續的版本發布
  2. 專注特定領域:在角色扮演或程式設計等特定領域建立優勢比追求「全能」更有效
  3. 工具調用能力成為標配:沒有可靠工具格式的模型在企業採用和編排環境中將落後

對應用開發者

  1. 多模型策略:未來是模型無關和異構的——維持靈活性,為每項任務選擇最佳模型
  2. 關注娛樂應用:角色扮演和創意對話的巨大市場尚未被充分開發
  3. 全球化思維:LLM 必須在各種語言、上下文和市場中表現良好

對基礎設施提供者

  1. 延遲、工具處理、上下文支援變得越來越關鍵
  2. 推理平台必須管理的不僅是無狀態請求,還包括長期運行的對話、執行追蹤和權限敏感的工具整合
  3. 地理多樣性:需要考慮不同地區的合規要求和部署設置

結語

OpenRouter 的這份報告為我們提供了一面鏡子,讓我們看到 LLM 在真實世界中的使用樣貌——它往往與我們的預期大相徑庭。

幾個核心洞見值得我們深思:

首先,AI 的使用比我們想像的更加多元。角色扮演和娛樂性互動的巨大體量,提醒我們不要只關注生產力工具——陪伴、創意和探索同樣是人類對 AI 的重要需求。

其次,開源與閉源模型已形成穩定的共存格局。30% 的均衡點表明,這不是零和遊戲,而是不同需求的自然分層:閉源模型服務高價值任務,開源模型覆蓋高體量場景。

第三,代理推理正在重新定義什麼是「AI 推理」。從單次生成到多步驟思考、工具調用和狀態管理——這種轉變將在未來幾年深刻改變我們構建 AI 應用的方式。

最後,「玻璃鞋效應」提醒我們:在快速迭代的 AI 市場中,找到並服務好那些「未滿足需求」的關鍵時刻,可能比追趕基準測試分數更重要。

正如報告所言:o1 並沒有終結競爭,而是擴展了設計空間。我們正在從對單一模型的押注轉向系統思維,從直覺轉向儀器化測量,從排行榜增量轉向經驗使用分析。這份基於 100 兆 token 的研究,正是這種轉變的最佳例證。

參考資料

  1. OpenRouter. (2025). State of AI: An Empirical 100 Trillion Token Study with OpenRouter. https://openrouter.ai/state-of-ai
  2. Aubakirova, M., Atallah, A., Clark, C., Summerville, J., & Midha, A. (2025). State of AI Report. OpenRouter Inc. & a16z.
  3. OpenAI. (2024). OpenAI o1 System Card. arXiv:2412.16720. https://arxiv.org/abs/2412.16720
  4. DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437. https://arxiv.org/abs/2412.19437
  5. Grattafiori, A., et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783. https://arxiv.org/abs/2407.21783
  6. Appel, R., et al. (2025). Anthropic Economic Index Report: Uneven Geographic and Enterprise AI Adoption. arXiv:2511.15080. https://arxiv.org/abs/2511.15080
  7. Chatterji, A., et al. (2025). How People Use ChatGPT. NBER Working Paper 34255.