100 Trillion Tokens: OpenRouter State of AI Report Analysis
前言
與以往依賴基準測試或定性分析的研究不同,這份報告直接從數據出發,揭示了開發者和終端用戶「在野外」如何真正使用這些模型。從開源與閉源模型的競爭格局、代理推理(Agentic Inference)的崛起,到令人意外的使用場景分布,這份報告打破了許多我們對 AI 使用的既有認知。
本文將深入解析這份報告的核心發現,探討其對模型開發者、AI 應用開發者以及整個產業的深遠影響。
推理模型的範式轉移:從單次生成到多步驟思考
報告首先強調了一個關鍵的轉折點:2024 年 12 月 5 日,OpenAI 發布了 o1 推理模型的完整版本。這標誌著 LLM 從傳統的單次自迴歸預測,轉向了多步驟內部推理的新範式。
在 o1 之前,即使是最先進的模型如 Anthropic 的 Claude 或 Cohere 的 Command R,雖然在工具使用和指令遵循方面表現出色,但其核心推理過程仍然是「一次性」的前向傳播。o1 的出現改變了這一切——它採用了擴展的推理時間計算過程,包含內部多步驟推敲、隱式規劃和迭代精煉。
數據顯示,這種轉變已經深刻影響了用戶行為:
- 推理模型的使用佔比已超過 50%:從 2025 年初的微乎其微,到年底已佔據超過一半的總 token 使用量
- 領先的推理模型:xAI 的 Grok Code Fast 1 目前處理最大份額的推理相關流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash
- 提示詞長度增長近四倍:平均提示詞長度從約 1,500 token 增長到超過 6,000 token
- 完成詞長度近乎翻倍:這主要是因為推理 token 的增加
這意味著,典型的 LLM 請求不再是簡單的問答或孤立指令,而是成為結構化、類代理迴圈的一部分——調用外部工具、推理狀態、並在更長的上下文中持續運作。
開源模型的崛起:30% 的新均衡
報告中最引人注目的發現之一,是開源模型的市場份額已達到一個新的均衡點:約 30%。
中國模型的異軍突起
中國開發的模型在這波開源浪潮中扮演了關鍵角色。從 2024 年底不足 1.2% 的週佔比,到某些週達到近 30% 的使用量,這一增長令人矚目。主要推手包括:
- DeepSeek:以 14.37 兆 token 的總使用量位居開源模型榜首
- Qwen(通義千問):5.59 兆 token
- Meta LLaMA:3.96 兆 token
- Mistral AI:2.92 兆 token
值得注意的是,開源模型的市場結構正在從「近乎壟斷」轉向「多元競爭」。2024 年底,DeepSeek V3 和 R1 曾佔據開源 token 使用量的一半以上。但到了 2025 年底,沒有任何單一模型能持續超過 25% 的佔比。這種「碎片化」實際上是市場健康的標誌——用戶在更廣泛的選項中找到價值。
中型模型的崛起
報告提出了一個有趣的觀察:「中型」模型正在成為新的主流。按參數量分類:
- 小型(< 150 億參數):使用佔比持續下降
- 中型(150-700 億參數):快速增長,由 Qwen2.5 Coder 32B、Mistral Small 3 等引領
- 大型(> 700 億參數):形成多元競爭格局
這反映了用戶正在尋求能力與效率之間的平衡——既不像小模型那樣功能受限,又不像超大模型那樣成本高昂。
令人意外的使用場景:角色扮演壓倒性領先
或許報告中最出人意料的發現是:角色扮演(Roleplay)是 LLM 最主要的使用場景之一,尤其在開源模型中佔據壓倒性優勢。
開源模型的使用分布
- 角色扮演:約 52%(超過一半的開源模型使用量)
- 程式設計:第二大類別
- 翻譯、一般問答、生產力工具等佔據長尾
這完全顛覆了「LLM 主要用於寫程式碼、郵件或摘要」的既有認知。數據顯示,大量用戶將 LLM 用於陪伴互動、故事創作、遊戲角色扮演等娛樂性質的場景。
為什麼開源模型在角色扮演中佔優勢?
報告分析了幾個原因:
- 較少的內容限制:開源模型通常沒有商業模型那麼嚴格的安全過濾
- 可客製化:用戶可以根據需求微調模型
- 成本效益:角色扮演通常需要大量來回對話,低成本模型更具優勢
程式設計:另一大主戰場
雖然角色扮演佔比驚人,但程式設計仍然是最具戰略重要性的類別之一。數據顯示:
- Anthropic 的 Claude 系列在程式設計任務中佔據超過 60% 的份額
- 程式設計相關請求的提示詞長度是所有類別中最長的,經常超過 20,000 token
- 這一類別的競爭最為激烈,模型品質或延遲的微小變化都可能在週與週之間改變市場份額
代理推理(Agentic Inference):下一個前沿
報告詳細記錄了 LLM 使用從「單輪對話」向「代理推理」轉變的過程。所謂代理推理,是指模型不僅生成文字,還要執行規劃、調用工具、跨越延伸上下文進行互動。
工具調用的增長
數據顯示,工具調用的採用率在 2025 年持續上升。最常使用工具調用的模型包括:
- OpenAI 的 gpt-4o-mini
- Anthropic 的 Claude 3.5 和 3.7 系列
- 較新的 Claude 4.5 Sonnet
序列長度的增長
平均序列長度(提示詞 + 完成詞)在過去 20 個月內增長了超過三倍——從不到 2,000 token 增長到超過 5,400 token。這種增長反映了:
- 更長的上下文窗口需求
- 更深入的任務歷史記錄
- 更複雜的完成內容
報告預測:代理推理很快將(如果尚未)超越人類推理,成為 AI 推理的主流形式。
全球視角:亞洲的快速崛起
LLM 的使用正在變得越來越全球化和去中心化。報告中的地理數據顯示:
區域分布
| 地區 | 使用佔比 |
|---|---|
| 北美 | 47.22% |
| 亞洲 | 28.61% |
| 歐洲 | 21.32% |
| 其他 | 2.85% |
亞洲的快速成長
亞洲的使用份額從數據集早期的約 13% 增長到最近的約 31%,增長超過一倍。這反映了:
- 企業採用率的提高
- 本地創新能力的增強
- 中國不僅成為模型的生產者,也成為重要的消費者
語言分布
| 語言 | Token 佔比 |
|---|---|
| 英語 | 82.87% |
| 簡體中文 | 4.95% |
| 俄語 | 2.47% |
| 西班牙語 | 1.43% |
| 泰語 | 1.03% |
雖然英語仍佔據主導地位,但簡體中文近 5% 的佔比顯示了雙語或中文優先環境中用戶的持續參與。
灰姑娘效應:用戶留存的深層邏輯
報告提出了一個有趣的框架來解釋用戶留存現象:「灰姑娘玻璃鞋效應」(Cinderella Glass Slipper Effect)。
什麼是玻璃鞋效應?
在快速演進的 AI 生態系統中,存在一組高價值的工作負載,這些需求在連續的模型迭代中一直未能得到滿足。每個新的前沿模型就像是「試穿」這些未解決的問題。當某個新發布的模型恰好匹配了先前未滿足的技術和經濟約束時,它就達成了精確契合——隱喻中的「玻璃鞋」。
對於那些工作負載終於「合適」的開發者或組織,這種契合會產生強大的鎖定效應:
- 他們的系統、數據管道和用戶體驗會錨定在第一個解決其問題的模型上
- 隨著成本下降和可靠性提高,重新平台化的動機會急劇減少
留存數據的啟示
報告分析了多個主要模型的用戶留存曲線,發現:
- 基礎性群組(Foundational Cohorts):早期用戶的參與度持續時間遠超後來的群組
- Claude 4 Sonnet 的 2025 年 6 月群組和 Gemini 2.5 Pro 的 2025 年 5 月群組在第 5 個月仍保持約 40% 的留存率
- 相比之下,Gemini 2.0 Flash 和 Llama 4 Maverick 從未建立起高績效的基礎性群組
回力鏢效應
DeepSeek 模型展現了一個更複雜的模式:「復活跳躍」。與典型的單調遞減留存不同,幾個 DeepSeek 群組在初始流失期後,留存率出現明顯回升。這表明部分流失用戶在嘗試替代方案後,又回到了 DeepSeek——這暗示 DeepSeek 在特定工作負載上提供了最佳的技術性能、成本效益組合。
成本與使用量的動態關係
報告的另一個重要發現是:LLM 市場尚未商品化——價格對使用量的解釋力非常有限。
市場分層
數據揭示了四種使用-成本原型:
- 高端領導者:如 Anthropic 的 Claude 系列,每百萬 token 約 2 美元,但使用量仍然很高
- 高效巨頭:如 Google 的 Gemini 2.0 Flash 和 DeepSeek V3,價格低於 0.40 美元/百萬 token,同時達到類似的使用量水平
- 長尾模型:價格低廉但使用量有限,反映了性能或可見度的限制
- 高端專家:如 OpenAI 的 GPT-4 和 GPT-5 Pro,約 35 美元/百萬 token,用於高風險、利基工作負載
價格彈性有限
趨勢線幾乎是平的,表明需求相對缺乏價格彈性——價格下降 10% 僅對應約 0.5-0.7% 的使用量增加。這意味著:
- 閉源模型:為任務關鍵型應用保持定價權
- 開源模型:吸收來自成本敏感用戶的流量
然而,報告也指出,隨著品質差距的縮小,價格彈性可能會增加,將原本差異化的市場轉變為更具流動性的市場。
對產業的啟示
對模型開發者
- 持續迭代的重要性:DeepSeek 之所以能保持競爭力,是因為其連續的版本發布
- 專注特定領域:在角色扮演或程式設計等特定領域建立優勢比追求「全能」更有效
- 工具調用能力成為標配:沒有可靠工具格式的模型在企業採用和編排環境中將落後
對應用開發者
- 多模型策略:未來是模型無關和異構的——維持靈活性,為每項任務選擇最佳模型
- 關注娛樂應用:角色扮演和創意對話的巨大市場尚未被充分開發
- 全球化思維:LLM 必須在各種語言、上下文和市場中表現良好
對基礎設施提供者
- 延遲、工具處理、上下文支援變得越來越關鍵
- 推理平台必須管理的不僅是無狀態請求,還包括長期運行的對話、執行追蹤和權限敏感的工具整合
- 地理多樣性:需要考慮不同地區的合規要求和部署設置
結語
OpenRouter 的這份報告為我們提供了一面鏡子,讓我們看到 LLM 在真實世界中的使用樣貌——它往往與我們的預期大相徑庭。
幾個核心洞見值得我們深思:
首先,AI 的使用比我們想像的更加多元。角色扮演和娛樂性互動的巨大體量,提醒我們不要只關注生產力工具——陪伴、創意和探索同樣是人類對 AI 的重要需求。
其次,開源與閉源模型已形成穩定的共存格局。30% 的均衡點表明,這不是零和遊戲,而是不同需求的自然分層:閉源模型服務高價值任務,開源模型覆蓋高體量場景。
第三,代理推理正在重新定義什麼是「AI 推理」。從單次生成到多步驟思考、工具調用和狀態管理——這種轉變將在未來幾年深刻改變我們構建 AI 應用的方式。
最後,「玻璃鞋效應」提醒我們:在快速迭代的 AI 市場中,找到並服務好那些「未滿足需求」的關鍵時刻,可能比追趕基準測試分數更重要。
正如報告所言:o1 並沒有終結競爭,而是擴展了設計空間。我們正在從對單一模型的押注轉向系統思維,從直覺轉向儀器化測量,從排行榜增量轉向經驗使用分析。這份基於 100 兆 token 的研究,正是這種轉變的最佳例證。
參考資料
- OpenRouter. (2025). State of AI: An Empirical 100 Trillion Token Study with OpenRouter. https://openrouter.ai/state-of-ai
- Aubakirova, M., Atallah, A., Clark, C., Summerville, J., & Midha, A. (2025). State of AI Report. OpenRouter Inc. & a16z.
- OpenAI. (2024). OpenAI o1 System Card. arXiv:2412.16720. https://arxiv.org/abs/2412.16720
- DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437. https://arxiv.org/abs/2412.19437
- Grattafiori, A., et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783. https://arxiv.org/abs/2407.21783
- Appel, R., et al. (2025). Anthropic Economic Index Report: Uneven Geographic and Enterprise AI Adoption. arXiv:2511.15080. https://arxiv.org/abs/2511.15080
- Chatterji, A., et al. (2025). How People Use ChatGPT. NBER Working Paper 34255.