前言

與以往依賴基準測試或定性分析的研究不同，這份報告直接從數據出發，揭示了開發者和終端用戶「在野外」如何真正使用這些模型。從開源與閉源模型的競爭格局、代理推理（Agentic Inference）的崛起，到令人意外的使用場景分布，這份報告打破了許多我們對 AI 使用的既有認知。

本文將深入解析這份報告的核心發現，探討其對模型開發者、AI 應用開發者以及整個產業的深遠影響。

推理模型的範式轉移：從單次生成到多步驟思考

報告首先強調了一個關鍵的轉折點：2024 年 12 月 5 日，OpenAI 發布了 o1 推理模型的完整版本。這標誌著 LLM 從傳統的單次自迴歸預測，轉向了多步驟內部推理的新範式。

在 o1 之前，即使是最先進的模型如 Anthropic 的 Claude 或 Cohere 的 Command R，雖然在工具使用和指令遵循方面表現出色，但其核心推理過程仍然是「一次性」的前向傳播。o1 的出現改變了這一切——它採用了擴展的推理時間計算過程，包含內部多步驟推敲、隱式規劃和迭代精煉。

數據顯示，這種轉變已經深刻影響了用戶行為：

推理模型的使用佔比已超過 50%：從 2025 年初的微乎其微，到年底已佔據超過一半的總 token 使用量
領先的推理模型：xAI 的 Grok Code Fast 1 目前處理最大份額的推理相關流量，其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash
提示詞長度增長近四倍：平均提示詞長度從約 1,500 token 增長到超過 6,000 token
完成詞長度近乎翻倍：這主要是因為推理 token 的增加

這意味著，典型的 LLM 請求不再是簡單的問答或孤立指令，而是成為結構化、類代理迴圈的一部分——調用外部工具、推理狀態、並在更長的上下文中持續運作。

開源模型的崛起：30% 的新均衡

報告中最引人注目的發現之一，是開源模型的市場份額已達到一個新的均衡點：約 30%。

中國模型的異軍突起

中國開發的模型在這波開源浪潮中扮演了關鍵角色。從 2024 年底不足 1.2% 的週佔比，到某些週達到近 30% 的使用量，這一增長令人矚目。主要推手包括：

DeepSeek：以 14.37 兆 token 的總使用量位居開源模型榜首
Qwen（通義千問）：5.59 兆 token
Meta LLaMA：3.96 兆 token
Mistral AI：2.92 兆 token

值得注意的是，開源模型的市場結構正在從「近乎壟斷」轉向「多元競爭」。2024 年底，DeepSeek V3 和 R1 曾佔據開源 token 使用量的一半以上。但到了 2025 年底，沒有任何單一模型能持續超過 25% 的佔比。這種「碎片化」實際上是市場健康的標誌——用戶在更廣泛的選項中找到價值。

中型模型的崛起

報告提出了一個有趣的觀察：「中型」模型正在成為新的主流。按參數量分類：

小型（< 150 億參數）：使用佔比持續下降
中型（150-700 億參數）：快速增長，由 Qwen2.5 Coder 32B、Mistral Small 3 等引領
大型（> 700 億參數）：形成多元競爭格局

這反映了用戶正在尋求能力與效率之間的平衡——既不像小模型那樣功能受限，又不像超大模型那樣成本高昂。

令人意外的使用場景：角色扮演壓倒性領先

或許報告中最出人意料的發現是：角色扮演（Roleplay）是 LLM 最主要的使用場景之一，尤其在開源模型中佔據壓倒性優勢。

開源模型的使用分布

角色扮演：約 52%（超過一半的開源模型使用量）
程式設計：第二大類別
翻譯、一般問答、生產力工具等佔據長尾

這完全顛覆了「LLM 主要用於寫程式碼、郵件或摘要」的既有認知。數據顯示，大量用戶將 LLM 用於陪伴互動、故事創作、遊戲角色扮演等娛樂性質的場景。

為什麼開源模型在角色扮演中佔優勢？

報告分析了幾個原因：

較少的內容限制：開源模型通常沒有商業模型那麼嚴格的安全過濾
可客製化：用戶可以根據需求微調模型
成本效益：角色扮演通常需要大量來回對話，低成本模型更具優勢

程式設計：另一大主戰場

雖然角色扮演佔比驚人，但程式設計仍然是最具戰略重要性的類別之一。數據顯示：

Anthropic 的 Claude 系列在程式設計任務中佔據超過 60% 的份額
程式設計相關請求的提示詞長度是所有類別中最長的，經常超過 20,000 token
這一類別的競爭最為激烈，模型品質或延遲的微小變化都可能在週與週之間改變市場份額

代理推理（Agentic Inference）：下一個前沿

報告詳細記錄了 LLM 使用從「單輪對話」向「代理推理」轉變的過程。所謂代理推理，是指模型不僅生成文字，還要執行規劃、調用工具、跨越延伸上下文進行互動。

工具調用的增長

數據顯示，工具調用的採用率在 2025 年持續上升。最常使用工具調用的模型包括：

OpenAI 的 gpt-4o-mini
Anthropic 的 Claude 3.5 和 3.7 系列
較新的 Claude 4.5 Sonnet

序列長度的增長

平均序列長度（提示詞 + 完成詞）在過去 20 個月內增長了超過三倍——從不到 2,000 token 增長到超過 5,400 token。這種增長反映了：

更長的上下文窗口需求
更深入的任務歷史記錄
更複雜的完成內容

報告預測：代理推理很快將（如果尚未）超越人類推理，成為 AI 推理的主流形式。

全球視角：亞洲的快速崛起

LLM 的使用正在變得越來越全球化和去中心化。報告中的地理數據顯示：

區域分布

地區	使用佔比
北美	47.22%
亞洲	28.61%
歐洲	21.32%
其他	2.85%

亞洲的快速成長

亞洲的使用份額從數據集早期的約 13% 增長到最近的約 31%，增長超過一倍。這反映了：

企業採用率的提高
本地創新能力的增強
中國不僅成為模型的生產者，也成為重要的消費者

語言分布

語言	Token 佔比
英語	82.87%
簡體中文	4.95%
俄語	2.47%
西班牙語	1.43%
泰語	1.03%

雖然英語仍佔據主導地位，但簡體中文近 5% 的佔比顯示了雙語或中文優先環境中用戶的持續參與。

灰姑娘效應：用戶留存的深層邏輯

報告提出了一個有趣的框架來解釋用戶留存現象：「灰姑娘玻璃鞋效應」（Cinderella Glass Slipper Effect）。

什麼是玻璃鞋效應？

在快速演進的 AI 生態系統中，存在一組高價值的工作負載，這些需求在連續的模型迭代中一直未能得到滿足。每個新的前沿模型就像是「試穿」這些未解決的問題。當某個新發布的模型恰好匹配了先前未滿足的技術和經濟約束時，它就達成了精確契合——隱喻中的「玻璃鞋」。

對於那些工作負載終於「合適」的開發者或組織，這種契合會產生強大的鎖定效應：

他們的系統、數據管道和用戶體驗會錨定在第一個解決其問題的模型上
隨著成本下降和可靠性提高，重新平台化的動機會急劇減少

留存數據的啟示

報告分析了多個主要模型的用戶留存曲線，發現：

基礎性群組（Foundational Cohorts）：早期用戶的參與度持續時間遠超後來的群組
Claude 4 Sonnet 的 2025 年 6 月群組和 Gemini 2.5 Pro 的 2025 年 5 月群組在第 5 個月仍保持約 40% 的留存率
相比之下，Gemini 2.0 Flash 和 Llama 4 Maverick 從未建立起高績效的基礎性群組

回力鏢效應

DeepSeek 模型展現了一個更複雜的模式：「復活跳躍」。與典型的單調遞減留存不同，幾個 DeepSeek 群組在初始流失期後，留存率出現明顯回升。這表明部分流失用戶在嘗試替代方案後，又回到了 DeepSeek——這暗示 DeepSeek 在特定工作負載上提供了最佳的技術性能、成本效益組合。

成本與使用量的動態關係

報告的另一個重要發現是：LLM 市場尚未商品化——價格對使用量的解釋力非常有限。

市場分層

數據揭示了四種使用-成本原型：

高端領導者：如 Anthropic 的 Claude 系列，每百萬 token 約 2 美元，但使用量仍然很高
高效巨頭：如 Google 的 Gemini 2.0 Flash 和 DeepSeek V3，價格低於 0.40 美元/百萬 token，同時達到類似的使用量水平
長尾模型：價格低廉但使用量有限，反映了性能或可見度的限制
高端專家：如 OpenAI 的 GPT-4 和 GPT-5 Pro，約 35 美元/百萬 token，用於高風險、利基工作負載

價格彈性有限

趨勢線幾乎是平的，表明需求相對缺乏價格彈性——價格下降 10% 僅對應約 0.5-0.7% 的使用量增加。這意味著：

閉源模型：為任務關鍵型應用保持定價權
開源模型：吸收來自成本敏感用戶的流量

然而，報告也指出，隨著品質差距的縮小，價格彈性可能會增加，將原本差異化的市場轉變為更具流動性的市場。

對產業的啟示

對模型開發者

持續迭代的重要性：DeepSeek 之所以能保持競爭力，是因為其連續的版本發布
專注特定領域：在角色扮演或程式設計等特定領域建立優勢比追求「全能」更有效
工具調用能力成為標配：沒有可靠工具格式的模型在企業採用和編排環境中將落後

對應用開發者

多模型策略：未來是模型無關和異構的——維持靈活性，為每項任務選擇最佳模型
關注娛樂應用：角色扮演和創意對話的巨大市場尚未被充分開發
全球化思維：LLM 必須在各種語言、上下文和市場中表現良好

對基礎設施提供者

延遲、工具處理、上下文支援變得越來越關鍵
推理平台必須管理的不僅是無狀態請求，還包括長期運行的對話、執行追蹤和權限敏感的工具整合
地理多樣性：需要考慮不同地區的合規要求和部署設置

結語

OpenRouter 的這份報告為我們提供了一面鏡子，讓我們看到 LLM 在真實世界中的使用樣貌——它往往與我們的預期大相徑庭。

幾個核心洞見值得我們深思：

首先，AI 的使用比我們想像的更加多元。角色扮演和娛樂性互動的巨大體量，提醒我們不要只關注生產力工具——陪伴、創意和探索同樣是人類對 AI 的重要需求。

其次，開源與閉源模型已形成穩定的共存格局。30% 的均衡點表明，這不是零和遊戲，而是不同需求的自然分層：閉源模型服務高價值任務，開源模型覆蓋高體量場景。

第三，代理推理正在重新定義什麼是「AI 推理」。從單次生成到多步驟思考、工具調用和狀態管理——這種轉變將在未來幾年深刻改變我們構建 AI 應用的方式。

最後，「玻璃鞋效應」提醒我們：在快速迭代的 AI 市場中，找到並服務好那些「未滿足需求」的關鍵時刻，可能比追趕基準測試分數更重要。

正如報告所言：o1 並沒有終結競爭，而是擴展了設計空間。我們正在從對單一模型的押注轉向系統思維，從直覺轉向儀器化測量，從排行榜增量轉向經驗使用分析。這份基於 100 兆 token 的研究，正是這種轉變的最佳例證。

參考資料

OpenRouter. (2025). State of AI: An Empirical 100 Trillion Token Study with OpenRouter. https://openrouter.ai/state-of-ai
Aubakirova, M., Atallah, A., Clark, C., Summerville, J., & Midha, A. (2025). State of AI Report. OpenRouter Inc. & a16z.
OpenAI. (2024). OpenAI o1 System Card. arXiv:2412.16720. https://arxiv.org/abs/2412.16720
DeepSeek-AI. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437. https://arxiv.org/abs/2412.19437
Grattafiori, A., et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783. https://arxiv.org/abs/2407.21783
Appel, R., et al. (2025). Anthropic Economic Index Report: Uneven Geographic and Enterprise AI Adoption. arXiv:2511.15080. https://arxiv.org/abs/2511.15080
Chatterji, A., et al. (2025). How People Use ChatGPT. NBER Working Paper 34255.