|

Gemini 3.1 Pro 輸出 Token 爲什麼這麼大?3 步搞懂推理模型隱藏的 Thinking Tokens

作者注:詳解 Gemini 3.1 Pro Preview 輸出 Token 遠超可見文字的原因:Thinking Tokens 推理鏈機制、計費規則、thinking_level 調參省錢技巧

「我就發了一句話,模型也只回了十幾個字,爲什麼輸出 Token 顯示將近 900?錢花到哪裏去了?」——這是很多開發者第一次使用 Gemini 3.1 Pro Preview 時的真實困惑。截圖中的數據也清楚地展示了這個現象:輸入 13 個 Token,輸出卻高達 898 個 Token。

答案就是 Thinking Tokens(推理 Token)。Gemini 3.1 Pro 是一個推理模型,它在給你回答之前,會先在「腦子裏」進行一大段思考推理。這些推理內容默認不會展示給你,但會被計入輸出 Token 並正常計費。

核心價值: 讀完本文,你將徹底理解推理模型的 Thinking Tokens 機制,學會用 thinking_level 參數控制推理深度,在保證質量的前提下節省 50-80% 的輸出 Token 開銷。

<!– 標題 –> Gemini 3.1 Pro 輸出 Token 的「冰山真相」 你看到的回答只是冰山一角,95% 的 Token 消耗在隱藏的推理過程中

<!– 水面線 –> 水面線

<!– 水面上:可見回答(冰山頂部) –> 可見回答 ~50 Token

<!– 標註:可見部分 –> 用戶看到的回答 約 5% 的輸出 Token

<!– 水面下方背景(水) –>

<!– 水面下:Thinking Tokens(冰山底部,更大) –> Thinking Tokens 隱藏的推理過程 ~850 Token

<!– 推理鏈內容示意 –> 「讓我分析這個問題… 首先需要理解用戶意圖… 綜合考慮後,答案是…」

<!– 標註:隱藏部分 –> 隱藏的推理鏈 約 95% 的輸出 Token 正常計費!

<!– 左側數據卡片 –> 實際案例數據 輸入: 13 Token 輸出: 898 Token 費用: $0.009722

<!– 底部品牌 –> API易 apiyi.com — 統一接口調用推理模型與非推理模型,靈活控制成本


Gemini 3.1 Pro Thinking Tokens 核心要點

推理模型和普通對話模型的最大區別,就在於輸出 Token 的構成完全不同。以下是你需要理解的核心概念:

要點 說明 實際影響
輸出 Token = 思考 + 回答 Gemini 3.1 Pro 的輸出 Token 包含 Thinking Tokens(推理鏈)和實際回答兩部分 看到的文字很少,但總 Token 很高
Thinking Tokens 正常計費 推理過程雖然不可見,但按輸出 Token 價格計費($12/百萬 Token) 一個簡單問題可能花費是普通模型的 5-10 倍
thinking_level 可調 支持 LOW/MEDIUM/HIGH 三檔推理深度控制 LOW 檔可節省 80%+ 輸出 Token
非推理模型無此問題 GPT-4o、Claude Sonnet 4.6(關閉 Extended Thinking)等模型所見即所得 簡單任務用非推理模型更划算

Gemini 3.1 Pro Thinking Tokens 的真實消耗案例

回到截圖中的例子。用戶發了一個簡單問題,模型回覆了大約十幾個字,但輸出 Token 顯示 891-898 個。這些 Token 的構成大致如下:

  • 可見回答: 約 30-50 個 Token(你看到的那十幾個字)
  • Thinking Tokens: 約 840-860 個 Token(模型內部的推理過程)

也就是說,超過 95% 的輸出 Token 你是看不到的,它們消耗在了模型的推理鏈中。這就好比你問一個數學老師「1+1 等於幾」,老師嘴上只說了「等於 2」,但腦子裏其實想了:「這是一個基礎算術問題,需要用到加法運算……」——然後你爲老師的整個思考過程付了費。

這個機制不是 Bug,而是推理模型的設計特性。Gemini 3.1 Pro 之所以在複雜問題上表現更好(MATH 基準 95.1%、ARC-AGI-2 達 77.1%),正是因爲它在回答前進行了深度推理。

<!– 標題 –> 普通模型 vs 推理模型:Token 消耗對比 同一個簡單問題,輸出 Token 差異可達 10 倍以上

<!– ===== 左側:普通模型 ===== –> 普通模型(GPT-4o) 所見即所得

<!– 輸入 –> 輸入: 「今天天氣怎麼樣?」 13 Token

<!– 箭頭 –>

<!– 輸出:全部可見 –> 可見回答 「今天天氣晴朗,適合出行」

<!– Token 統計 –> 輸出 Token: 50 100% 可見 | 費用極低

<!– 評價 –> ✓ 簡單任務首選,Token 透明

<!– ===== 右側:推理模型 ===== –> 推理模型(Gemini 3.1 Pro) 先思考再回答

<!– 輸入 –> 輸入: 「今天天氣怎麼樣?」 13 Token

<!– 箭頭 –>

<!– 輸出:推理鏈(隱藏) –> 隱藏推理鏈 ~848 Token

<!– 輸出:可見回答 –> 可見回答 ~50 Token

<!– Token 統計 –> 輸出 Token: 898 僅 5% 可見 | 費用約 18 倍

<!– 評價 –> ⚠ 簡單任務不划算,複雜任務才值得

<!– 底部對比結論 –> 結論: 簡單任務用普通模型 (GPT-4o) 省 18 倍 | 複雜推理任務才需要 Gemini 3.1 Pro


Gemini 3.1 Pro 推理模型 Thinking Tokens 的運作機制

推理模型和普通模型的本質區別

普通模型(如 GPT-4o)收到你的問題後,直接生成回答。你看到多少字,就消耗多少輸出 Token。這就是「所見即所得」。

推理模型(如 Gemini 3.1 Pro Preview)收到問題後,會先生成一段內部推理鏈(Chain of Thought),然後基於推理結果生成最終回答。你看到的只是最終回答,但計費的是「推理鏈 + 回答」的總 Token 數。

模型類型 代表模型 輸出 Token 構成 簡單問題開銷 複雜問題優勢
普通模型 GPT-4o、Claude Sonnet 4.6 100% 可見回答 低(所見即所得) 推理能力一般
推理模型 Gemini 3.1 Pro、GPT-5.4 Thinking 推理鏈 + 可見回答 高(5-10 倍以上) 複雜推理能力強
可切換模型 Claude Sonnet 4.6(Extended Thinking) 可選是否開啓推理 靈活切換 按需開啓推理

Gemini 3.1 Pro Thinking Tokens 的 3 個關鍵細節

細節一:Thinking Tokens 的計費方式。 根據 Google 官方文檔,Thinking Tokens 按照輸出 Token 的標準價格計費。Gemini 3.1 Pro 的輸出 Token 價格爲 $12/百萬 Token。當模型花 4000 個 Token 推理、500 個 Token 回答時,你需要爲 4500 個輸出 Token 付費——而不是 500 個。

細節二:API 返回中如何區分。 在 Gemini API 的響應中,usage_metadata 字段會分別返回 thoughts_token_count(推理 Token 數)和 candidates_token_count(總輸出 Token 數)。但需要注意:Gemini API 的 candidatesTokenCount 已包含 Thinking Tokens,而 Vertex AI 的 candidatesTokenCount 則不包含。

細節三:推理鏈內容默認不可見。 你可以通過設置 includeThoughts: true 來獲取推理過程的摘要(不是完整推理鏈),也可以在 Cherry Studio 等工具中開啓推理鏈展示功能查看模型的思考過程。

🎯 省錢建議: 如果你只是簡單對話或翻譯任務,不需要深度推理,建議切換到普通模型(如 GPT-4o-mini 或 Claude Sonnet 4.6)。API易 apiyi.com 支持通過修改一個 model 參數即可切換模型,無需改動其他代碼。


Gemini 3.1 Pro Thinking Tokens 優化:3 種省錢策略

策略一:使用 thinking_level 參數控制推理深度

Gemini 3.1 Pro 提供了 thinking_level 參數,支持 LOW、MEDIUM、HIGH 三檔。不同檔位的 Token 消耗差異巨大:

thinking_level 推理深度 Token 消耗 適用場景 與 HIGH 對比
LOW 淺層推理 最低 翻譯、分類、簡單問答 節省約 80%+
MEDIUM 平衡推理 中等 日常編程、文檔生成、一般分析 節省約 50%
HIGH 深度推理 最高 數學推導、科學問題、複雜邏輯 基準線

以下是設置 thinking_level 的代碼示例:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# 簡單任務用 LOW,大幅減少 Thinking Tokens
response = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[{"role": "user", "content": "把這句話翻譯成英文:今天天氣真好"}],
    extra_body={"thinking_level": "LOW"}  # LOW / MEDIUM / HIGH
)
print(response.choices[0].message.content)
print(f"總輸出 Token: {response.usage.completion_tokens}")

查看完整的智能路由代碼(根據問題複雜度自動選擇推理深度)
import openai
import json

def smart_gemini_call(
    prompt: str,
    complexity: str = "auto",
    api_key: str = "YOUR_API_KEY"
) -> dict:
    """
    智能調用 Gemini 3.1 Pro,根據任務複雜度自動選擇推理深度

    Args:
        prompt: 用戶輸入
        complexity: "low" / "medium" / "high" / "auto"
        api_key: API密鑰
    Returns:
        包含回答和 Token 使用統計的字典
    """
    client = openai.OpenAI(
        api_key=api_key,
        base_url="https://vip.apiyi.com/v1"
    )

    # 自動判斷複雜度
    if complexity == "auto":
        simple_keywords = ["翻譯", "translate", "分類", "classify", "總結", "summarize"]
        complex_keywords = ["推導", "證明", "計算", "分析", "比較", "爲什麼"]
        prompt_lower = prompt.lower()

        if any(kw in prompt_lower for kw in simple_keywords):
            thinking_level = "LOW"
        elif any(kw in prompt_lower for kw in complex_keywords):
            thinking_level = "HIGH"
        else:
            thinking_level = "MEDIUM"
    else:
        thinking_level = complexity.upper()

    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[{"role": "user", "content": prompt}],
        extra_body={"thinking_level": thinking_level}
    )

    return {
        "answer": response.choices[0].message.content,
        "thinking_level": thinking_level,
        "input_tokens": response.usage.prompt_tokens,
        "output_tokens": response.usage.completion_tokens,
        "total_tokens": response.usage.total_tokens
    }

# 使用示例
# 簡單任務 → 自動選擇 LOW
result = smart_gemini_call("翻譯:今天天氣真好")
print(f"推理深度: {result['thinking_level']}, 輸出Token: {result['output_tokens']}")

# 複雜任務 → 自動選擇 HIGH
result = smart_gemini_call("證明勾股定理的至少兩種方法")
print(f"推理深度: {result['thinking_level']}, 輸出Token: {result['output_tokens']}")

建議: 通過 API易 apiyi.com 調用 Gemini 3.1 Pro 時支持傳遞 thinking_level 參數。建議日常使用設爲 MEDIUM,僅在數學/科學等複雜推理場景使用 HIGH。

策略二:簡單任務直接用非推理模型

並不是所有場景都需要推理模型。對於翻譯、格式轉換、簡單問答等任務,使用非推理模型可以節省 5-10 倍的 Token 開銷:

  • GPT-4o-mini: 性價比極高,日常對話首選
  • Claude Sonnet 4.6(關閉 Extended Thinking): 輸出質量高,Token 所見即所得
  • Gemini 3.1 Flash: Google 的輕量級模型,速度快、成本低

策略三:設置 max_tokens 限制輸出上限

給 API 調用加上 max_tokens 參數可以防止推理模型「過度思考」。但需要注意:max_tokens 限制的是總輸出(推理 + 回答),如果設置過低可能導致回答被截斷。建議根據預期回答長度設置爲 2-3 倍。

🎯 綜合建議: 在 API易 apiyi.com 平臺上,你可以用統一接口同時接入推理模型和非推理模型,根據任務類型動態切換。一個 API Key 即可調用 Gemini、Claude、GPT 全系列模型。

<!– 標題 –> 同一個簡單問題:4 種調用方式的 Token 消耗對比 問題: 「今天天氣怎麼樣?」 | 選對方式最高可省 95% Token

<!– Y軸標籤 –> Gemini 3.1 Pro thinking_level: HIGH

Gemini 3.1 Pro thinking_level: MEDIUM

Gemini 3.1 Pro thinking_level: LOW

GPT-4o-mini 非推理模型

<!– 橫向柱狀圖 –> <!– HIGH: 900 Token –> 900 Token 推理鏈 ~850 + 回答 ~50

<!– MEDIUM: 400 Token –> 400 Token 節省 ~55%

<!– LOW: 150 Token –> 150 Token 節省 ~83%

<!– 非推理模型: 50 Token –> 50 Token 節省 ~95%

<!– 費用標註區域 –> 費用估算(每千次調用): HIGH: ~$0.01/次 MEDIUM: ~$0.005/次 LOW: ~$0.002/次 GPT-4o-mini: ~$0.0001/次

<!– 底部推薦 –> 通過 API易 apiyi.com 一個接口靈活切換推理模型與非推理模型


常見問題

Q1: Gemini 3.1 Pro Thinking Tokens 爲什麼默認不展示推理過程?

這是 Google 的產品設計選擇。完整的推理鏈可能包含數千個 Token 的中間推導,直接展示會嚴重影響用戶體驗。你可以通過設置 includeThoughts: true 獲取推理摘要,或在 Cherry Studio 等客戶端中開啓推理鏈展示功能查看思考過程。

Q2: 怎麼在 API 響應中看到 Thinking Tokens 具體消耗了多少?

在 Gemini API 返回的 usage_metadata 中查看 thoughts_token_count 字段。如果你通過 API易 apiyi.com 調用,可以在平臺的用量統計頁面查看每次調用的詳細 Token 分解(輸入/輸出/推理),方便監控和優化成本。

Q3: 除了 Gemini 3.1 Pro,還有哪些模型有類似的 Thinking Tokens 機制?

主流推理模型都有類似機制:

  • GPT-5.4 Thinking: OpenAI 的推理模型,推理 Token 同樣計入輸出 Token 計費
  • Claude Sonnet 4.6 Extended Thinking: Anthropic 的推理模式,可以選擇性開啓
  • DeepSeek-R1: 開源推理模型,推理鏈完全可見

關鍵區別在於:有些模型(如 Claude)可以靈活開關推理模式,有些模型(如 Gemini 3.1 Pro)默認開啓推理。通過 API易 apiyi.com 可以用統一接口測試對比這些模型的實際 Token 消耗。


總結

Gemini 3.1 Pro Thinking Tokens 的核心要點:

  1. 輸出 Token 包含隱藏的推理鏈: 你看到的只是回答部分,95% 以上的輸出 Token 消耗在不可見的 Thinking Tokens 中
  2. Thinking Tokens 正常計費: 按輸出 Token 標準價格收費,簡單問題的成本可能是非推理模型的 5-10 倍
  3. 用 thinking_level 參數省錢: LOW 檔可節省 80%+ Token,MEDIUM 適合日常使用,僅複雜任務用 HIGH
  4. 簡單任務選非推理模型: 翻譯、分類、簡單問答等場景直接用 GPT-4o-mini 或 Claude Sonnet 4.6 更划算

理解了 Thinking Tokens 機制,你就能合理分配推理預算。推薦通過 API易 apiyi.com 統一接口管理多模型調用,根據任務複雜度動態選擇推理模型或非推理模型,實現最優的質量/成本平衡。


📚 參考資料

  1. Google Cloud 文檔 – Thinking 推理模式: Gemini 推理模型的官方技術文檔

    • 鏈接: docs.cloud.google.com/vertex-ai/generative-ai/docs/thinking
    • 說明: Thinking Tokens 計費規則和 thinking_level 參數配置的權威來源
  2. Google AI 開發者文檔 – Token 計數: 官方 Token 計數和 usage_metadata 字段說明

    • 鏈接: ai.google.dev/gemini-api/docs/tokens
    • 說明: 如何在 API 響應中區分 thoughts_token_count 和 candidates_token_count
  3. Google DeepMind – Gemini 3.1 Pro 模型卡片: 模型能力和推理基準測試詳情

    • 鏈接: deepmind.google/models/model-cards/gemini-3-1-pro/
    • 說明: MATH 95.1%、ARC-AGI-2 77.1% 等性能數據的官方來源
  4. OpenRouter – 推理 Token 最佳實踐: 推理模型 Token 管理的社區最佳實踐

    • 鏈接: openrouter.ai/docs/guides/best-practices/reasoning-tokens
    • 說明: 跨模型的推理 Token 計費規則對比和優化建議

作者: APIYI 技術團隊
技術交流: 歡迎在評論區討論推理模型的 Token 優化經驗,更多模型調用教程可訪問 API易 docs.apiyi.com 文檔中心

Similar Posts