|

Gemini 3.1 Pro выдает такой большой объем токенов? 3 шага, чтобы понять скрытые «мыслительные» токены в рассуждающих моделях

Примечание автора: Подробное объяснение, почему выходные токены Gemini 3.1 Pro Preview значительно превышают видимый текст: механизм цепочки рассуждений Thinking Tokens, правила тарификации и техника настройки параметра thinking_level для экономии средств.

«Я отправил всего одну фразу, модель ответила парой слов, а выходных токенов показывает почти 900? Куда ушли деньги?» — это реальное недоумение многих разработчиков, впервые использующих Gemini 3.1 Pro Preview. Данные на скриншоте также ясно демонстрируют этот феномен: ввод — 13 токенов, вывод — целых 898 токенов.

Ответ кроется в Thinking Tokens (токенах рассуждения). Gemini 3.1 Pro — это модель-рассуждалка. Прежде чем дать вам ответ, она проводит в своей «голове» обширный процесс размышления и логических выводов. По умолчанию это рассуждение вам не показывается, но оно учитывается в выходных токенах и тарифицируется как обычно.

Ключевая ценность: Прочитав эту статью, вы полностью поймёте механизм Thinking Tokens в моделях-рассуждалках, научитесь управлять глубиной рассуждений с помощью параметра thinking_level и сможете сократить расходы на выходные токены на 50-80%, сохраняя при этом качество ответов.

gemini-3-1-pro-thinking-tokens-output-high-explained-ru 图示


Ключевые моменты о Thinking Tokens в Gemini 3.1 Pro

Главное отличие модели-рассуждалки от обычной диалоговой модели заключается в совершенно разной структуре выходных токенов. Вот ключевые концепции, которые вам нужно понять:

Пункт Объяснение Практическое влияние
Выходные токены = размышления + ответ Выходные токены Gemini 3.1 Pro включают Thinking Tokens (цепочку рассуждений) и фактический ответ Видимого текста мало, но общее количество токенов высокое
Thinking Tokens тарифицируются Процесс рассуждения, хоть и невидим, оплачивается по цене выходных токенов ($12/миллион) Простой вопрос может стоить в 5-10 раз дороже, чем у обычной модели
Параметр thinking_level настраивается Поддерживает три уровня глубины рассуждений: LOW/MEDIUM/HIGH Уровень LOW может сэкономить 80%+ выходных токенов
У моделей без рассуждений этой проблемы нет Модели вроде GPT-4o, Claude Sonnet 4.6 (с выключенным Extended Thinking) работают по принципу «что видишь, то и получаешь» Для простых задач использование моделей без рассуждений экономичнее

Реальный пример расхода Thinking Tokens в Gemini 3.1 Pro

Вернёмся к примеру на скриншоте. Пользователь задал простой вопрос, модель ответила примерно парой слов, но выходных токенов показано 891-898. Примерная структура этих токенов:

  • Видимый ответ: примерно 30-50 токенов (те самые пара слов, которые вы видите)
  • Thinking Tokens: примерно 840-860 токенов (внутренний процесс рассуждений модели)

То есть более 95% выходных токенов вы не видите — они расходуются на цепочку рассуждений модели. Это как если бы вы спросили учителя математики «Сколько будет 1+1?», а он вслух ответил бы только «2», но в голове продумал: «Это базовая арифметическая задача, нужно применить операцию сложения…» — и вы заплатили за весь этот мыслительный процесс.

Это не баг, а особенность дизайна моделей-рассуждалок. Именно благодаря глубоким рассуждениям перед ответом Gemini 3.1 Pro показывает лучшие результаты в сложных задачах (95.1% на бенчмарке MATH, 77.1% на ARC-AGI-2).

gemini-3-1-pro-thinking-tokens-output-high-explained-ru 图示


Как работают Thinking Tokens в модели рассуждений Gemini 3.1 Pro

Принципиальная разница между моделями рассуждений и обычными моделями

Обычная модель (например, GPT-4o), получив ваш вопрос, сразу генерирует ответ. Вы видите столько символов, сколько и потребляет выходных токенов. Это «что видишь, то и получаешь».

Модель рассуждений (например, Gemini 3.1 Pro Preview), получив вопрос, сначала генерирует внутреннюю цепочку рассуждений (Chain of Thought), а затем на основе результата рассуждений формирует окончательный ответ. Вы видите только итоговый ответ, но оплачиваете общее количество токенов: «цепочка рассуждений + ответ».

Тип модели Пример модели Состав выходных токенов Затраты на простые вопросы Преимущества для сложных задач
Обычная модель GPT-4o, Claude Sonnet 4.6 100% видимый ответ Низкие (что видишь, то и получаешь) Обычные способности к рассуждениям
Модель рассуждений Gemini 3.1 Pro, GPT-5.4 Thinking Цепочка рассуждений + видимый ответ Высокие (в 5-10 раз и более) Высокие способности к сложным рассуждениям
Переключаемая модель Claude Sonnet 4.6 (Extended Thinking) Можно выбрать, включать ли рассуждения Гибкое переключение Включение рассуждений по необходимости

3 ключевых детали о Thinking Tokens в Gemini 3.1 Pro

Деталь 1: Способ тарификации Thinking Tokens. Согласно официальной документации Google, Thinking Tokens тарифицируются по стандартной цене выходных токенов. Цена выходных токенов для Gemini 3.1 Pro составляет $12 за миллион токенов. Когда модель тратит 4000 токенов на рассуждения и 500 токенов на ответ, вы платите за 4500 выходных токенов — а не за 500.

Деталь 2: Как различить в ответе API. В ответе Gemini API поле usage_metadata возвращает отдельно thoughts_token_count (количество токенов рассуждений) и candidates_token_count (общее количество выходных токенов). Но обратите внимание: в Gemini API candidatesTokenCount уже включает Thinking Tokens, а в Vertex AI candidatesTokenCount — нет.

Деталь 3: Содержание цепочки рассуждений по умолчанию невидимо. Вы можете получить краткое изложение процесса рассуждений (не полную цепочку), установив параметр includeThoughts: true. Также можно включить отображение цепочки рассуждений в таких инструментах, как Cherry Studio, чтобы увидеть ход мыслей модели.

🎯 Совет по экономии: Если вам нужен простой диалог или перевод, без глубоких рассуждений, рекомендуется переключиться на обычную модель (например, GPT-4o-mini или Claude Sonnet 4.6). На APIYI apiyi.com можно сменить модель, просто изменив параметр model, не меняя остальной код.


Оптимизация Thinking Tokens в Gemini 3.1 Pro: 3 стратегии экономии

Стратегия 1: Использование параметра thinking_level для контроля глубины рассуждений

Gemini 3.1 Pro предоставляет параметр thinking_level, который поддерживает три уровня: LOW, MEDIUM, HIGH. Потребление токенов на разных уровнях сильно различается:

thinking_level Глубина рассуждений Потребление токенов Сценарии применения Сравнение с HIGH
LOW Поверхностные рассуждения Минимальное Перевод, классификация, простые вопросы и ответы Экономия ~80%+
MEDIUM Сбалансированные рассуждения Среднее Повседневное программирование, генерация документов, общий анализ Экономия ~50%
HIGH Глубокие рассуждения Максимальное Математические выводы, научные задачи, сложная логика Базовый уровень

Пример кода для установки thinking_level:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Для простых задач используем LOW, чтобы значительно сократить Thinking Tokens
response = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[{"role": "user", "content": "把这句话翻译成英文:今天天气真好"}],
    extra_body={"thinking_level": "LOW"}  # LOW / MEDIUM / HIGH
)
print(response.choices[0].message.content)
print(f"总输出 Token: {response.usage.completion_tokens}")

Посмотреть полный код интеллектуальной маршрутизации (автоматический выбор глубины рассуждений в зависимости от сложности задачи)
import openai
import json

def smart_gemini_call(
    prompt: str,
    complexity: str = "auto",
    api_key: str = "YOUR_API_KEY"
) -> dict:
    """
    Интеллектуальный вызов Gemini 3.1 Pro с автоматическим выбором глубины рассуждений в зависимости от сложности задачи

    Args:
        prompt: Ввод пользователя
        complexity: "low" / "medium" / "high" / "auto"
        api_key: API-ключ
    Returns:
        Словарь, содержащий ответ и статистику использования токенов
    """
    client = openai.OpenAI(
        api_key=api_key,
        base_url="https://vip.apiyi.com/v1"
    )

    # Автоматическое определение сложности
    if complexity == "auto":
        simple_keywords = ["翻译", "translate", "分类", "classify", "总结", "summarize"]
        complex_keywords = ["推导", "证明", "计算", "分析", "比较", "为什么"]
        prompt_lower = prompt.lower()

        if any(kw in prompt_lower for kw in simple_keywords):
            thinking_level = "LOW"
        elif any(kw in prompt_lower for kw in complex_keywords):
            thinking_level = "HIGH"
        else:
            thinking_level = "MEDIUM"
    else:
        thinking_level = complexity.upper()

    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[{"role": "user", "content": prompt}],
        extra_body={"thinking_level": thinking_level}
    )

    return {
        "answer": response.choices[0].message.content,
        "thinking_level": thinking_level,
        "input_tokens": response.usage.prompt_tokens,
        "output_tokens": response.usage.completion_tokens,
        "total_tokens": response.usage.total_tokens
    }

# Пример использования
# Простая задача → автоматический выбор LOW
result = smart_gemini_call("翻译:今天天气真好")
print(f"推理深度: {result['thinking_level']}, 输出Token: {result['output_tokens']}")

# Сложная задача → автоматический выбор HIGH
result = smart_gemini_call("证明勾股定理的至少两种方法")
print(f"推理深度: {result['thinking_level']}, 输出Token: {result['output_tokens']}")

Рекомендация: При вызове Gemini 3.1 Pro через APIYI apiyi.com поддерживается передача параметра thinking_level. Для повседневного использования рекомендуется установить MEDIUM, а HIGH использовать только в сценариях сложных рассуждений, таких как математика или наука.

Стратегия 2: Использование не-рассуждающих моделей для простых задач

Не все сценарии требуют модели рассуждений. Для таких задач, как перевод, преобразование форматов, простые вопросы и ответы, использование не-рассуждающих моделей может сэкономить в 5-10 раз на токенах:

  • GPT-4o-mini: Высокая рентабельность, лучший выбор для повседневного общения
  • Claude Sonnet 4.6 (с отключённым Extended Thinking): Высокое качество вывода, токены «что видишь, то и получаешь»
  • Gemini 3.1 Flash: Облегчённая модель от Google, высокая скорость, низкая стоимость

Стратегия 3: Установка max_tokens для ограничения верхней границы вывода

Добавление параметра max_tokens к вызову API может предотвратить «чрезмерные размышления» модели рассуждений. Но обратите внимание: max_tokens ограничивает общий вывод (рассуждения + ответ). Если установить слишком низкое значение, ответ может быть обрезан. Рекомендуется устанавливать его в 2-3 раза больше ожидаемой длины ответа.

🎯 Комплексная рекомендация: На платформе APIYI apiyi.com вы можете использовать единый интерфейс для одновременного подключения моделей рассуждений и не-рассуждающих моделей, динамически переключаясь в зависимости от типа задачи. Один API-ключ позволяет вызывать всю линейку моделей Gemini, Claude и GPT.

gemini-3-1-pro-thinking-tokens-output-high-explained-ru 图示


Часто задаваемые вопросы

Вопрос 1: Почему в Gemini 3.1 Pro Thinking Tokens по умолчанию не отображается процесс рассуждений?

Это выбор дизайна продукта от Google. Полная цепочка рассуждений может содержать тысячи промежуточных токенов, и их прямое отображение серьезно ухудшит пользовательский опыт. Вы можете получить краткое изложение рассуждений, установив параметр includeThoughts: true, или включить функцию отображения цепочки рассуждений в клиентах, таких как Cherry Studio, чтобы увидеть процесс мышления.

Вопрос 2: Как увидеть в ответе API, сколько именно было потрачено Thinking Tokens?

Посмотрите поле thoughts_token_count в usage_metadata, возвращаемом Gemini API. Если вы вызываете API через APIYI (apiyi.com), вы можете просмотреть подробную разбивку токенов (входные/выходные/рассуждения) для каждого вызова на странице статистики использования платформы, что удобно для мониторинга и оптимизации затрат.

Вопрос 3: Какие модели, кроме Gemini 3.1 Pro, имеют аналогичный механизм Thinking Tokens?

У основных моделей рассуждений есть похожие механизмы:

  • GPT-5.4 Thinking: Модель рассуждений от OpenAI, токены рассуждений также учитываются в тарификации выходных токенов.
  • Claude Sonnet 4.6 Extended Thinking: Режим рассуждений от Anthropic, который можно выборочно включать.
  • DeepSeek-R1: Модель рассуждений с открытым исходным кодом, цепочка рассуждений полностью видна.

Ключевое различие в том, что некоторые модели (например, Claude) позволяют гибко включать/выключать режим рассуждений, а другие (например, Gemini 3.1 Pro) по умолчанию используют рассуждения. Через APIYI (apiyi.com) можно тестировать и сравнивать фактическое потребление токенов этими моделями с помощью единого интерфейса.


Итог

Ключевые моменты о Gemini 3.1 Pro Thinking Tokens:

  1. Выходные токены включают скрытую цепочку рассуждений: Вы видите только часть с ответом, более 95% потребления выходных токенов приходится на невидимые Thinking Tokens.
  2. Thinking Tokens тарифицируются как обычно: По стандартной цене за выходные токены, стоимость простых задач может быть в 5-10 раз выше, чем у моделей без рассуждений.
  3. Экономьте с параметром thinking_level: Уровень LOW может сэкономить более 80% токенов, MEDIUM подходит для повседневного использования, а HIGH — только для сложных задач.
  4. Для простых задач выбирайте модели без рассуждений: Для перевода, классификации, простых вопросов-ответов и подобных сценариев напрямую используйте GPT-4o-mini или Claude Sonnet 4.6 — это выгоднее.

Поняв механизм Thinking Tokens, вы сможете грамотно распределять бюджет на рассуждения. Рекомендуем управлять вызовами нескольких моделей через единый интерфейс APIYI (apiyi.com), динамически выбирая модель с рассуждениями или без в зависимости от сложности задачи для достижения оптимального баланса качества и стоимости.


📚 Справочные материалы

  1. Документация Google Cloud — Режим мышления (Thinking): Официальная техническая документация по моделям рассуждений Gemini

    • Ссылка: docs.cloud.google.com/vertex-ai/generative-ai/docs/thinking
    • Описание: Авторитетный источник информации о правилах тарификации Thinking Tokens и настройке параметра thinking_level
  2. Документация Google AI для разработчиков — Подсчёт токенов: Официальное описание подсчёта токенов и поля usage_metadata

    • Ссылка: ai.google.dev/gemini-api/docs/tokens
    • Описание: Как различать thoughts_token_count и candidates_token_count в ответе API
  3. Google DeepMind — Карточка модели Gemini 3.1 Pro: Подробности о возможностях модели и бенчмарках рассуждений

    • Ссылка: deepmind.google/models/model-cards/gemini-3-1-pro/
    • Описание: Официальный источник данных о производительности, таких как MATH 95.1%, ARC-AGI-2 77.1%
  4. OpenRouter — Лучшие практики работы с токенами рассуждений: Сообщество лучших практик по управлению токенами в моделях рассуждений

    • Ссылка: openrouter.ai/docs/guides/best-practices/reasoning-tokens
    • Описание: Сравнение правил тарификации токенов рассуждений между моделями и рекомендации по оптимизации

Автор: Техническая команда APIYI
Технические обсуждения: Делитесь опытом по оптимизации токенов в моделях рассуждений в комментариях. Больше руководств по вызову моделей можно найти в документации APIYI docs.apiyi.com

Похожие записи