Gemini 3.1 Pro выдает такой большой объем токенов? 3 шага, чтобы понять скрытые «мыслительные» токены в рассуждающих моделях

ОтAPIYI - Stable and affordable AI API 2026年 3月 17日

Примечание автора: Подробное объяснение, почему выходные токены Gemini 3.1 Pro Preview значительно превышают видимый текст: механизм цепочки рассуждений Thinking Tokens, правила тарификации и техника настройки параметра thinking_level для экономии средств.

«Я отправил всего одну фразу, модель ответила парой слов, а выходных токенов показывает почти 900? Куда ушли деньги?» — это реальное недоумение многих разработчиков, впервые использующих Gemini 3.1 Pro Preview. Данные на скриншоте также ясно демонстрируют этот феномен: ввод — 13 токенов, вывод — целых 898 токенов.

Ответ кроется в Thinking Tokens (токенах рассуждения). Gemini 3.1 Pro — это модель-рассуждалка. Прежде чем дать вам ответ, она проводит в своей «голове» обширный процесс размышления и логических выводов. По умолчанию это рассуждение вам не показывается, но оно учитывается в выходных токенах и тарифицируется как обычно.

Ключевая ценность: Прочитав эту статью, вы полностью поймёте механизм Thinking Tokens в моделях-рассуждалках, научитесь управлять глубиной рассуждений с помощью параметра thinking_level и сможете сократить расходы на выходные токены на 50-80%, сохраняя при этом качество ответов.

Ключевые моменты о Thinking Tokens в Gemini 3.1 Pro

Главное отличие модели-рассуждалки от обычной диалоговой модели заключается в совершенно разной структуре выходных токенов. Вот ключевые концепции, которые вам нужно понять:

Пункт	Объяснение	Практическое влияние
Выходные токены = размышления + ответ	Выходные токены Gemini 3.1 Pro включают Thinking Tokens (цепочку рассуждений) и фактический ответ	Видимого текста мало, но общее количество токенов высокое
Thinking Tokens тарифицируются	Процесс рассуждения, хоть и невидим, оплачивается по цене выходных токенов ($12/миллион)	Простой вопрос может стоить в 5-10 раз дороже, чем у обычной модели
Параметр `thinking_level` настраивается	Поддерживает три уровня глубины рассуждений: LOW/MEDIUM/HIGH	Уровень LOW может сэкономить 80%+ выходных токенов
У моделей без рассуждений этой проблемы нет	Модели вроде GPT-4o, Claude Sonnet 4.6 (с выключенным Extended Thinking) работают по принципу «что видишь, то и получаешь»	Для простых задач использование моделей без рассуждений экономичнее

Реальный пример расхода Thinking Tokens в Gemini 3.1 Pro

Вернёмся к примеру на скриншоте. Пользователь задал простой вопрос, модель ответила примерно парой слов, но выходных токенов показано 891-898. Примерная структура этих токенов:

Видимый ответ: примерно 30-50 токенов (те самые пара слов, которые вы видите)
Thinking Tokens: примерно 840-860 токенов (внутренний процесс рассуждений модели)

То есть более 95% выходных токенов вы не видите — они расходуются на цепочку рассуждений модели. Это как если бы вы спросили учителя математики «Сколько будет 1+1?», а он вслух ответил бы только «2», но в голове продумал: «Это базовая арифметическая задача, нужно применить операцию сложения…» — и вы заплатили за весь этот мыслительный процесс.

Это не баг, а особенность дизайна моделей-рассуждалок. Именно благодаря глубоким рассуждениям перед ответом Gemini 3.1 Pro показывает лучшие результаты в сложных задачах (95.1% на бенчмарке MATH, 77.1% на ARC-AGI-2).

Как работают Thinking Tokens в модели рассуждений Gemini 3.1 Pro

Принципиальная разница между моделями рассуждений и обычными моделями

Обычная модель (например, GPT-4o), получив ваш вопрос, сразу генерирует ответ. Вы видите столько символов, сколько и потребляет выходных токенов. Это «что видишь, то и получаешь».

Модель рассуждений (например, Gemini 3.1 Pro Preview), получив вопрос, сначала генерирует внутреннюю цепочку рассуждений (Chain of Thought), а затем на основе результата рассуждений формирует окончательный ответ. Вы видите только итоговый ответ, но оплачиваете общее количество токенов: «цепочка рассуждений + ответ».

Тип модели	Пример модели	Состав выходных токенов	Затраты на простые вопросы	Преимущества для сложных задач
Обычная модель	GPT-4o, Claude Sonnet 4.6	100% видимый ответ	Низкие (что видишь, то и получаешь)	Обычные способности к рассуждениям
Модель рассуждений	Gemini 3.1 Pro, GPT-5.4 Thinking	Цепочка рассуждений + видимый ответ	Высокие (в 5-10 раз и более)	Высокие способности к сложным рассуждениям
Переключаемая модель	Claude Sonnet 4.6 (Extended Thinking)	Можно выбрать, включать ли рассуждения	Гибкое переключение	Включение рассуждений по необходимости

3 ключевых детали о Thinking Tokens в Gemini 3.1 Pro

Деталь 1: Способ тарификации Thinking Tokens. Согласно официальной документации Google, Thinking Tokens тарифицируются по стандартной цене выходных токенов. Цена выходных токенов для Gemini 3.1 Pro составляет $12 за миллион токенов. Когда модель тратит 4000 токенов на рассуждения и 500 токенов на ответ, вы платите за 4500 выходных токенов — а не за 500.

Деталь 2: Как различить в ответе API. В ответе Gemini API поле usage_metadata возвращает отдельно thoughts_token_count (количество токенов рассуждений) и candidates_token_count (общее количество выходных токенов). Но обратите внимание: в Gemini API candidatesTokenCount уже включает Thinking Tokens, а в Vertex AI candidatesTokenCount — нет.

Деталь 3: Содержание цепочки рассуждений по умолчанию невидимо. Вы можете получить краткое изложение процесса рассуждений (не полную цепочку), установив параметр includeThoughts: true. Также можно включить отображение цепочки рассуждений в таких инструментах, как Cherry Studio, чтобы увидеть ход мыслей модели.

🎯 Совет по экономии: Если вам нужен простой диалог или перевод, без глубоких рассуждений, рекомендуется переключиться на обычную модель (например, GPT-4o-mini или Claude Sonnet 4.6). На APIYI apiyi.com можно сменить модель, просто изменив параметр model, не меняя остальной код.

Оптимизация Thinking Tokens в Gemini 3.1 Pro: 3 стратегии экономии

Стратегия 1: Использование параметра thinking_level для контроля глубины рассуждений

Gemini 3.1 Pro предоставляет параметр thinking_level, который поддерживает три уровня: LOW, MEDIUM, HIGH. Потребление токенов на разных уровнях сильно различается:

thinking_level	Глубина рассуждений	Потребление токенов	Сценарии применения	Сравнение с HIGH
LOW	Поверхностные рассуждения	Минимальное	Перевод, классификация, простые вопросы и ответы	Экономия ~80%+
MEDIUM	Сбалансированные рассуждения	Среднее	Повседневное программирование, генерация документов, общий анализ	Экономия ~50%
HIGH	Глубокие рассуждения	Максимальное	Математические выводы, научные задачи, сложная логика	Базовый уровень

Пример кода для установки thinking_level:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# Для простых задач используем LOW, чтобы значительно сократить Thinking Tokens
response = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[{"role": "user", "content": "把这句话翻译成英文：今天天气真好"}],
    extra_body={"thinking_level": "LOW"}  # LOW / MEDIUM / HIGH
)
print(response.choices[0].message.content)
print(f"总输出 Token: {response.usage.completion_tokens}")

Посмотреть полный код интеллектуальной маршрутизации (автоматический выбор глубины рассуждений в зависимости от сложности задачи)

import openai
import json

def smart_gemini_call(
    prompt: str,
    complexity: str = "auto",
    api_key: str = "YOUR_API_KEY"
) -> dict:
    """
    Интеллектуальный вызов Gemini 3.1 Pro с автоматическим выбором глубины рассуждений в зависимости от сложности задачи

    Args:
        prompt: Ввод пользователя
        complexity: "low" / "medium" / "high" / "auto"
        api_key: API-ключ
    Returns:
        Словарь, содержащий ответ и статистику использования токенов
    """
    client = openai.OpenAI(
        api_key=api_key,
        base_url="https://vip.apiyi.com/v1"
    )

    # Автоматическое определение сложности
    if complexity == "auto":
        simple_keywords = ["翻译", "translate", "分类", "classify", "总结", "summarize"]
        complex_keywords = ["推导", "证明", "计算", "分析", "比较", "为什么"]
        prompt_lower = prompt.lower()

        if any(kw in prompt_lower for kw in simple_keywords):
            thinking_level = "LOW"
        elif any(kw in prompt_lower for kw in complex_keywords):
            thinking_level = "HIGH"
        else:
            thinking_level = "MEDIUM"
    else:
        thinking_level = complexity.upper()

    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[{"role": "user", "content": prompt}],
        extra_body={"thinking_level": thinking_level}
    )

    return {
        "answer": response.choices[0].message.content,
        "thinking_level": thinking_level,
        "input_tokens": response.usage.prompt_tokens,
        "output_tokens": response.usage.completion_tokens,
        "total_tokens": response.usage.total_tokens
    }

# Пример использования
# Простая задача → автоматический выбор LOW
result = smart_gemini_call("翻译：今天天气真好")
print(f"推理深度: {result['thinking_level']}, 输出Token: {result['output_tokens']}")

# Сложная задача → автоматический выбор HIGH
result = smart_gemini_call("证明勾股定理的至少两种方法")
print(f"推理深度: {result['thinking_level']}, 输出Token: {result['output_tokens']}")

Рекомендация: При вызове Gemini 3.1 Pro через APIYI apiyi.com поддерживается передача параметра thinking_level. Для повседневного использования рекомендуется установить MEDIUM, а HIGH использовать только в сценариях сложных рассуждений, таких как математика или наука.

Стратегия 2: Использование не-рассуждающих моделей для простых задач

Не все сценарии требуют модели рассуждений. Для таких задач, как перевод, преобразование форматов, простые вопросы и ответы, использование не-рассуждающих моделей может сэкономить в 5-10 раз на токенах:

GPT-4o-mini: Высокая рентабельность, лучший выбор для повседневного общения
Claude Sonnet 4.6 (с отключённым Extended Thinking): Высокое качество вывода, токены «что видишь, то и получаешь»
Gemini 3.1 Flash: Облегчённая модель от Google, высокая скорость, низкая стоимость

Стратегия 3: Установка max_tokens для ограничения верхней границы вывода

Добавление параметра max_tokens к вызову API может предотвратить «чрезмерные размышления» модели рассуждений. Но обратите внимание: max_tokens ограничивает общий вывод (рассуждения + ответ). Если установить слишком низкое значение, ответ может быть обрезан. Рекомендуется устанавливать его в 2-3 раза больше ожидаемой длины ответа.

🎯 Комплексная рекомендация: На платформе APIYI apiyi.com вы можете использовать единый интерфейс для одновременного подключения моделей рассуждений и не-рассуждающих моделей, динамически переключаясь в зависимости от типа задачи. Один API-ключ позволяет вызывать всю линейку моделей Gemini, Claude и GPT.

Часто задаваемые вопросы

Вопрос 1: Почему в Gemini 3.1 Pro Thinking Tokens по умолчанию не отображается процесс рассуждений?

Это выбор дизайна продукта от Google. Полная цепочка рассуждений может содержать тысячи промежуточных токенов, и их прямое отображение серьезно ухудшит пользовательский опыт. Вы можете получить краткое изложение рассуждений, установив параметр includeThoughts: true, или включить функцию отображения цепочки рассуждений в клиентах, таких как Cherry Studio, чтобы увидеть процесс мышления.

Вопрос 2: Как увидеть в ответе API, сколько именно было потрачено Thinking Tokens?

Посмотрите поле thoughts_token_count в usage_metadata, возвращаемом Gemini API. Если вы вызываете API через APIYI (apiyi.com), вы можете просмотреть подробную разбивку токенов (входные/выходные/рассуждения) для каждого вызова на странице статистики использования платформы, что удобно для мониторинга и оптимизации затрат.

Вопрос 3: Какие модели, кроме Gemini 3.1 Pro, имеют аналогичный механизм Thinking Tokens?

У основных моделей рассуждений есть похожие механизмы:

GPT-5.4 Thinking: Модель рассуждений от OpenAI, токены рассуждений также учитываются в тарификации выходных токенов.
Claude Sonnet 4.6 Extended Thinking: Режим рассуждений от Anthropic, который можно выборочно включать.
DeepSeek-R1: Модель рассуждений с открытым исходным кодом, цепочка рассуждений полностью видна.

Ключевое различие в том, что некоторые модели (например, Claude) позволяют гибко включать/выключать режим рассуждений, а другие (например, Gemini 3.1 Pro) по умолчанию используют рассуждения. Через APIYI (apiyi.com) можно тестировать и сравнивать фактическое потребление токенов этими моделями с помощью единого интерфейса.

Итог

Ключевые моменты о Gemini 3.1 Pro Thinking Tokens:

Выходные токены включают скрытую цепочку рассуждений: Вы видите только часть с ответом, более 95% потребления выходных токенов приходится на невидимые Thinking Tokens.
Thinking Tokens тарифицируются как обычно: По стандартной цене за выходные токены, стоимость простых задач может быть в 5-10 раз выше, чем у моделей без рассуждений.
Экономьте с параметром thinking_level: Уровень LOW может сэкономить более 80% токенов, MEDIUM подходит для повседневного использования, а HIGH — только для сложных задач.
Для простых задач выбирайте модели без рассуждений: Для перевода, классификации, простых вопросов-ответов и подобных сценариев напрямую используйте GPT-4o-mini или Claude Sonnet 4.6 — это выгоднее.

Поняв механизм Thinking Tokens, вы сможете грамотно распределять бюджет на рассуждения. Рекомендуем управлять вызовами нескольких моделей через единый интерфейс APIYI (apiyi.com), динамически выбирая модель с рассуждениями или без в зависимости от сложности задачи для достижения оптимального баланса качества и стоимости.

📚 Справочные материалы

Документация Google Cloud — Режим мышления (Thinking): Официальная техническая документация по моделям рассуждений Gemini
- Ссылка: docs.cloud.google.com/vertex-ai/generative-ai/docs/thinking
- Описание: Авторитетный источник информации о правилах тарификации Thinking Tokens и настройке параметра thinking_level
Документация Google AI для разработчиков — Подсчёт токенов: Официальное описание подсчёта токенов и поля usage_metadata
- Ссылка: ai.google.dev/gemini-api/docs/tokens
- Описание: Как различать thoughts_token_count и candidates_token_count в ответе API
Google DeepMind — Карточка модели Gemini 3.1 Pro: Подробности о возможностях модели и бенчмарках рассуждений
- Ссылка: deepmind.google/models/model-cards/gemini-3-1-pro/
- Описание: Официальный источник данных о производительности, таких как MATH 95.1%, ARC-AGI-2 77.1%
OpenRouter — Лучшие практики работы с токенами рассуждений: Сообщество лучших практик по управлению токенами в моделях рассуждений
- Ссылка: openrouter.ai/docs/guides/best-practices/reasoning-tokens
- Описание: Сравнение правил тарификации токенов рассуждений между моделями и рекомендации по оптимизации

Автор: Техническая команда APIYI
Технические обсуждения: Делитесь опытом по оптимизации токенов в моделях рассуждений в комментариях. Больше руководств по вызову моделей можно найти в документации APIYI docs.apiyi.com

APIYI - Stable and affordable AI API

Try AI Large Model https://api.apiyi.com for free
Stable and reliable AI LM API aggregation service, Get 300 Millions Tokens for Free~

Claude API | Лучшие практики API

3 ключевых момента тарификации кэширования Claude: почему необходимо использовать нативный формат Anthropic для вызова
ОтAPIYI - Stable and affordable AI API 2026年 2月 23日

{Кэширование промптов Claude} {Тарификация кэширования поддерживает только вызовы в нативном формате Anthropic.} {Нативный формат Anthropic} {/v1/messages} {✓} {Кэширование промптов} {✓} {Расширенное мышление} {✓} {PDF / Цитаты} {✓} {Структурированные выходные данные} {Попадание в кэш — всего 10% стоимости} {Экономьте до 90%} {Режим совместимости OpenAI} {/v1/chat/completions} {✗} {Prompt Caching не поддерживается} {!} {Расширенное мышление (часть)} {✗} {PDF…

Читайте далее 3 ключевых момента тарификации кэширования Claude: почему необходимо использовать нативный формат Anthropic для вызова
Gemini API | Лучшие практики API

Gemini 3.1 Pro Preview: 5 основных причин и 7 способов решения частых ошибок 429
ОтAPIYI - Stable and affordable AI API 2026年 3月 28日

"Почему Gemini 3.1 Pro Preview снова завис?" "Что вообще происходит с ошибкой 429 RESOURCE_EXHAUSTED?" — если вы недавно использовали новейший API Google Gemini 3.1 Pro Preview, то, вероятно, сталкивались с этими вопросами каждый день.Время до первого токена (TTFT) достигает 41 секунды, ошибка 429 часто возникает даже у платных пользователей, а глобальная общая квота для Preview-моделей…

Читайте далее Gemini 3.1 Pro Preview: 5 основных причин и 7 способов решения частых ошибок 429
Лучшие практики API | Сценарии использования API

Практика экономии токенов в OpenClaw: 6 ключевых стратегий контроля длины входных токенов и методы точного поиска блоков кода
ОтAPIYI - Stable and affordable AI API 2026年 3月 25日

Примечание автора: не переходя на дешевые каналы и сохраняя исходную стоимость моделей, разберем, как OpenClaw экономит деньги за счет контроля длины входных токенов. Мы рассмотрим 6 стратегий: изоляция задач в новых диалогах, точный поиск блоков кода вместо загрузки всего файла, обрезка контекста, локальный поиск QMD и другие. OpenClaw славится своим «аппетитом» к токенам — некоторые…

Читайте далее Практика экономии токенов в OpenClaw: 6 ключевых стратегий контроля длины входных токенов и методы точного поиска блоков кода
Gemini API | Лучшие практики API

Полный процесс подключения API Nano Banana 2: подробная инструкция по покупке на официальном сайте и рекомендации по альтернативным решениям
ОтAPIYI - Stable and affordable AI API 2026年 3月 31日

Авторская заметка: пошаговое руководство по официальному подключению API Nano Banana 2 (привязка карты в AI Studio + настройка Vertex AI), анализ сетевых ограничений для пользователей не из США и использование APIYI в качестве надежного резервного решения для обеспечения непрерывности бизнеса. В прошлой статье мы разбирали подключение Nano Banana Pro, а сегодня поговорим о его «брате»…

Читайте далее Полный процесс подключения API Nano Banana 2: подробная инструкция по покупке на официальном сайте и рекомендации по альтернативным решениям
Gemini API | Советы по использованию APIYI

5 способов решить проблему лимитов Google AI Studio — Полное руководство 2026
ОтAPIYI - Stable and affordable AI API 2026年 2月 4日

Разрабатываете проект в Google AI Studio и внезапно получили ошибку 429 RESOURCE_EXHAUSTED? Вы не одиноки — после того как в декабре 2025 года Google резко сократил бесплатные квоты, тысячи проектов разработчиков по всему миру остановились в одночасье. В этой статье мы подробно разберем механизм лимитов Google AI Studio и предложим 5 проверенных решений, которые помогут…

Читайте далее 5 способов решить проблему лимитов Google AI Studio — Полное руководство 2026
API генерации изображений | Gemini API

Списываются ли средства при неудачной генерации изображений через APIYI Nano Banana 2? Полный разбор 3 ситуаций
ОтAPIYI - Stable and affordable AI API 2026年 4月 20日

Снимают ли плату за генерацию изображений при ошибках в Nano Banana 2 API? Это один из самых частых «денежных» вопросов, с которыми сталкиваются разработчики при интеграции Google Gemini 3.1 Flash Image (Nano Banana 2). Особенно когда в ответе приходят ошибки вроде finishReason: IMAGE_SAFETY, blockReason: OTHER или уведомление о том, что «предоставленное изображение похоже на документ,…

Читайте далее Списываются ли средства при неудачной генерации изображений через APIYI Nano Banana 2? Полный разбор 3 ситуаций