|

Гайд по экономии в OpenClaw: 3 ключевые настройки, которые снизят ежемесячный счет с $600 до $60

openclaw-token-cost-optimization-claude-cache-guide-ru 图示

Вы используете OpenClaw для своих рабочих процессов, но каждый раз, видя счет за API в конце месяца, у вас становится не по себе — $300, $500 или даже больше $600?

Дело не в вас, а в самой архитектуре OpenClaw. Неоптимизированный экземпляр OpenClaw при выполнении каждой задачи отправляет ИИ-модели огромное количество «лишнего контента», впустую сжигая токены.

Хорошая новость: всего несколько ключевых настроек могут снизить ваш счет на 80–90%, и большинство пользователей даже не подозревают о самом эффективном приеме — использовании нативного формата интерфейса Claude вместо режима совместимости с OpenAI.

В этой статье мы подробно разберем коренную причину высокого потребления токенов в OpenClaw и пошагово научим вас правильно настраивать интерфейсы, конфигурацию кэширования и выбирать верные API-каналы, чтобы превратить ежемесячный счет из $600 в $60.


I. Почему OpenClaw потребляет так много токенов: 3 основные причины

Причина 1: Повторная отправка всей истории диалога при каждом запросе

Это самая неочевидная, но самая весомая причина.

OpenClaw спроектирован по принципу «полного контекста»: при каждом запросе к ИИ-модели отправляется вся история сообщений с самого начала диалога. Это необходимо, чтобы модель «помнила», что было сделано и сказано ранее.

Пример:

Раунд 1: Пользователь отправил 50 токенов, Ответ ИИ 200 токенов → Отправлено в этот раз 250 токенов
Раунд 2: Пользователь отправил 50 токенов, Ответ ИИ 200 токенов → Отправлено в этот раз 500 токенов (включая раунд 1)
Раунд 3: Пользователь отправил 50 токенов, Ответ ИИ 200 токенов → Отправлено в этот раз 750 токенов (включая раунды 1+2)
...
Раунд 10: Фактически добавилось всего 250 токенов, но объем отправки уже составляет 2 500 токенов

В рабочих процессах OpenClaw, решающих сложные задачи, этот «эффект снежного кома» заставляет потребление токенов расти в геометрической прогрессии. История контекста обычно составляет 40–50% от общего расхода токенов.

Причина 2: Системный промпт отправляется заново при каждом вызове

Системный промпт (System Prompt) в OpenClaw определяет роль агента, границы его возможностей, список доступных инструментов и правила поведения. Обычно его объем составляет от 5 000 до 10 000 токенов.

Критическая проблема: этот огромный системный промпт полностью пересылается при каждом вызове API.

Предположим, вы используете OpenClaw для выполнения 50 задач в день, и объем системного промпта составляет 8 000 токенов:

Ежедневный расход на системный промпт = 50 × 8 000 = 400 000 токенов
Ежемесячный расход ≈ 12 000 000 токенов (только на системный промпт!)

При цене на входные токены Claude Sonnet 4.6 ($3 за миллион токенов), только системный промпт обойдется вам в $36 в месяц. И это без учета самого диалога и ответов модели.

Причина 3: Режим рассуждения увеличивает расход токенов в 10–50 раз

Когда OpenClaw сталкивается со сложной задачей, он включает «цепочку рассуждений» или «режим рассуждения» (Thinking/Reasoning). В этом режиме ИИ сначала «думает», а потом отвечает, что повышает качество результата, но ценой резкого скачка потребления токенов.

Особенности расхода токенов в режиме рассуждения:

  • Процесс мышления генерирует огромное количество промежуточных токенов (они часто невидимы, но тарифицируются).
  • Рассуждения для сложной задачи могут занять от 10 000 до 50 000 токенов.
  • Если это не контролировать, всего несколько сложных задач могут «съесть» весь дневной бюджет.
Сценарий расхода токенов Обычный режим Режим рассуждения Разница (в разы)
Простые вопросы и ответы ~500 токенов ~2 000 токенов 4 раза
Обработка электронной почты ~2 000 токенов ~15 000 токенов 7,5 раз
Анализ кода ~5 000 токенов ~80 000 токенов 16 раз
Сложные многоэтапные исследования ~10 000 токенов ~200 000 токенов 20+ раз

🎯 Быстрая диагностика: Если счета за OpenClaw аномально высоки, первым делом проверьте логи токенов на предмет использования режима рассуждения.
Отключение этого режима для простых задач — один из самых быстрых способов сэкономить.
Переход на более подходящую модель также может значительно снизить затраты — через сервис-прокси API APIYI (apiyi.com) можно быстро переключаться между моделями для тестирования.

Распределение расхода по трем основным причинам

openclaw-token-cost-optimization-claude-cache-guide-ru 图示

Понимание этих трех источников расхода — первый шаг к разработке стратегии экономии:

Источник расхода Доля в общем расходе Можно ли оптимизировать Основные способы оптимизации
История диалога (накопление контекста) 40–50% ✅ Высокая степень Кэширование, регулярная очистка, QMD
Повторная отправка системного промпта 25–30% ✅ Высокая степень Кэширование (экономия до 90%)
Режим рассуждения / Thinking 20–25% ✅ По необходимости Включать только для сложных задач
Вызовы инструментов и вывод 5–15% ⚡ Ограниченно Сокращение описаний инструментов

2. Самый недооцененный инструмент для экономии: кэширование в Claude

Что такое кэширование в Claude

Prompt Caching (кэширование промптов) — это нативная функция, представленная Anthropic в конце 2024 года. Ее основная логика проста: часто повторяющийся контент кэшируется на стороне сервера, и при последующих вызовах модель считывает его напрямую из кэша, а не обрабатывает заново.

Цена чтения из кэша: всего 10% от обычной стоимости входных токенов (экономия 90%).

Это означает, что если вы каждый раз отправляете системный промпт (System Prompt) объемом 8 000 токенов, то при включенном кэшировании и попадании в него вы платите только за 800 токенов. Для пользователей OpenClaw, отправляющих десятки запросов в день, эта оптимизация может сэкономить сотни долларов в месяц.

Полная система тарификации кэша

Тип кэша Множитель стоимости Срок действия (TTL) Сценарий использования
Обычный входной токен 1× базовая цена Не кэшируется Обработка каждый раз заново
Запись в кэш (первая) 1.25× 5 минут Создание кэша
Запись в кэш (длительная) 1 час Сценарии с частыми вызовами
Чтение из кэша (попадание) 0.1× (экономия 90%) В течение срока действия Повторные запросы

Пример расчета реальной экономии:

Сценарий: Системный промпт OpenClaw на 8 000 токенов.
          50 вызовов в день, из которых 48 попадают в кэш.

Без кэширования: 50 × 8 000 = 400 000 токенов
                 Стоимость = 400 000 × $3/1M = $1.20 в день = $36 в месяц

С кэшированием:  2 записи: 2 × 8 000 × 1.25 = 20 000 токенов = $0.06
                 48 попаданий: 48 × 8 000 × 0.1 = 38 400 токенов = $0.12
                 Итого в день ≈ $0.18 → в месяц ≈ $5.40

Экономия: $36 - $5.40 = $30.60 в месяц (только на системном промпте)
Процент экономии: 85%

Как включить кэширование в OpenClaw

Для включения кэширования есть необходимое условие: вы должны использовать нативный формат интерфейса Anthropic (/v1/messages), а не режим совместимости с OpenAI (/v1/chat/completions).

Правильный способ настройки (пример на Python SDK):

import anthropic

# Нужно использовать нативный SDK Anthropic, а не OpenAI SDK
client = anthropic.Anthropic(
    api_key="ваш-api-ключ",
    base_url="https://api.apiyi.com/v1"  # APIYI поддерживает нативный формат Anthropic
)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=4096,
    system=[
        {
            "type": "text",
            "text": "Ты — профессиональный AI-ассистент... [системный промпт на 8000 токенов]",
            "cache_control": {"type": "ephemeral"}  # ← КЛЮЧ: помечаем этот контент для кэширования
        }
    ],
    messages=[
        {"role": "user", "content": "Помоги мне разобрать сегодняшнюю почту"}
    ]
)

Технические ограничения кэша:

  • Можно установить максимум 4 точки кэширования (маркеры cache_control).
  • Серия Sonnet: минимальный объем кэшируемого контента ≥ 1 024 токена.
  • Opus / Haiku 4.5: минимальный объем кэшируемого контента ≥ 4 096 токенов.
  • Поддерживаемые модели: Claude Opus 4, Sonnet 4.6, Sonnet 4.5, Sonnet 4, Sonnet 3.7, Haiku 4.5, Haiku 3.5, Haiku 3 и др.

🎯 Важное примечание: APIYI (apiyi.com) полностью поддерживает вызовы в нативном формате Anthropic, включая параметр cache_control. Используя нативный формат для моделей Claude в APIYI, вы получаете двойную выгоду: тарификацию с учетом кэша (экономия до 90%) + скидку 20% от APIYI.


3. Важное понимание: почему режим совместимости с OpenAI не экономит токены

Это самая частая ловушка, в которую попадают пользователи OpenClaw.

Суть различий между форматами интерфейсов

Многие сторонние AI-инструменты и сервисы-прокси для удобства пользователей предоставляют режим совместимости с OpenAI — то есть позволяют вызывать модели Claude и другие через формат интерфейса OpenAI /v1/chat/completions.

На первый взгляд это удобно: «один код для всех моделей». Но есть критический недостаток:

В формате интерфейса /v1/chat/completions просто нет места для параметра cache_control — потому что это эксклюзивная нативная функция Anthropic.

Когда вы вызываете Claude через формат совместимости с OpenAI:

  1. Ваш запрос преобразуется в формат OpenAI.
  2. Сервис-прокси затем переводит его обратно в нативный формат Anthropic.
  3. Но информация о cache_control теряется уже на первом шаге.
  4. Сервер Claude получает запрос без маркеров кэширования и каждый раз списывает полную стоимость за все токены.

openclaw-token-cost-optimization-claude-cache-guide-ru 图示

Сравнение: режим совместимости с OpenAI vs нативный формат Anthropic

Критерий сравнения Режим совместимости с OpenAI Нативный формат Anthropic
Путь API /v1/chat/completions /v1/messages
Поддержка кэша Claude ❌ Не поддерживается ✅ Полная поддержка
Параметр cache_control ❌ Отсутствует ✅ Поддержка 4 точек
Оплата системного промпта 💸 Полная (1× цена) 💰 Чтение из кэша (0.1× цена)
Сложность кода Низкая (универсальный код) Средняя (нужен Anthropic SDK)
Эффект экономии (высокая частота) 0% До 90%

Дополнительные проблемы при развертывании API не от производителя

Помимо формата интерфейса, есть еще одна ситуация, в которой легко запутаться: модель с тем же названием, развернутая облачным провайдером, не идентична оригиналу.

На примере GLM-4 (Zhipu AI):

  • Официальный API на сайте z.ai: поддерживает нативную функцию кэширования от Zhipu.
  • GLM-4, развернутая на Alibaba Cloud / Tencent Cloud: использует API-шлюз облачного провайдера и не обладает функцией кэширования оригинала.

Это не проблема самой GLM-4, а общая черта сторонних развертываний: облачные провайдеры при хостинге моделей обычно предоставляют только стандартный API для чата и не передают специфические функции производителя (такие как кэширование).

Аналогия: это как купить товар через посредника — вы можете не получить доступ к специальному сервисному обслуживанию от официального производителя.

Реальное влияние:

Сценарий: 50 вызовов в день, системный промпт 6 000 токенов.

Официальный API (с поддержкой кэша):
  Запись: 2 раза × 6 000 × 1.25 = 15 000 токенов
  Чтение: 48 раз × 6 000 × 0.1 = 28 800 токенов
  Эквивалентный расход ≈ 43 800 токенов/день

Сторонний API (без кэша):
  Полная оплата: 50 раз × 6 000 = 300 000 токенов/день

Разница: расход без кэша в 6.85 раза выше, чем с кэшем.

IV. Сравнение API: как выбрать лучший вариант подключения для OpenClaw

Сравнение четырех вариантов подключения

Вариант подключения Цена (относительно оригинала) Поддержка кэширования Поддержка нескольких моделей Сценарии использования
Официальный API Anthropic 100% (оригинал) ✅ Полная ❌ Только Claude Большой бюджет, только пользователи Claude
APIYI (нативный формат Anthropic) 80% (скидка 20%) ✅ Полная ✅ Несколько моделей Рекомендуется: экономия + гибкое переключение
Обычные прокси-сервисы (совместимые с OpenAI) 85-95% (варьируется) ❌ Не поддерживается ✅ Несколько моделей Если не используется кэширование Claude
Сторонние облачные развертывания 90-110% (варьируется) ❌ Не поддерживается ❌ Одна модель Сценарии с корпоративными требованиями комплаенса

Двойная логика экономии с APIYI

Преимущество APIYI для моделей Claude заключается в том, что сервис одновременно поддерживает нативный формат Anthropic и предлагает цену со скидкой 20%.

Сочетание этих двух факторов дает впечатляющий результат:

Обычный пользователь (оригинал + совместимость с OpenAI, без кэша):
  Ежемесячный расход токенов System Prompt: 12 000 000 токенов
  Стоимость = 12 000 000 × $3/1M = $36

Пользователь APIYI (скидка 20% + нативный формат + кэш):
  Фактически оплачиваемые токены ≈ 1 440 000 (после кэширования)
  Стоимость = 1 440 000 × $3 × 0.8 / 1M = $3.46

Общая экономия = ($36 - $3.46) / $36 ≈ 90%

🎯 Совет по выбору: Если вы используете OpenClaw и в основном выбираете Claude, настоятельно рекомендуем подключаться через APIYI (apiyi.com) в нативном формате Anthropic. Базовая скидка 20% плюс 90% экономии на кэшировании в сумме снизят ваш счет на 85-90%. При этом APIYI поддерживает GLM-5, GPT и другие модели, что позволяет легко переключаться для сравнения результатов.


V. Полный гайд по экономии в OpenClaw: 5 шагов, которые можно сделать прямо сейчас

Шаг 1: Переключитесь на нативный формат интерфейса Anthropic

Это самый важный шаг, который напрямую определяет, сможете ли вы воспользоваться тарификацией с кэшированием.

Способ настройки OpenClaw:

В конфигурации моделей OpenClaw (config.json) найдите поле models.providers и добавьте APIYI в качестве провайдера по следующему шаблону. Ключевой момент — установить поле api в значение "anthropic-messages". Только так будет использоваться нативный формат Anthropic с поддержкой кэширования:

{
  "models": {
    "providers": {
      "apiyi": {
        "baseUrl": "https://api.apiyi.com",
        "apiKey": "sk-ваш_ключ_здесь",
        "api": "anthropic-messages",
        "headers": {
          "anthropic-version": "2023-06-01",
          "anthropic-beta": ""
        },
        "models": [
          {
            "id": "claude-sonnet-4-6",
            "name": "claude-sonnet-4-6",
            "reasoning": false,
            "input": ["text"],
            "contextWindow": 200000,
            "maxTokens": 16384
          },
          {
            "id": "claude-sonnet-4-6-thinking",
            "name": "claude-sonnet-4-6-thinking",
            "reasoning": false,
            "input": ["text"],
            "contextWindow": 200000,
            "maxTokens": 16384
          }
        ]
      }
    }
  }
}

Пояснения к настройке:

  • "api": "anthropic-messages"Критически важно: указывает на использование нативного формата /v1/messages вместо совместимого /v1/chat/completions.
  • "baseUrl": "https://api.apiyi.com" ← Базовый URL APIYI (не нужно добавлять /v1, OpenClaw сделает это автоматически).
  • "anthropic-version": "2023-06-01" ← Заголовок версии Anthropic API, без него запрос не пройдет.
  • contextWindow: 200000 ← Claude Sonnet 4.6 поддерживает контекстное окно в 200K.

Проверка работы кэша:

Проверьте заголовки ответа API или логи на наличие полей cache_read_input_tokens и cache_creation_input_tokens. Если там есть значения, значит кэш работает:

# Проверка ответа с кэшем
response = client.messages.create(...)

# Проверка поля usage
print(response.usage)
# Пример вывода:
# Usage(
#   input_tokens=150,                    # новые токены в текущем запросе
#   cache_creation_input_tokens=8000,    # первая запись в кэш (тарифицируется как 1.25x)
#   cache_read_input_tokens=0,           # последующее попадание в кэш (тарифицируется как 0.1x)
#   output_tokens=300
# )

🎯 Как подключиться: Зарегистрируйтесь на APIYI (apiyi.com), получите API-ключ и установите base_url на https://api.apiyi.com/v1. Теперь вы можете использовать нативный формат Anthropic без изменения кода, и тарификация с кэшированием Claude заработает мгновенно.

Шаг 2: Разумно расставляйте точки кэширования

Расположение точек кэширования (cache_control) имеет решающее значение. Следует кэшировать «большой и статичный» контент:

# Лучшая практика: кэширование системного промпта + определений инструментов
response = client.messages.create(
    model="claude-sonnet-4-6",
    system=[
        {
            "type": "text",
            "text": SYSTEM_PROMPT,          # Основной системный промпт на 5 000–10 000 токенов
            "cache_control": {"type": "ephemeral"}  # Точка кэширования 1
        },
        {
            "type": "text",
            "text": TOOL_DEFINITIONS,       # Список инструментов (обычно тоже объемный)
            "cache_control": {"type": "ephemeral"}  # Точка кэширования 2
        }
    ],
    messages=conversation_history,          # История диалога (не кэшируется, меняется каждый раз)
    ...
)

Ключевые моменты стратегии кэширования:

  • Подходит для кэширования: системные промпты, определения инструментов, большие статические документы, содержимое документов из RAG.
  • Не подходит для кэширования: текущие сообщения пользователя, динамически генерируемый контент, данные, меняющиеся при каждом запросе.
  • ⚠️ Важно: кэширование работает по совпадению префикса, поэтому статический контент должен находиться в начале последовательности сообщений.

Шаг 3: Включите QMD для уменьшения длины контекста

QMD (Quick Memory Database) — это функция локального семантического поиска в OpenClaw. Принцип ее работы:

Традиционный способ:
  Каждая отправка [всей истории диалога] → тратит огромное количество токенов

Способ QMD:
  Локальное создание векторной базы данных → поиск наиболее релевантных фрагментов истории
  Каждая отправка только [3–5 самых релевантных записей] → экономия 60–97% токенов

Реальный эффект QMD: Согласно официальной документации OpenClaw, QMD позволяет достичь экономии токенов от 60% до 97%, в зависимости от объема истории диалогов и типа задачи.

Как включить (в интерфейсе настроек OpenClaw):

  • Settings → Memory → Enable QMD
  • Установите путь хранения QMD (локально, данные не выгружаются)
  • Установите порог релевантности (рекомендуется выше 0.7, чтобы избежать «шумных» записей из истории)

Шаг 4: Выбирайте подходящую модель под тип задачи

Не для всех задач нужна самая мощная модель. Правильное распределение моделей — ключ к контролю затрат:

Стратегия грейдирования задач:

Простые задачи (напоминания, конвертация форматов, простой поиск)
  → Используйте Claude Haiku 4.5 (самая быстрая и дешевая)
  → Примерно 1/5 цены Sonnet

Средние задачи (работа с почтой, систематизация файлов, ревью кода)
  → Используйте Claude Sonnet 4.6 (сбалансированная)
  → Успешность 86.9% (первое место в PinchBench)

Сложные задачи (архитектурный анализ, многошаговые исследования, сложные рассуждения)
  → Используйте Claude Opus 4.6 (сильнейшая логика)
  → Включайте режим рассуждений только тогда, когда это действительно необходимо

Шаг 5: Периодически очищайте контекст

История диалога — один из крупнейших источников расхода токенов (40–50%). Рекомендуется:

  • Установить лимит раундов контекста: после 15–20 раундов автоматически делайте резюме и очищайте историю.
  • Ручная очистка после завершения задачи: сбрасывайте контекст перед началом новой задачи.
  • Включите функцию сжатия сессий в OpenClaw: используйте ИИ для сжатия длинной истории в краткую сводку.

Прогноз общего эффекта от пяти шагов оптимизации

Для пользователя со средним уровнем использования OpenClaw (расходы без оптимизации ~$300–600), ожидаемый эффект после выполнения этих шагов:

Шаг оптимизации На что направлено Ожидаемая экономия Сложность реализации
1. Переход на нативный формат Anthropic Повторная тарификация System Prompt 85-90% (в части SP) ⭐ Низкая (смена base_url)
2. Настройка точек кэширования Инструменты + статика 80-90% (в части инструментов) ⭐⭐ Низкая/Средняя
3. Включение QMD Токены истории диалога 60-97% (в части истории) ⭐⭐ Низкая/Средняя
4. Грейдирование моделей по задачам Общая стоимость токенов 30-70% (разница в цене) ⭐⭐⭐ Средняя
5. Периодическая очистка контекста Эффект «снежного кома» истории 20-40% (долгосрочная выгода) ⭐ Низкая

🎯 Совет по приоритетам: Шаги 1 (переход на нативный формат) и 3 (включение QMD) дают максимальную выгоду при минимальных усилиях. Рекомендуем начать с них — это обычно снижает счет на 60–80%. При подключении Claude через APIYI (apiyi.com) первый шаг занимает 5 минут и требует изменения всего одной строки base_url.


6. Практическая настройка: полный пример OpenClaw + APIYI + кэширование Claude

Ниже приведен полный оптимизированный пример конфигурации OpenClaw, который большинство пользователей могут просто скопировать и использовать:

import anthropic

# Используем нативный формат Anthropic через APIYI
client = anthropic.Anthropic(
    api_key="sk-your-apiyi-key",       # API-ключ APIYI (получите после регистрации на apiyi.com)
    base_url="https://api.apiyi.com/v1"
)

# Определяем системный промпт (большой объем данных, подходит для кэширования)
SYSTEM_PROMPT = """
Ты — профессиональный AI-ассистент, работающий на платформе OpenClaw.
В твои обязанности входит: управление расписанием, обработка почты, систематизация файлов, помощь в разработке кода...
[Обычно здесь идут подробные инструкции на 5 000–10 000 токенов]
"""

# Определяем список инструментов (тоже большой фиксированный блок, подходит для кэширования)
TOOL_DEFINITIONS = """
Доступные инструменты: calendar_api, email_api, file_system, code_runner...
[Подробное описание инструментов, обычно 2 000–5 000 токенов]
"""

def call_openclaw_with_cache(conversation_history: list, user_message: str):
    """Оптимизированный вызов OpenClaw API с включенным кэшированием"""

    response = client.messages.create(
        model="claude-sonnet-4-6",    # 1-е место в рейтинге PinchBench
        max_tokens=4096,

        # Системный промпт: разметка точек кэширования
        system=[
            {
                "type": "text",
                "text": SYSTEM_PROMPT,
                "cache_control": {"type": "ephemeral"}  # Точка кэширования 1
            },
            {
                "type": "text",
                "text": TOOL_DEFINITIONS,
                "cache_control": {"type": "ephemeral"}  # Точка кэширования 2
            }
        ],

        # История диалога + новое сообщение
        messages=[
            *conversation_history,     # История сообщений (не кэшируется, так как меняется каждый раз)
            {"role": "user", "content": user_message}
        ]
    )

    # Вывод использования токенов (для мониторинга эффекта оптимизации)
    usage = response.usage
    print(f"Входные токены: {usage.input_tokens}")
    print(f"Запись в кэш: {usage.cache_creation_input_tokens}")
    print(f"Чтение из кэша: {usage.cache_read_input_tokens}")
    print(f"Выходные токены: {usage.output_tokens}")

    return response.content[0].text

🎯 Быстрый старт: Замените api_key в коде выше на ваш ключ, полученный при регистрации на APIYI (apiyi.com). Больше ничего менять не нужно — вы сразу начнете использовать нативный формат Anthropic с тарификацией за кэш и скидкой 20% от APIYI.


Часто задаваемые вопросы (FAQ)

В: Действительно ли APIYI поддерживает нативный формат Anthropic (/v1/messages)?

Да, APIYI (apiyi.com) поддерживает два формата интерфейса одновременно:

  • Нативный формат Anthropic: /v1/messages (поддерживает тарификацию кэша)
  • OpenAI-совместимый формат: /v1/chat/completions (удобен для универсального кода)

Для моделей Claude настоятельно рекомендуем использовать нативный формат Anthropic, чтобы экономить на кэшировании. Просто используйте Python SDK anthropic и укажите base_url, указывающий на APIYI.

🎯 Зайдите на apiyi.com, зарегистрируйтесь, и в консоли вы увидите примеры кода для обоих форматов.

В: Достаточно ли 5 минут TTL для кэша? Как понять, нужен ли TTL на 1 час?

Это зависит от частоты ваших вызовов:

  • Если интервал между вызовами OpenClaw < 5 минут (например, вы непрерывно обрабатываете поток задач), стандартного TTL в 5 минут будет достаточно.
  • Если интервал составляет от 5 минут до 1 часа (например, вы делаете паузы между пачками задач), стоит рассмотреть TTL 1 час (стоимость записи в 2 раза выше, но вероятность попадания в кэш гораздо больше).
  • Если интервал > 1 часа, кэширование теряет смысл, проще каждый раз записывать данные заново.

В: Есть ли советы по экономии при использовании китайских моделей, например GLM-5?

Функция кэширования для GLM-5 требует использования нативного API через официальный сайт Zhipu AI (z.ai). Сторонние развертывания (например, на Alibaba Cloud) могут её не поддерживать.

APIYI также поддерживает GLM-5 и другие отечественные модели со скидкой от 20%. Это удобно для тестирования разных моделей через единый интерфейс. Когда определитесь с подходящей моделью, сможете решить — оставаться на APIYI или подключаться к вендору напрямую.

В: Я уже использую другой сервис-прокси API, насколько сложно перейти на платформу с поддержкой нативного формата?

Затраты на миграцию минимальны. Нужно изменить всего два параметра в коде:

# До миграции (OpenAI-совместимый формат)
from openai import OpenAI
client = OpenAI(api_key="sk-xxx", base_url="адрес_старого_прокси")
response = client.chat.completions.create(model="claude-sonnet-4-6", ...)

# После миграции (нативный формат Anthropic с поддержкой кэша)
import anthropic
client = anthropic.Anthropic(
    api_key="sk-новый-ключ-APIYI",       # ← Меняем на ключ APIYI
    base_url="https://api.apiyi.com/v1"  # ← Меняем адрес на APIYI
)
response = client.messages.create(model="claude-sonnet-4-6", ...)
# Затем просто добавьте cache_control в параметры system, чтобы включить кэш

Основная работа — это замена chat.completions.create на messages.create. Формат сообщений очень похож (структура role/content совпадает, но system превращается из строки в список объектов). Обычно миграция занимает не больше пары часов.

В: Как проверить, что в моем экземпляре OpenClaw успешно включилось кэширование?

Самый простой способ: при двух последовательных вызовах посмотрите на объект usage в ответе API:

  • Первый вызов: cache_creation_input_tokens имеет значение (запись в кэш).
  • Второй вызов: cache_read_input_tokens имеет значение (попадание в кэш).

Если во втором вызове cache_read_input_tokens равен количеству токенов в вашем System Prompt, значит, кэширование работает на все сто.

В: Обязательно ли отключать режим рассуждений (Extended Thinking)?

Необязательно отключать его полностью, но стоит использовать его по необходимости. Рекомендуемая стратегия:

  • Простые задачи (сортировка почты, расписание): отключите режим рассуждений.
  • Задачи средней сложности (ревью кода, саммари): по умолчанию выключен, включайте при возникновении трудностей.
  • Сложные задачи (архитектурные решения, многоэтапные исследования): включите, но установите разумный лимит budget_tokens.

В Claude API можно ограничить максимальный расход токенов на рассуждения через параметр thinking: {"type": "enabled", "budget_tokens": 5000}.


Итог: Основная логика экономии в OpenClaw

Давайте резюмируем все способы экономии на одной схеме:

openclaw-token-cost-optimization-claude-cache-guide-ru 图示

Вспомним ключевые моменты этой статьи:

Три главные причины высокого расхода:

  1. Повторная отправка всей истории диалога (40-50% затрат)
  2. Повторная отправка System Prompt при каждом запросе (25-30%)
  3. Бесконтрольное использование тяжелых моделей для простых задач (20-25%)

Самые эффективные способы экономии:

  • 🥇 Кэширование Claude: экономия до 90% (обязательно используйте нативный формат Anthropic)
  • 🥈 Локальный семантический поиск QMD: экономия 60-97% токенов контекста истории
  • 🥉 Разделение моделей по задачам: Haiku для легких задач, Sonnet/Opus — для сложных
  • Выбор API-канала через APIYI: базовая скидка 20% + поддержка нативного формата

Самый важный инсайт:

Формат, совместимый с OpenAI (/v1/chat/completions), не умеет передавать параметр cache_control.
Даже если вы используете Claude через сервис-прокси, вы не получите скидку за кэширование в этом формате.
Чтобы реально экономить, необходимо использовать нативный формат Anthropic (/v1/messages).

🎯 Действуйте прямо сейчас: Зарегистрируйтесь на APIYI (apiyi.com) и получите API-ключ с поддержкой нативного формата Anthropic.
Просто замените base_url на https://api.apiyi.com/v1 — переход займет не более 3 минут,
и вы увидите резкое снижение счета за токены в тот же день. Скидка 20% на модели Claude и единый интерфейс для всех топовых моделей — это оптимальный выбор для пользователей OpenClaw, стремящихся к эффективности.


Все данные о ценах на API основаны на открытых источниках по состоянию на март 2026 года. Актуальные цены уточняйте в официальных анонсах платформ.

Автор: Команда APIYI | Больше советов по использованию OpenClaw в центре помощи APIYI на apiyi.com

Похожие записи