Недавно один знакомый разработчик спросил в чате: «Может ли gpt-image-2 генерировать изображения на основе CSV или Excel файлов? Видел в TikTok, как люди используют модель для создания презентаций, хочу попробовать считывать данные из файлов». Ответ однозначный: нет. Выпущенная OpenAI в апреле 2026 года модель gpt-image-2 принимает на вход только текстовые промпты и изображения. Она не умеет ни читать CSV/Excel, ни экспортировать файлы в формате PPTX или PDF.
Однако это не значит, что задача невыполнима. Извлечение текста из файлов, создание скриншотов страниц и последующая передача этих данных в gpt-image-2 — это стандартный рабочий процесс на сегодняшний день. В этой статье мы разберем границы возможностей gpt-image-2 при работе с файлами и рассмотрим 5 обходных путей, которые помогут вам реализовать требования клиентов, кажущиеся на первый взгляд невозможными.

Текущий статус поддержки загрузки файлов в gpt-image-2: только текст и изображения
Давайте сразу проясним официальные ограничения — все дальнейшие решения строятся именно на них. Согласно документации OpenAI, gpt-image-2 (снапшот gpt-image-2-2026-04-21) — это нативный мультимодальный генератор изображений. В таблице поддержки модальностей четко указаны границы ввода и вывода.
| Тип модальности | Поддержка ввода | Поддержка вывода | Примечание |
|---|---|---|---|
| Текст (text) | ✅ Да | ❌ Нет | Используется как промпт, поддерживает русский, китайский и др. |
| Изображение (image) | ✅ Да | ✅ Да | Ввод для редактирования/референса, вывод PNG/JPEG/WebP |
| Аудио (audio) | ❌ Нет | ❌ Нет | Не относится к генерации изображений |
| Видео (video) | ❌ Нет | ❌ Нет | Не относится к генерации изображений |
| Документы (CSV/Excel/PDF/Word/PPT) | ❌ Нет | ❌ Нет | Нельзя загрузить напрямую, нельзя получить на выходе |
Проще говоря, gpt-image-2 — это не «универсальный мозг» уровня GPT-4, он специализируется на генерации и редактировании изображений, поэтому OpenAI не стала добавлять в него парсеры для CSV/Excel/PDF. Если вы отправите бинарный файл Excel в API, сервер вернет ошибку 400. Если вашему проекту нужен стабильный доступ к gpt-image-2 с высоким RPM, рекомендуем использовать сервисы-прокси API, такие как APIYI (apiyi.com). Этот сервис уже систематизировал документацию по валидации ввода и ограничениям параметров, что поможет новичкам избежать типичных ошибок.
🎯 Ключевой вывод: Границы возможностей
gpt-image-2— это «текст + изображение → изображение», не стоит воспринимать его как полноценного агента. Задачи, связанные с файлами, должны решаться внешними инструментами, прокси-слой (например, APIYI apiyi.com) обеспечивает стабильность вызовов, а бизнес-логика отвечает за предварительную обработку данных.
Почему «генерация PPT» и «генерация изображений из файлов» — это разные вещи
Многие клиенты путают «генерацию презентаций с помощью ИИ» и «чтение файлов моделью для создания картинок», хотя на деле это два совершенно разных рабочих процесса. Кейсы автоматизации PPT, которые вы видите в соцсетях, — это почти всегда многоступенчатый конвейер: сначала большая языковая модель превращает данные в текст, затем модель генерации изображений создает иллюстрации для каждого слайда, и в конце программа собирает всё это в файл PPTX.
Звено, отвечающее за генерацию изображений, — это обычно модель типа gpt-image-2. Она видит только полученный текстовый промпт и эталонное изображение, не имея ни малейшего представления о том, что было источником — Excel или Notion. Как только вы это поймете, остальные 5 решений станут очевидными.
Что нового по сравнению с предыдущим поколением gpt-image-1
Многие пользователи спрашивают: если файлы всё равно нельзя загружать, чем gpt-image-2 лучше gpt-image-1? Разница критична и напрямую влияет на то, будет ли работать схема «скриншот как входные данные». Новая версия получила значительный прирост в качестве рендеринга текста, количестве эталонных изображений и способностях к рассуждению.
| Параметр | gpt-image-1 | gpt-image-2 |
|---|---|---|
| Макс. кол-во эталонных изображений | 4 | 16 (рекомендуется ≤4 для лучшего результата) |
| Рендеринг текста | Хорошо для англ., ошибки в кириллице/азиатских | Значительно улучшена точность для многих языков |
| Способность к рассуждению | Нет | Встроенный режим «thinking» для сложных макетов |
| Дата отсечки знаний | Начало 2024 | Декабрь 2025 |
| Разрешение вывода | До 1024×1024 | До 3840×2160 (4K) |
То есть, если раньше у вас не получалось эффективно «менять стиль по скриншоту» с помощью gpt-image-1, сейчас стоит попробовать прогнать задачу через gpt-image-2, особенно для таких сценариев, как создание постеров или слайдов презентаций, где требуется точный рендеринг текста.
5 способов настроить рабочий процесс для генерации изображений из файлов с помощью gpt-image-2
Эти 5 подходов рассчитаны на разные источники данных и сценарии использования. Выбор зависит от типа файла, желаемого результата и уровня автоматизации. Мы расположили их от самых простых к наиболее сложным.
Способ 1: Преобразование файла в текстовый промпт для gpt-image-2
Подходит для структурированных данных: CSV, Excel, JSON или обычного текста. Суть в том, чтобы с помощью скрипта (на Python с библиотеками pandas или openpyxl) прочитать файл, собрать заголовки, ключевые строки и статистику в связное описание на естественном языке, а затем отправить его в качестве prompt при вызове /v1/images/generations. Например, превратить таблицу продаж в запрос: «Столбчатая диаграмма продаж за 1-й квартал 2026 года по трем регионам: Восточный — 12 млн, Северный — 9,8 млн, Южный — 7,6 млн, стиль — строгий деловой, темная тема».
Плюс этого метода — простота и отсутствие необходимости в исходных изображениях. Минус — ограниченный объем информации в промпте. Модель gpt-image-2 неплохо справляется с цифрами, но не идеально: лучше четко прописать значения для каждого столбца, иначе модель может распределить высоту «на глаз» для визуальной гармонии.
Способ 2: Скриншот страницы файла как эталонное изображение
Подходит для PDF, PPT, веб-отчетов и всего, что «уже выглядит как готовое изображение». Конвертируйте нужную страницу в PNG (через предпросмотр macOS, pdftoppm, Puppeteer и т.д.), затем загрузите его через эндпоинт /v1/images/edits в качестве параметра image. Добавьте промпт с описанием изменений, например: «Сохрани макет, замени английские заголовки на русские, а столбчатую диаграмму сделай в стиле Apple».
В версии 2026 года gpt-image-2 принимает до 16 эталонных изображений, но официальные рекомендации и опыт сообщества советуют использовать 1 основное и 1–2 для стиля. Если добавить больше, внимание модели рассеивается. Каждое изображение лучше сжимать до 1,5 МБ, иначе расход входных токенов заметно вырастет.
Способ 3: Предварительная визуализация данных перед «причесыванием» в gpt-image-2
Лучший выбор, если нужно добиться баланса между точностью данных и эстетикой. Сначала создайте базовый график с помощью matplotlib, ECharts или Excel и сохраните его как PNG. Затем используйте этот график как входное изображение для gpt-image-2 с промптом: «Сохрани положение точек и значения, измени стиль оформления на темный с неоновой подсветкой в стиле инфографики».
Это самый надежный способ совместить данные и ИИ-дизайн. Точность обеспечивается проверенными библиотеками для построения графиков, а визуальный стиль — возможностями gpt-image-2. Для массовой обработки рекомендую вызывать gpt-image-2 через APIYI (apiyi.com). Сервис-прокси API обеспечивает балансировку нагрузки через пул аккаунтов, что идеально подходит для задач с тысячами генераций в день.

Способ 4: Конвейер из двух моделей (LLM + gpt-image-2)
Подходит для сложных документов: длинных отчетов, контрактов или маркетинговых материалов. Сначала используйте GPT-4 или Claude 4 для анализа текста и создания 4–8 описаний сцен, а затем циклично вызывайте gpt-image-2 для генерации изображений по этим описаниям.
Ключ к успеху — разделение «понимания смысла» и «генерации изображения». LLM решает, что должно быть на картинке, а gpt-image-2 рисует это согласно промпту. Весь процесс можно объединить через один API-ключ на APIYI (apiyi.com), что избавляет от проблем с переключением SDK и управлением ключами.
Способ 5: Программная сборка PPT/презентаций после пакетной генерации
Это секрет тех самых «автоматических презентаций». Сама модель не умеет сохранять файлы в формате PPTX, но она может сгенерировать изображения для каждого слайда, которые затем вставляются в шаблон с помощью Python-библиотеки python-pptx или PptxGenJS.
Коротко говоря: презентация — это набор изображений в контейнере. gpt-image-2 решает задачу создания «визуала», а python-pptx — задачу верстки. Обычно для обложки используют качественные изображения 4K, для внутренних слайдов — 1536×1024, а для оглавления — черновики, что позволяет оптимизировать расходы через параметр quality. Презентация на 20 слайдов требует 20–30 вызовов модели, и через сервис-прокси API с высокой пропускной способностью (5000 RPM) это делается за считанные минуты.
| Способ | Тип файла | Сложность | Качество | Сценарий |
|---|---|---|---|---|
| 1. Файл в текст | CSV/Excel/JSON | Низкая | Среднее | Простые графики, иллюстрации |
| 2. Скриншот как вход | PDF/PPT/Web | Низкая | Выше среднего | Редизайн, перенос стиля |
| 3. Предварительная визуализация | CSV/Excel | Средняя | Высокое | Улучшение графиков |
| 4. LLM + gpt-image-2 | Отчеты/Текст | Выше средней | Высокое | Инфографика, учебные материалы |
| 5. Пакетная сборка PPT | Любой | Высокая | Высокое | Автоматизация презентаций |
Пример кода для вызова API: как превратить содержимое файла во входные данные для gpt-image-2
Когда переносишь концепцию на уровень кода, всё становится гораздо нагляднее. Ниже приведен минимально рабочий пример на Python, который преобразует таблицу Excel в текстовый промпт, а затем вызывает gpt-image-2 для генерации соответствующей визуализации. Мы используем APIYI (apiyi.com) в качестве единого сервиса-прокси API — достаточно просто заменить base_url, остальной синтаксис SDK полностью совпадает с официальным.
from openai import OpenAI
import pandas as pd
import base64
client = OpenAI(
api_key="your-apiyi-key",
base_url="https://api.apiyi.com/v1"
)
# Читаем данные из Excel
df = pd.read_excel("sales_q1.xlsx")
summary = df.groupby("region")["sales"].sum().to_dict()
# Формируем промпт для модели
prompt_text = (
f"Создай столбчатую диаграмму продаж по регионам за 1 квартал 2026 года, "
f"данные: {summary}, "
f"строгий деловой стиль, белый заголовок, четкие подписи данных."
)
# Вызов модели
resp = client.images.generate(
model="gpt-image-2",
prompt=prompt_text,
size="1536x1024",
quality="high"
)
# Сохраняем результат
img_b64 = resp.data[0].b64_json
with open("sales_chart.png", "wb") as f:
f.write(base64.b64decode(img_b64))
Логика работы проста: бизнес-слой парсит Excel в текстовое описание, а модель получает на вход только текст. Если нужно использовать режим «изображение-в-изображение» (вариант 2), просто замените client.images.generate на client.images.edit и передайте файл через image=open("page.png", "rb").
| Параметр | Диапазон значений | Описание |
|---|---|---|
model |
gpt-image-2 / gpt-image-2-mini |
Версия mini работает быстрее и стоит дешевле |
size |
1024×1024 / 1536×1024 / 1024×1536 / кастом | Макс. сторона ≤ 3840px, должна делиться на 16 |
quality |
low / medium / high / auto | Высокое качество требует больше времени и токенов |
n |
1–4 | Кол-во изображений за раз, для массовой генерации лучше цикл |
response_format |
png(по умолч.) / jpeg / webp | gpt-image-2 не поддерживает экспорт в PDF/PPTX |
🎯 Совет по коду: Чтобы быстро запустить этот процесс, рекомендуем зарегистрироваться на APIYI (apiyi.com). Просто укажите
base_urlкакhttps://api.apiyi.com/v1, и вы сможете использовать единый интерфейс для вызова gpt-image-2, GPT-5 и серии Claude 4, избавив себя от необходимости подключать каждого вендора по отдельности.

4 типичные ошибки клиентов и способы их избежать
Разобравшись с 5 основными сценариями, вы неизбежно столкнетесь с нюансами при их реализации. Мы собрали 4 категории вопросов, которые чаще всего задают в наших чатах поддержки.
Ошибка №1: Передача CSV-файла в base64 внутри промпта
Некоторые пользователи пытаются «схитрить»: читают CSV-файл, превращают его в строку base64 и вставляют в промпт, надеясь, что модель сама его декодирует. Этот путь тупиковый. gpt-image-2 не выполняет код и не воспринимает строки как данные — для модели это просто бессмысленный набор символов, который превратится в «кашу» на изображении. Правильный подход — разобрать CSV на уровне бизнес-логики и передать данные в виде текстового описания (см. Сценарий №1).
Ошибка №2: Ожидание, что gpt-image-2 нарисует таблицу «один в один как в Excel»
Модель отлично справляется с визуальной согласованностью и стилизацией, но пиксельная точность — это совсем другое. Если вам нужна строгая таблица, рекомендуем комбинированную стратегию: сначала создайте точную версию с помощью ECharts/matplotlib (Сценарий №3), а затем используйте gpt-image-2 для улучшения внешнего вида. Рассчитывать на то, что один промпт заставит модель идеально отрисовать 100 строк данных, пока не стоит.
Ошибка №3: Потребность в векторных форматах (SVG или PDF)
gpt-image-2 поддерживает только три растровых формата: PNG, JPEG и WebP. Векторных форматов вроде SVG, PDF или AI нет. Если вам нужен вектор, используйте Stable Diffusion в связке с vectorizer.ai или попросите GPT-5 сгенерировать код SVG. Уточняйте формат вывода до выбора модели, чтобы не пришлось переделывать работу.
Ошибка №4: Повторная отправка одного и того же эталонного изображения и перерасход токенов
gpt-image-2 обрабатывает каждое входящее изображение с высокой точностью. Даже если вы лишь немного меняете промпт, каждый запрос приводит к повторному расчету входных токенов (input tokens). Рекомендуем реализовать кэширование эталонных изображений на стороне клиента или использовать previous_response_id для диалогового редактирования (Responses API), чтобы повторно использовать контекст предыдущего изображения.
Еще один важный нюанс: даже если вы выводите миниатюру 256×256, но исходное эталонное изображение — это 4K-картинка, оплата за входные токены будет считаться как за 4K. Сначала сжимайте эталонное изображение до 1024 пикселей по длинной стороне на локальном сервере перед загрузкой — это сэкономит более 60% входных токенов. Это самый простой способ оптимизации затрат при массовых задачах.
| Проблема | Причина | Рекомендуемое решение |
|---|---|---|
| 400 invalid_request_error | Загружен не бинарный файл изображения (CSV/Excel) | Преобразуйте файл в текст или скриншот на своем уровне |
| «Каша» вместо текста | Строка base64 в промпте | Используйте описание на естественном языке |
| Неточные данные в таблице | Попытка нарисовать таблицу промптом | Используйте визуализацию (Сценарий №3) |
| Нужен формат SVG | Модель не поддерживает вектор | Используйте GPT-5 для генерации кода SVG |
| Перерасход токенов | Повторная отправка больших изображений | Сжимайте до 1.5 МБ, используйте кэширование |
Часто задаваемые вопросы (FAQ)
Q1: Действительно ли gpt-image-2 совсем не может работать с PDF?
Напрямую загрузить PDF нельзя. Но можно использовать pdftoppm для конвертации каждой страницы в PNG, а затем подавать их как изображения. Если нужно «понять содержимое PDF и сгенерировать изображение», рекомендуем сначала использовать GPT-5 для извлечения описания из PDF, а затем передать это описание в gpt-image-2. Эту связку можно реализовать через один API-ключ на APIYI (apiyi.com).
Q2: Безопасно ли отправлять файлы с конфиденциальными данными в модель?
Конвертация файла в текст происходит на вашем сервере, в модель уходит только итоговый текст промпта, поэтому вы можете провести десенсибилизацию данных на этапе обработки. Если вы используете сервис-прокси API, то APIYI (apiyi.com) официально не хранит промпты пользователей и ответы моделей, что делает процесс более контролируемым, чем при использовании сторонних прокси.
Q3: Инструменты «генерации PPT в один клик» в TikTok используют gpt-image-2?
Частично. Логика обычно такая: LLM пишет текст → модель генерации изображений (gpt-image-2 / Nano Banana Pro / Flux) создает иллюстрации → бэкенд собирает всё в PPT с помощью python-pptx. gpt-image-2 лучше всех справляется с рендерингом текста, особенно китайского, поэтому идеально подходит для иллюстраций внутри слайдов.
Q4: Почему говорят, что можно загружать Excel?
Это значит, что Excel просто «заскриншотили» и отправили как картинку. По сути, это всё еще ввод изображения, а не чтение структуры Excel моделью. Если цифры на скриншоте размыты, модель просто перерисует их в таком же размытом виде.
Q5: Что выбрать: gpt-image-2 или gpt-image-2-mini?
Версия mini работает быстрее и стоит дешевле — она идеальна для массовых черновиков и миниатюр. Для финальных материалов используйте стандартную версию. Ограничения на ввод у них одинаковые (документы не поддерживаются), достаточно просто сменить ID модели в параметре model, менять код SDK не нужно.
Резюме
Модель gpt-image-2 не поддерживает прямую загрузку файлов CSV/Excel/PPT и не выдает на выходе файлы PPTX/PDF. Это ограничение возможностей самой модели, а не ошибка в настройке параметров доступа. Как только вы осознаете эту границу, решение становится очевидным: нужно просто предварительно обработать содержимое файла — преобразовать его в текст, сделать скриншоты или сначала визуализировать данные, а затем придать им эстетичный вид. Это позволит модели справиться с большинством задач, где «кажется, что нужен ввод файла». Все эти «превращения PPT в один клик», «Excel в постеры» или «смена стиля PDF», которые вы видите в соцсетях, по сути являются многоэтапными инженерными конвейерами. Стоит лишь четко разделить задачи между логикой обработки данных и выводом модели, как проект сразу становится реализуемым.
Главный принцип при внедрении: модель делает только то, в чем она сильна, а подготовка данных ложится на внешний слой обработки. Если вы хотите выстроить полноценный конвейер, мы рекомендуем использовать APIYI (apiyi.com) для одновременного подключения GPT-5 (для понимания текста) и gpt-image-2 (для генерации изображений). Один API-ключ для всего процесса и высокая пропускная способность в 5000 RPM обеспечат бесперебойную работу пакетных задач — вам не придется постоянно поддерживать множество ключей и SDK для разных моделей.

Об авторе: Команда APIYI специализируется на агрегации доступа к различным моделям и инфраструктуре для высоконагруженного вывода, ежедневно обрабатывая множество запросов по API генерации изображений. Данная статья подготовлена на основе официальной документации OpenAI и реальных консультаций с клиентами. Если вам нужно узнать больше о решениях для подключения gpt-image-2, посетите APIYI на сайте apiyi.com.
