|

Reparación del problema de retorno de imagen original en Nano Banana Pro: diagnóstico de 5 causas principales + 8 soluciones prácticas

Cuando utilizas la API de Nano Banana Pro para renderizado de viviendas, imágenes de productos o escenas de comercio electrónico, es posible que te encuentres con una situación desconcertante: subes dos imágenes de referencia y escribes una indicación clara, pero el resultado devuelto parece una "copia exacta" de una de las imágenes originales, sin haber realizado la edición según las instrucciones. Este fenómeno se ha vuelto notablemente más frecuente tras el lanzamiento de Gemini 3.1 Flash Image en febrero de 2026, y las discusiones en el Google AI Developers Forum confirman que el modelo Pro presenta una "alta inestabilidad" en escenarios con múltiples imágenes de referencia.

Este artículo analiza el mecanismo de invocación de la API y, a través de un caso real de renderizado de "plano arquitectónico + imagen de resultado final", explica sistemáticamente las 5 condiciones que provocan que Nano Banana Pro devuelva la imagen original y ofrece 8 soluciones prácticas. Todos los ejemplos de invocación se basan en la plataforma APIYI (apiyi.com), la cual ha optimizado la estabilidad de la serie de modelos Gemini 3 Pro Image, siendo ideal para probar las indicaciones de reparación mencionadas.

1. Fenómeno típico del problema de retorno de la imagen original en Nano Banana Pro

Veamos un caso real: un usuario está realizando un renderizado de diseño de vivienda y sube dos imágenes de referencia. La imagen 1 es el plano estructural de un edificio sin terminar (estructura de hormigón, 4.9 MB) y la imagen 2 es el renderizado final (muros cortina de vidrio, vegetación, iluminación de atardecer, 13.8 MB). La indicación en chino simplificado dice: "Renderiza la imagen 1 tomando como referencia la imagen 2. Color: adopta tonos fríos y sofisticados… Estilo: renderizado realista comercial típico…". La intención es utilizar el estilo y los materiales de la imagen 2 para renderizar la estructura de la imagen 1. El resultado es que la imagen devuelta es casi idéntica a la imagen 2, y la información estructural de la imagen 1 apenas aparece en el resultado.

Este no es un caso aislado. En el Google AI Developers Forum, los desarrolladores han informado que "el submuestreo de las imágenes de referencia por parte del modelo es demasiado agresivo, lo que impide reconocer los detalles", señalando que el problema se agravó tras el lanzamiento de Gemini 3.1 Flash Image. La documentación de resolución de problemas de plataformas de terceros como Replicate, Atlas Cloud y AI Free API también ha registrado casos similares de "salida directa de la imagen de referencia", aunque con condiciones de activación ligeramente diferentes.

1.1 Frecuencia de aparición y alcance del impacto

La siguiente tabla resume la probabilidad relativa de que Nano Banana Pro no modifique la imagen en diferentes escenarios de uso, con datos recopilados de comentarios de la comunidad y muestras de monitoreo de la plataforma.

Escenario de uso Probabilidad de activación Nivel de impacto
Edición con una sola imagen de referencia Baja Solo deriva de detalles aislados
Uso de dos imágenes (transferencia de estilo) Media-Alta La salida se aproxima a una de las originales
Composición con múltiples imágenes (más de 3) Alta El modelo tiende a la última imagen
Invocación en horas pico (EE. UU./Europa) Aumento significativo Disminución de la calidad general
Escenas sensibles (retratos/marcas) Ocasional Rechazo de edición o retorno directo

🎯 Sugerencia de diagnóstico: Si trabajas en comercio electrónico, viviendas o imágenes de productos con múltiples referencias y la frecuencia de "retorno de la imagen original" supera el 10%, generalmente no se debe a una sola causa, sino a una combinación de la indicación, los parámetros y la infraestructura. Se recomienda utilizar la interfaz unificada de la plataforma APIYI (apiyi.com) para comparar las diferencias de salida entre Nano Banana Pro y Nano Banana 2 con la misma indicación, lo que permite identificar rápidamente si el problema reside en el modelo o en la indicación.

2. Las 5 causas técnicas por las que Nano Banana Pro devuelve la imagen original

nano-banana-pro-returns-original-image-troubleshooting-es 图示

2.1 Causa 1: La ambigüedad en la referencia de la indicación hace que el modelo replique la "Imagen 2" por defecto

La causa más común por la que Nano Banana Pro devuelve la imagen original es que referencias en la indicación como "referencia a la imagen 2" son interpretadas por el modelo como una instrucción para "generar una copia de la imagen 2". La guía oficial de indicaciones de Google DeepMind recomienda explícitamente: al usar múltiples imágenes de entrada, utiliza nombres semánticos (como "el esquema", "el edificio renderizado") en lugar de identificadores puramente posicionales como "imagen 2".

Cuando el modelo decodifica una instrucción que mezcla referencias, prioriza la señal visual con mayor nivel de detalle, que suele ser la imagen 2 (el renderizado final). Si la segunda parte de la indicación describe los tonos o materiales de esa misma imagen, el modelo la interpreta fácilmente como el "objetivo de salida" en lugar de una simple referencia de estilo.

2.2 Causa 2: La falta de verbos de edición dirige al modelo hacia la "reproducción"

El mecanismo central de Gemini 2.5 y Gemini 3 Pro Image es la transformación de imágenes basada en la comprensión del lenguaje natural. Si la indicación no contiene verbos de edición claros (como transform, render, apply, replace, composite, etc.), el modelo tiende a seguir una ruta de "reconstrucción" ante entradas múltiples. Es decir, reconstruye una imagen similar basada en la referencia más fuerte, en lugar de realizar una "edición" real.

Las plantillas de indicación recomendadas oficialmente por DataCamp y el Google Developers Blog siguen el formato: Take the [element from image 1] and place it with/on the [element from image 2] (Toma el [elemento de la imagen 1] y colócalo con/sobre el [elemento de la imagen 2]), o Using the provided image of [subject], please [add/remove/modify] [element]. Estas plantillas utilizan verbos claros para anclar qué imagen es el objeto a modificar y cuál es la referencia de estilo, algo que suele faltar en las indicaciones.

2.3 Causa 3: Conflicto de relación de aspecto, la última imagen domina la salida

La serie Nano Banana tiene una regla oficial poco visible: al ingresar múltiples imágenes, el modelo utiliza por defecto la relación de aspecto de la última imagen de referencia. Esta regla se menciona en los tutoriales de DataCamp y el Google Developers Blog, pero a menudo se pasa por alto en el desarrollo real.

Volviendo al caso del usuario, la imagen 2 (renderizado final) es un formato horizontal 16:9, mientras que la imagen 1 (esquema) es cercana a 4:3 y de menor tamaño. Al adoptar la relación de aspecto de la imagen 2, al modelo le resulta geométricamente más fácil desplegar la composición de la imagen 2 en lugar de generar una nueva basada en la imagen 1. Este factor suele sumarse a la Causa 1, resultando en que el modelo simplemente "devuelva la imagen 2".

2.4 Causa 4: Degradación de la infraestructura y retrocesos silenciosos en horas pico

Desde febrero de 2026, Google estableció Nano Banana 2 como la entrada predeterminada en la aplicación Gemini, mientras que el modelo Pro se trasladó al menú de tres puntos bajo "Regenerate". Simultáneamente, en el lado de la API, se han observado retrocesos silenciosos durante las horas pico. Publicaciones en el Google AI Developers Forum del 18 de mayo (un día antes de Google I/O) señalaron directamente que "la calidad de la generación de imágenes cae inmediatamente antes y después de lanzamientos importantes".

El comportamiento específico es: el modelo sigue devolviendo un código de estado 200, pero internamente puede cambiar a un submodelo más pequeño o saltarse parte del post-procesamiento, lo que provoca distorsión en los detalles y una menor adherencia a la indicación. En estos casos, incluso con una indicación estándar, la probabilidad de que la generación de imagen a imagen de Nano Banana Pro falle aumenta significativamente, manifestándose a menudo como una "devolución de la imagen original".

2.5 Causa 5: El tamaño excesivo de la imagen de referencia dispara un submuestreo agresivo

El mismo hilo en el Google AI Developers Forum indica: "El submuestreo del modelo sobre las imágenes de referencia es tan agresivo que no logra identificar o reproducir los detalles". Cuando una imagen de referencia se acerca o supera los 13 MB, el modelo puede realizar una reducción drástica durante la etapa de preprocesamiento interno, comprimiendo la información estructural clave (como vigas de edificios, etiquetas de productos o expresiones faciales) hasta hacerla borrosa.

Si la imagen 1, tras el submuestreo, tiene detalles casi irreconocibles, el modelo dependerá naturalmente de la otra referencia más "clara" durante la síntesis, resultando en una salida que se parece a la imagen 2. Esta es la razón por la que la tasa de fallos varía significativamente con diferentes resoluciones de referencia; muchos desarrolladores creen erróneamente que es un problema de la indicación, cuando en realidad es que la imagen de referencia no se "ve con claridad".

III. 8 soluciones prácticas: haz que Nano Banana Pro realmente "edite según la imagen"

nano-banana-pro-returns-original-image-troubleshooting-es 图示

La idea central para que Nano Banana Pro devuelva la imagen original es: no esperes a que el modelo adivine tu intención, sino que debes dejar claro "cuál es la imagen base, cuál es la de referencia y qué transformación realizar", además de usar parámetros de invocación como red de seguridad. A continuación, dividimos 8 puntos de reparación que puedes aplicar directamente, tanto en la indicación como en los parámetros.

3.1 5 puntos clave de reparación en la indicación (prompt)

N.º Punto de reparación Escritura incorrecta Escritura recomendada
1 Añadir verbos de edición "Referencia la imagen 2 para renderizar la 1" "Transform image 1 using image 2 as reference"
2 Sustituir números por semántica "Imagen 1, imagen 2" "the wireframe / the finished rendering"
3 Definir roles claramente (Sin explicación) "use the first as structure base, the second as style reference"
4 Descripción positiva del objetivo "No lo conviertas en la imagen 2" "preserve the original building outline from the first image"
5 Combinar con requisitos de material "Usa tonos fríos" "apply the cool-toned glass facade and warm interior glow from image 2 onto the structure from image 1"

💡 Plantilla de indicación: Para tareas de dos imágenes como "estructura + estilo" en renderizado de casas, se recomienda usar siempre esta estructura de plantilla: [Verbo de acción] + [referencia estructural de la imagen A] + [referencia de estilo/material de la imagen B] + [restricciones explícitas]. En la plataforma APIYI (apiyi.com), puedes encapsular esta plantilla como un system prompt común, unificar la invocación de Nano Banana Pro y Nano Banana 2 para realizar pruebas A/B, y reducir drásticamente los costes de iteración.

3.2 3 puntos clave de reparación en los parámetros de invocación

N.º Punto de reparación Explicación
6 Controlar el orden de carga Coloca el "objeto a editar" al final para que el modelo adopte su relación de aspecto
7 Limitar el tamaño de la imagen de referencia Comprime la imagen a 2-5 MB para evitar un submuestreo agresivo
8 Especificar explícitamente image_size Por ejemplo, 1024×1024 o 1536×1024, para reducir conflictos de relación de aspecto

Cabe añadir que, en algunas versiones de Gemini 3 Pro Image, existe el reporte de que el parámetro "imageSize es ignorado" (Caso 110458 del Foro de Desarrolladores de Google AI), por lo que los puntos 6 y 8 deben usarse en conjunto para asegurar que la relación de aspecto final coincida con la esperada. Si solo se configura image_size sin ajustar el orden de carga, en algunas versiones la relación de aspecto seguirá siendo sobrescrita por la última imagen.

IV. Ejemplo completo de invocación de la API de imagen a imagen de Nano Banana Pro

4.1 Ejemplo erróneo: Cómo provocar que Nano Banana Pro devuelva la imagen original

El siguiente código reproduce el escenario de fallo común entre los usuarios: referencias confusas en la indicación, falta de verbos de edición, ausencia de control de relación de aspecto y falta de compresión en las imágenes de referencia.

import openai

client = openai.OpenAI(
    api_key="your-apiyi-key",
    base_url="https://api.apiyi.com/v1"
)

response = client.images.edit(
    model="gemini-3-pro-image-preview",
    image=[
        open("wireframe.jpg", "rb"),    # 4.9 MB
        open("rendered.jpg", "rb"),     # 13.8 MB, subida al final
    ],
    prompt="参照图2渲染图1。色彩: 采用清冷的高级色调。",
    size="auto",
    n=1,
)

En este caso, con múltiples imágenes, el modelo probablemente tomará rendered.jpg como la señal principal, devolviendo una copia casi idéntica a la segunda imagen. Los tres riesgos principales son: la instrucción en chino "参照图2" (referenciar imagen 2) se interpreta como el resultado deseado, falta un verbo de transformación y, al establecer size como "auto", la relación de aspecto queda dominada por la imagen de mayor tamaño.

4.2 Ejemplo corregido: Cómo lograr que Nano Banana Pro edite realmente según la imagen

import openai

client = openai.OpenAI(
    api_key="your-apiyi-key",
    base_url="https://api.apiyi.com/v1"
)

prompt = (
    "Transform the unfinished concrete wireframe structure in the first image "
    "into a fully rendered architectural visualization. "
    "Use the second image STRICTLY as a STYLE and MATERIAL reference: "
    "apply its cool-toned glass facade, warm interior glow, surrounding greenery "
    "and dusk lighting onto the structure from the first image. "
    "Preserve the building outline, floor count and balcony arrangement "
    "exactly as shown in the first image. "
    "Do NOT replace the geometry with the second image."
)

response = client.images.edit(
    model="gemini-3-pro-image-preview",
    image=[
        open("rendered_compressed.jpg", "rb"),   # Referencia de estilo, comprimida a ~3 MB
        open("wireframe_compressed.jpg", "rb"),  # Objeto a editar colocado al final
    ],
    prompt=prompt,
    size="1536x1024",
    n=1,
)

Aquí hay cuatro cambios clave: se utiliza inglés para definir claramente el rol de "transformar A usando B como referencia"; se ajusta el orden de subida para que el wireframe (el objeto a editar) sea la "última imagen" y dicte la relación de aspecto; se especifica explícitamente el size para evitar que el modo "auto" herede la alta resolución de la imagen de referencia; y se comprimen ambas imágenes por debajo de los 5 MB para evitar un submuestreo agresivo.

🚀 Consejo para empezar rápido: Si quieres verificar los resultados de la corrección, los desarrolladores pueden invocar directamente Nano Banana Pro y Nano Banana 2 con la misma indicación en APIYI (apiyi.com). La plataforma ha unificado la interfaz para que sea compatible con OpenAI, por lo que no necesitas escribir código de adaptación para cada modelo; puedes obtener resultados de pruebas A/B en solo 5 minutos.

V. Preguntas frecuentes sobre la función imagen a imagen de Nano Banana Pro

P1: ¿Por qué la indicación modificada en chino sigue devolviendo la imagen original, pero funciona bien en inglés?

La serie Gemini tiene un análisis semántico más estable en inglés. Los verbos y referencias numéricas en chino (como "参照图X") pueden interpretarse fácilmente como "instrucciones de salida objetivo" durante la tokenización. Se recomienda escribir las instrucciones de edición clave (transform / preserve / apply) en inglés y mezclar chino e inglés para la descripción del escenario; así mantienes la precisión del chino evitando malentendidos con los verbos.

P2: ¿Se soluciona el problema simplemente reduciendo las imágenes de referencia a menos de 2 MB?

Comprimir las imágenes solo mitiga la causa cinco (distorsión por submuestreo), pero no resuelve el conflicto entre la indicación y la relación de aspecto. Se recomienda actuar en tres niveles: compresión + reescritura de la indicación + control del orden de subida. Si tienes un volumen de trabajo alto, puedes realizar un preprocesamiento uniforme antes de la llamada, convirtiendo las imágenes a JPG y comprimiéndolas a 2-5 MB antes de enviarlas al modelo.

P3: ¿Qué modelo es más adecuado para la edición con múltiples imágenes: Nano Banana Pro o Nano Banana 2?

Modelo Estabilidad multimagen Retención de detalles Escenario ideal
Nano Banana Pro (Gemini 3 Pro Image) Media (fluctuante) Alta Edición de alta calidad, imágenes de marca
Nano Banana 2 (Gemini 3.1 Flash Image) Relativamente alta Media (aspecto plástico) Edición por lotes, imágenes de comercio electrónico

En la práctica, si los requisitos de detalle son extremadamente altos (renderizado de edificios, imágenes de productos de alta fidelidad), puedes usar Nano Banana 2 para obtener una salida estable y luego usar Nano Banana Pro para el acabado fino. Este enfoque de "borrador + refinamiento" permite equilibrar la estabilidad y la calidad.

P4: Si aparece la "imagen original sin cambios", ¿ayuda reintentar varias veces?

Si se trata de una degradación de la infraestructura durante horas pico, reintentar de 1 a 3 veces suele ser efectivo. Pero si el problema es de la indicación o de los parámetros, el resultado será el mismo tras 100 intentos. El método de diagnóstico es simple: si el mismo conjunto de parámetros falla repetidamente en diferentes momentos, descarta problemas de saturación y revisa la indicación; si funciona bien fuera de las horas pico, era solo una degradación temporal.

P5: ¿Es esta solución aplicable a otros modelos de referencia (Flux Kontext, Seedream)?

La parte de la reestructuración de la indicación (nomenclatura semántica, verbos de edición, división de roles, descripción positiva) es aplicable a todos los modelos principales de imagen a imagen. Sin embargo, la regla de que "la última imagen dicta la relación de aspecto" es específica de la serie Nano Banana; Flux y Seedream tienen sus propios mecanismos de peso para las imágenes de referencia. Si tu flujo de trabajo abarca varios modelos, la interfaz unificada de APIYI (apiyi.com) te permite mantener una única plantilla de indicación y adaptar las diferencias mediante parámetros específicos para cada modelo.

Resumen

El retorno de la imagen original en Nano Banana Pro es, en esencia, el resultado de una combinación de "entrada de múltiples imágenes + indicación ambigua + fluctuaciones en la infraestructura" bajo el comportamiento predeterminado del modelo, y no simplemente un error (bug). Al comprender la preferencia del modelo por la "última imagen", su dependencia de los verbos de edición y su estrategia de submuestreo para la resolución de la imagen de referencia, es posible cubrir el 90% de los escenarios de fallo con solo un 80% de optimización en la indicación.

Para los equipos que trabajan con renderizado de viviendas, imágenes de productos, imágenes de comercio electrónico y otros flujos de trabajo que requieren múltiples imágenes, recomendamos consolidar las 8 soluciones mencionadas anteriormente en plantillas de indicación y normas de invocación, estandarizándolas según el tipo de negocio en el entorno de producción. A largo plazo, esto reducirá significativamente los costes de reejecución y la tasa de retrabajo manual, permitiendo que la capacidad de salida de alta calidad de Nano Banana Pro sea realmente aprovechada por el negocio.


Este artículo ha sido preparado por el equipo de APIYI, centrado en la implementación práctica de las API de Modelos de Lenguaje Grande. Para consultar los ejemplos de invocación y los datos de estabilidad más recientes de Nano Banana Pro, puede visitar el sitio web oficial de APIYI en apiyi.com.

Publicaciones Similares