|

6 estrategias de ingeniería de indicación para resolver la diferencia de calidad de imagen entre la API de Nano Banana 2 y la versión web de Gemini

Muchos desarrolladores, al integrar la API de Nano Banana 2 (es decir, gemini-3.1-flash-image-preview), se encuentran con un fenómeno desconcertante: la misma indicación genera imágenes exquisitas y detalladas en la versión web de gemini.google.com, mientras que las generadas a través de la API pura parecen ordinarias o incluso de una calidad notablemente inferior.

Esta brecha de calidad entre la API de Nano Banana 2 y la versión web no es un error de la API, ni un problema del servicio proxy de API, sino una diferencia sistémica determinada por la arquitectura del producto de Google. En este artículo, analizaremos los 3 motivos fundamentales de esta brecha desde el punto de vista técnico y te ofreceremos 6 estrategias de ingeniería de indicaciones que puedes implementar de inmediato para obtener una calidad de salida igual o incluso más refinada a través de la API.

nano-banana-2-api-vs-gemini-web-prompt-engineering-es 图示

I. ¿Por qué existe una diferencia tan grande entre la API de Nano Banana 2 y la versión web?

Para entender este problema, primero debemos comprender la diferencia esencial en la arquitectura de las dos rutas que ofrece Google para acceder a Nano Banana 2.

1.1 La API de Nano Banana 2 es un canal transparente y directo

Cuando realizas una invocación al modelo gemini-3.1-flash-image-preview a través de la API, la cadena de solicitud es:

Tu programa → Punto final de API → Inferencia del modelo → Devolución de la imagen

Lo único que hace el punto final de la API con la indicación es reenviarla tal cual. Lo que escribas es lo que recibe el modelo. Esta transparencia es un requisito esencial de la API como infraestructura: debe ser predecible, reproducible y escalable.

El servicio proxy de API (como APIYI apiyi.com) realiza una retransmisión completamente transparente de la llamada a la API oficial, limitándose a la adaptación del protocolo y al conteo de facturación, sin modificar la indicación en el proceso. Por lo tanto, el efecto que ves al llamar a la API a través de un servicio proxy es exactamente el mismo que verías al conectarte directamente a la API oficial.

1.2 La versión web gemini.google.com es un Agente integral

Por otro lado, el producto web gemini.google.com, bajo la apariencia de una simple "generación de imágenes", es en realidad una tubería de Agentes de múltiples capas. Cuando escribes "genérame una imagen de una ciudad ciberpunk de noche" en el cuadro de entrada de la web, la cadena real que ocurre es más parecida a esto:

Tu entrada
  → Interfaz de usuario (UI)
  → Reescritor de indicaciones (basado en un Modelo de Lenguaje Grande)
  → Complemento de composición/iluminación/descripciones profesionales de lente
  → Posible llamada a Google Search / Búsqueda de imágenes para referencia visual
  → Envío de la indicación completa y reescrita al modelo
  → Devolución de la imagen

Google menciona explícitamente la existencia de este reescritor de indicaciones en la documentación de Vertex AI: es una "herramienta de reescritura de indicaciones basada en un Modelo de Lenguaje Grande" que obtiene imágenes de mayor calidad al añadir más detalles y lenguaje descriptivo a la indicación base. El producto de consumo gemini.google.com tiene capacidades similares integradas.

nano-banana-2-api-vs-gemini-web-prompt-engineering-es 图示

1.3 La esencia de la brecha es el procesamiento de la indicación, no la capacidad del modelo

Aquí debemos aclarar un hecho clave: la API y la versión web utilizan el mismo modelo subyacente. La diferencia no está en el modelo en sí, sino en quién escribe el texto que se le proporciona al modelo.

Método de llamada Procesador de la indicación Longitud típica de la indicación Rendimiento de calidad de salida
Versión web gemini.google.com Agente integrado de Google (expansión automática) 200-500 palabras Exquisita, profesional, detalles ricos
API oficial de Nano Banana 2 El propio desarrollador Entrada original del usuario (a menudo 10-30 palabras) Depende de la habilidad del desarrollador
Llamada a través de APIYI apiyi.com El propio desarrollador (reenvío transparente) Entrada original del usuario Igual que la API oficial
Llamada a la API tras preprocesamiento manual Desarrollador + LLM (pre-reescritura) 200-500 palabras Puede acercarse o superar a la versión web

🎯 Conclusión central: La diferencia de resultados entre la API de Nano Banana 2 y la versión web proviene en un 95% del procesamiento de la indicación, no de la interfaz, el proxy o diferencias en los pesos del modelo. Esto significa que siempre que completes la parte de ingeniería de indicaciones, podrás hacer que la salida de la API alcance a la versión web.


II. Especificaciones técnicas y límites de capacidad de la API Nano Banana 2

Antes de analizar las soluciones, es fundamental definir los límites de capacidad de la propia API; esto te permitirá determinar qué se puede solucionar mediante una indicación y qué requiere ajustar los parámetros de la solicitud.

2.1 Parámetros clave de la API Nano Banana 2

Parámetro Rango de valores Valor predeterminado (Web) Valor predeterminado (API) Nota
Resolución 512px / 1K / 2K / 4K 2K 1K La versión web es mayor por defecto
Relación de aspecto 1:1, 16:9, 9:16, 2:3, 3:2, 4:3, 3:4, 4:5, 5:4, 21:9, 4:1, 1:4, 8:1, 1:8 1:1 1:1 Igual
Cantidad de imágenes de referencia Hasta 14 Versión Flash: 10 objetos + 4 personajes
Tokens de entrada Hasta 131,072 Límite de la versión Flash
Longitud de la indicación Sugerido 50-500 palabras Completado por el agente Tal cual el usuario Núcleo de la diferencia
¿Soporta Grounding? Soporta Búsqueda de Google Parcialmente activado Requiere llamada explícita Capacidad de búsqueda mejorada

Un detalle que suele pasarse por alto es que: la resolución predeterminada de la API es 1K, mientras que la de la versión web es 2K. Solo esta diferencia de configuración hace que la salida de una llamada directa a la API parezca visualmente inferior a la versión web, incluso si la indicación es idéntica.

2.2 Ejemplo mínimo de invocación de la API Nano Banana 2

A continuación, se muestra la forma estándar de llamada mediante curl, demostrando cómo especificar explícitamente la resolución 2K para evitar la diferencia visual causada por el valor predeterminado de 1K:

curl -X POST "https://api.apiyi.com/v1/chat/completions" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-3-pro-image-preview",
    "messages": [
      {
        "role": "user",
        "content": "Genera una vista nocturna de una ciudad estilo cyberpunk, resolución 2K, composición 16:9"
      }
    ]
  }'

💡 Sugerencia de configuración: Al realizar la invocación del modelo a través de APIYI (apiyi.com), utiliza https://api.apiyi.com/v1 como base_url. El ID del modelo se mantiene igual que el oficial, sin necesidad de modificar el código. La transparencia del servicio proxy de API garantiza que el rendimiento que ves en la API oficial sea exactamente el mismo que ves en APIYI.

2.3 Dos versiones de modelo soportadas por la API Nano Banana 2

ID del modelo Posicionamiento Uso típico Velocidad de respuesta Costo
gemini-3-pro-image-preview Nano Banana Pro, buque insignia de alta fidelidad Material de marketing, infografías, renderizado de texto Medio Alto
gemini-3.1-flash-image-preview Nano Banana 2, prioridad de velocidad Generación por lotes, material para redes sociales Rápido Bajo

Sugerencia de elección: La versión Pro es adecuada para escenarios que requieren un alto nivel de renderizado de texto y capas de imagen, mientras que la versión Flash es ideal para producción por lotes de alta concurrencia y baja latencia. Independientemente de la versión, los beneficios de la ingeniería de indicación son enormes.


III. 6 estrategias clave para la ingeniería de indicaciones de la API Nano Banana 2

Una vez aclarado el origen de las diferencias, pasemos a las soluciones aplicables. Estas 6 estrategias provienen de la guía oficial de indicación de Nano Banana de Google DeepMind, así como de la experiencia práctica de numerosos usuarios de la API.

nano-banana-2-api-vs-gemini-web-prompt-engineering-es 图示

3.1 Uso de la fórmula de indicación de cinco elementos

La fórmula de texto a imagen recomendada oficialmente por Google es:

[Sujeto] + [Acción] + [Ubicación/Escenario] + [Composición] + [Estilo]

No se trata de una concatenación rígida, sino de asegurar que tu indicación cubra todas las dimensiones necesarias para la generación visual. Ejemplo comparativo:

❌ Indicación débil típica:

Una modelo de moda posando frente a un fondo rojo

✅ Indicación fuerte aplicando la fórmula de cinco elementos:

[Sujeto] Una modelo de moda de unos 28 años, vistiendo un vestido tipo blazer marrón de corte limpio, combinado con botas hasta la rodilla aerodinámicas y un bolso estructurado
[Acción] De pie con una postura segura y erguida, con el cuerpo ligeramente girado, mirada fija en la cámara
[Ubicación] Fondo de estudio de color rojo cereza intenso
[Composición] Plano medio, sujeto centrado, dejando un poco de espacio en la parte superior
[Estilo] Fotografía de revista de moda, textura de película de formato medio, grano evidente, alta saturación

La diferencia de longitud entre ambas indicaciones es de 5 veces, pero la diferencia en la calidad de generación es mucho mayor. Esto es exactamente lo que el Agente de la versión web hace "detrás de escena" para los usuarios comunes.

3.2 La API Nano Banana 2 requiere descripciones narrativas, no listas de palabras clave

Este es un principio que Google enfatiza repetidamente: "Describe la escena, no solo listes palabras clave".

❌ Acumulación de palabras clave (el modelo tiende a perder el enfoque):

Moda, modelo, estudio, fondo rojo, fotografía profesional, 4K, alta calidad

✅ Narrativa coherente (el modelo entiende mejor la semántica):

Una modelo de moda posando para una sesión de fotos frente a un fondo rojo intenso en un estudio profesional, la cámara captura el momento en que está de pie erguida, utilizando la textura de película de una cámara de formato medio, la imagen presenta los colores de alta saturación característicos de las revistas de moda.

Nano Banana 2 es un modelo impulsado por la narrativa, que es mejor entendiendo una "descripción de escena" que una cadena de "etiquetas". Esta característica es completamente diferente a los hábitos de indicación de la serie Stable Diffusion; los desarrolladores que migran desde SD deben cambiar especialmente su forma de pensar.

3.3 Metadatos visuales que la API Nano Banana 2 debe incluir

El Agente de la versión web complementa automáticamente tus solicitudes simples con "metadatos visuales": estos términos son la clave para llevar la salida del modelo de "ordinaria" a "profesional".

Categoría de metadatos Ejemplos de términos recomendados Función
Diseño de iluminación Iluminación de tres puntos, claroscuro, contraluz de hora dorada, resplandor de neón azul frío Determina la dramaticidad de la escena
Cámara y lentes Lente de retrato de 85mm, profundidad de campo superficial f/1.8, gran angular GoPro, lente macro Determina el lenguaje visual
Tono y película Película en color de los años 80, tono azul frío cinematográfico, Kodak Portra 400, RAW de alto rango dinámico Determina la atmósfera de color
Material y textura Tweed azul oscuro, superficie de cerámica mate, armadura de plata grabada, cuero envejecido Determina la textura de los detalles
Términos de composición Ángulo bajo, vista de pájaro, regla de los tercios, profundidad de campo superficial, simetría central Determina la estructura de la imagen

💡 Sugerencia práctica: Al escribir una indicación, oblígate a seleccionar al menos 3 categorías de iluminación, cámara, tono, material y composición para añadir descripciones específicas. Este es el atajo para que la salida de la API Nano Banana 2 pase de "amateur" a "profesional". Puedes encontrar una biblioteca completa de indicaciones de referencia en la documentación para desarrolladores de APIYI (apiyi.com).

3.4 Las llamadas a la API Nano Banana 2 para renderizado de texto deben ir entre comillas

Una de las capacidades más destacadas de Nano Banana 2 (especialmente la versión Pro) es el renderizado de texto de alta fidelidad, capaz de generar texto con precisión en logotipos, carteles e infografías. Pero para activar esta capacidad, debes:

  1. Envolver el texto objetivo entre comillas (comillas dobles en inglés ")
  2. Especificar las características de la fuente (negrita/serif/manuscrita, etc.)
  3. Especificar color y tamaño (opcional, pero recomendado)

Ejemplo comparativo:

❌ Escritura ambigua (el texto tiende a confundirse):

Genera una tarjeta de cumpleaños que diga Happy Birthday

✅ Escritura estándar (renderizado de texto preciso):

Genera una tarjeta de cumpleaños, en el centro de la tarjeta renderiza "Happy Birthday" con una fuente sans-serif, en negrita y color blanco, el tamaño de la fuente debe ocupar aproximadamente el 60% del ancho de la imagen, el fondo es una escena de globos de ensueño en tonos rosa claro.

Esta es una capacidad diferenciadora central de la API Nano Banana 2 en comparación con otros modelos de imagen; muchos desarrolladores aún no se dan cuenta de que pueden usarla así al crear material de marketing.

3.5 Las tareas de edición deben especificar claramente "qué cambiar" y "qué mantener"

La mentalidad de indicación para la edición de imágenes (i2i) es completamente diferente a la de texto a imagen (t2i): no se trata de describir toda la escena, sino de decirle al modelo qué cambiar y qué conservar.

❌ Error común en la edición:

Cambia a esta persona para que lleve una chaqueta roja

(El modelo podría cambiar simultáneamente el fondo, la postura, la luz y otros elementos no mencionados)

✅ Escritura de edición con alcance claro:

Cambia el color de la chaqueta de la persona en la imagen de azul a un rojo tomate vibrante, manteniendo intactos los rasgos faciales, el peinado, la postura, el fondo y la iluminación de la persona. Asegúrate de conservar todos los elementos de la imagen original que no sean la chaqueta.

Esta doble declaración de "cambio + conservación" puede reducir significativamente los sesgos de edición. En escenarios de edición de múltiples rondas de la API Nano Banana 2, el uso conjunto del mecanismo de firmas de pensamiento (Thought Signatures) puede lograr consistencia entre rondas.

nano-banana-2-api-vs-gemini-web-prompt-engineering-es 图示

3.6 Uso de un LLM para el preprocesamiento de la indicación (replicando el Agente de la versión web)

Esta es la estrategia más eficaz: dado que la versión web reescribe automáticamente la indicación a través de un Agente, nosotros también podemos usar un LLM para realizar una expansión de la indicación antes de llamar a la API.

La forma específica es añadir una capa de "LLM frontal" en la lógica de tu aplicación:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.apiyi.com/v1"
)

def expand_prompt(user_input: str) -> str:
    """Usa un LLM para expandir la indicación simple del usuario a una de nivel profesional"""
    response = client.chat.completions.create(
        model="gemini-3-pro",
        messages=[
            {
                "role": "system",
                "content": (
                    "Eres un director de arte visual senior, responsable de expandir las breves descripciones de los usuarios en indicaciones detalladas para modelos de imagen."
                    "Debes incluir: detalles del sujeto, acción, escenario, composición, iluminación, parámetros de cámara, tono, materiales."
                    "Usa una narrativa coherente, no listas de palabras clave, con una longitud total de 150-300 palabras."
                )
            },
            {"role": "user", "content": user_input}
        ]
    )
    return response.choices[0].message.content

def generate_image(user_input: str):
    expanded = expand_prompt(user_input)
    image_response = client.chat.completions.create(
        model="gemini-3-pro-image-preview",
        messages=[{"role": "user", "content": expanded}]
    )
    return image_response

generate_image("Vista nocturna de ciudad cyberpunk")

La lógica central de este código es implementar manualmente un Agente reescritor de indicaciones: usar un Gemini 3 Pro (o Claude, GPT-4) para expandir primero la entrada breve del usuario y luego entregarla al modelo de imagen. El efecto puede alcanzar básicamente el nivel de gemini.google.com en la versión web.

🎯 Sugerencia de implementación: Si estás creando un producto de generación de imágenes para el usuario final (C-end), se recomienda encarecidamente adoptar una arquitectura de "encadenamiento de dos modelos": un LLM de texto responsable de la expansión de la indicación y un modelo de imagen responsable de la generación final. Ambas llamadas pueden facturarse de forma unificada a través de APIYI (apiyi.com), simplificando los costos de acceso. La plataforma admite interfaces unificadas para múltiples modelos principales como Gemini, Claude, GPT, etc., lo que facilita la evolución de la arquitectura.

IV. Práctica con la biblioteca de plantillas de indicaciones de la API Nano Banana 2

A continuación, presentamos 4 plantillas de indicaciones validadas en entornos reales, que puedes aplicar directamente o utilizar como punto de partida para tus propias adaptaciones.

4.1 Plantilla de indicación para imágenes de productos de comercio electrónico

[Sujeto] Un/a [tipo de producto],[descripción del material],[color y textura],[características clave de diseño]
[Acción] El producto flota en el centro de la imagen, ligeramente inclinado para mostrar el mejor ángulo visual
[Ubicación] [color de fondo o escena], fondo puro o minimalista
[Composición] Cuadrado 1:1, el producto ocupa el 60% de la imagen, espacio en blanco en la parte superior para texto
[Estilo] Fotografía de comercio electrónico de alta gama, luz superior y lateral suave, textura mate, alta resolución
[Texto] En la parte superior de la imagen, renderizar "[eslogan del producto]" con [descripción de la fuente]

4.2 Plantilla de indicación para carteles de marca

Diseña un cartel con temática de [festividad/evento] para [nombre de la marca],
en el centro de la imagen se encuentra [elemento visual central], utilizando un lenguaje de diseño [estilo, ej. plano/esquemórfico/retro],
color principal [valor de color hexadecimal], color secundario [valor de color hexadecimal],
en la parte inferior del cartel, renderizar "[eslogan del evento]" con una fuente sans-serif en negrita,
diseño con suficiente espacio en blanco, jerarquía visual clara, adecuado para [escenario de despliegue].

4.3 Plantilla de indicación para consistencia facial

Se utiliza para mantener la consistencia del personaje en múltiples imágenes (usando el límite de 14 imágenes de referencia):

[Descripción del personaje basada en la imagen de referencia] 
Este personaje aparece en [nueva escena],
[descripción de la nueva acción],[nueva expresión],
vistiendo la misma [descripción de la ropa] que en la imagen de referencia,
manteniendo los rasgos faciales, peinado y proporciones corporales exactamente iguales a la imagen de referencia.
Estilo de imagen: [mantener consistencia en iluminación y tono]

4.4 Plantilla para infografías y visualización de conocimientos

Genera una infografía sobre [tema],
Área de título: renderizar "[texto del título]" en la parte superior con fuente blanca en negrita,
Estructura principal: [describir la jerarquía visual, ej. comparación de 3 columnas/línea de tiempo/estructura de pirámide],
cada módulo contiene [tipo de icono] + título + texto descriptivo breve,
esquema de color: fondo azul oscuro #0f172a, texto principal en blanco, color de acento [valor de color],
estilo general: aspecto tecnológico moderno, iconos planos, alto contraste, adecuado para presentaciones.

💡 Consejo de uso: Estas plantillas se actualizan continuamente en la comunidad de desarrolladores de APIYI (apiyi.com) con versiones para escenarios en español, cubriendo categorías como comercio electrónico, redes sociales, marketing, educación, entre otras.


V. Errores comunes y solución de problemas en la invocación de la API Nano Banana 2

Más allá de la indicación en sí, existen algunos errores técnicos comunes en la implementación que pueden dar la falsa impresión de que la "API es peor que la versión web".

5.1 La trampa de los parámetros predeterminados

Error Síntoma Solución
No especificar resolución Salida con aspecto borroso de 1K Configurar explícitamente 2K o 4K
No especificar relación de aspecto El 1:1 predeterminado no encaja Especificar 16:9, 9:16, etc., según el uso
Grounding no activado Imágenes con información real inexactas Habilitar explícitamente para escenas de búsqueda
Temperatura demasiado alta Resultados con gran aleatoriedad Reducir la temperatura para tareas deterministas
Ignorar Thinking Versión Pro sin razonamiento activo Habilitar explícitamente thinking_level

5.2 Verificación de consistencia entre el servicio proxy y la API oficial

Algunos desarrolladores sospechan que "el servicio proxy ha hecho algo para reducir la calidad". Esta preocupación es infundada, pero puedes verificarlo de dos maneras:

  1. Comparar registros de solicitudes: Realiza una llamada con la misma indicación a través de la API oficial y a través del servicio proxy APIYI (apiyi.com), compara el hash de salida o haz una comparación visual directa; verás que la distribución de resultados es idéntica.
  2. Revisar la declaración de transparencia del servicio proxy: Un servicio proxy calificado solo realiza el reenvío de protocolos y la facturación; no modifica la indicación en el proceso. APIYI (apiyi.com) se compromete explícitamente a una conexión directa y transparente, reflejando exactamente el rendimiento de la interfaz oficial.

Por lo tanto, si descubres que el efecto a través de la API (ya sea oficial o proxy) no es tan bueno como en la versión web, la causa raíz es siempre la ingeniería de indicaciones, no el enlace intermedio.

5.3 Diferencias de rendimiento por selección incorrecta de la versión del modelo

Este es un error extremadamente común pero fácil de pasar por alto:

  • El resultado de gemini-2.5-flash-image (Nano Banana antiguo) ciertamente no será igual al de gemini-3.1-flash-image-preview (Nano Banana 2).
  • Usar gemini-3.1-flash-image-preview (prioridad de velocidad) para generar material de marketing no será tan bueno como usar gemini-3-pro-image-preview (prioridad de calidad).

Antes de investigar por qué el "efecto de la API es pobre", asegúrate primero de estar invocando el ID de modelo más reciente y adecuado.

VI. Técnicas avanzadas de ingeniería de indicaciones para la API de Nano Banana 2

Tras dominar las 6 estrategias anteriores, existen algunos métodos avanzados que te permitirán marcar una diferencia real en comparación con las invocaciones básicas.

6.1 Ajuste del Nivel de Pensamiento (Thinking Level)

Nano Banana Pro permite configurar explícitamente la profundidad del razonamiento. Para tareas que implican composiciones complejas, múltiples elementos o texto detallado, activar un nivel de pensamiento superior puede aumentar significativamente la tasa de éxito. El costo es un ligero incremento en la latencia.

6.2 Grounding con Búsqueda de Google

Para tareas de generación que requieren "apego a la realidad" —como un monumento real, eventos noticiosos recientes o logotipos de marcas—, activar el Grounding permite que el modelo busque información antes de generar, evitando errores de hecho. Esta es una ventaja única de la API de Nano Banana 2 frente a otros modelos de imagen.

6.3 Edición de múltiples turnos para mantener el contexto

La API de Nano Banana 2 admite la edición de imágenes en múltiples turnos. A diferencia de generar desde cero cada vez, la edición multironda permite preservar las Firmas de Pensamiento (Thought Signatures), logrando que los personajes, escenarios y estilos se mantengan consistentes a lo largo de varias imágenes.


VII. FAQ: Preguntas frecuentes sobre la API de Nano Banana 2

P1: ¿Existe alguna diferencia en los resultados si llamo a la API de Nano Banana 2 a través de APIYI (apiyi.com) frente a la API oficial de Google?

No hay ninguna diferencia. La esencia de un servicio proxy de API es el reenvío transparente de protocolos. APIYI (apiyi.com) solo se encarga de la autenticación, facturación y adaptación de protocolos; no modifica la indicación ni el contenido de la respuesta. El rendimiento que observas en la API oficial es exactamente el mismo que verás en APIYI. Recomendamos usar apiyi.com para obtener una facturación unificada de múltiples modelos y facilitar el acceso desde China.

P2: ¿Por qué, aun siguiendo las sugerencias de este artículo, los resultados son peores que en la versión web?

Posibles causas: (1) La resolución sigue siendo la predeterminada de 1K; intenta configurar 2K o 4K. (2) El modelo de lenguaje grande utilizado para la expansión no es lo suficientemente potente; recomendamos usar Gemini 3 Pro o Claude 4 como modelos de expansión. (3) No se ha activado la función de Pensamiento (versión Pro). (4) Faltan imágenes de referencia; Nano Banana 2 admite hasta 14, y saber aprovecharlas puede mejorar drásticamente la consistencia.

P3: ¿Cómo elegir entre Nano Banana 2 (versión Flash) y Nano Banana Pro?

Regla simple: Si necesitas renderizado de texto, infografías o pósteres → elige Pro. Si necesitas alta concurrencia, generación por lotes o bajo costo → elige Flash. Ambos pueden invocarse directamente en APIYI (apiyi.com) y el cambio solo requiere modificar el ID del modelo.

P4: ¿Qué modelo es mejor para el preprocesamiento de la indicación?

Recomendamos Gemini 3 Pro o Claude 4 Sonnet. La serie Gemini tiene una comprensión de los modelos de imagen más afinada (al ser de la misma familia), mientras que Claude tiene una ventaja única en la expansión de estilos narrativos. Ambos pueden integrarse de forma unificada en APIYI (apiyi.com).

P5: ¿Existe alguna herramienta de optimización de indicaciones lista para usar?

Actualmente no hay una herramienta oficial independiente, pero puedes crear tu propio servicio de "Reescritura de Indicaciones" utilizando el código de la sección 3.6 de este artículo. También existen algunos proyectos de código abierto como image-prompt-enhancer en la comunidad que pueden servir como referencia.

P6: ¿Aumentará significativamente el costo de la invocación de la API si la indicación se vuelve más larga?

La facturación de Nano Banana 2 se basa principalmente en el número de imágenes generadas, y el peso de los tokens de la indicación es muy pequeño. Incluso si la indicación pasa de 20 a 300 palabras, el aumento en el costo por llamada suele ser menor al 5%, pero la mejora en la calidad de la imagen es notable, lo que resulta en un ROI muy alto.

VIII. Conclusión: El origen de la brecha entre la API de Nano Banana 2 y la versión web, y cómo solucionarlo

Volviendo a la pregunta inicial de este artículo: ¿Por qué existe una diferencia tan grande entre la API y la versión web? La respuesta ya es clara:

  1. El origen: La versión web gemini.google.com es un agente integral que incluye un reescritor de indicaciones (Prompt Rewriter) que expande automáticamente la entrada del usuario; por el contrario, la API es una conexión directa y transparente donde se utiliza exactamente lo que se envía.
  2. La esencia: No se trata de una diferencia en el modelo ni en el servicio proxy de API, sino de la ausencia de una etapa de procesamiento de la indicación.
  3. La estrategia: Mediante el uso de la fórmula de cinco elementos, descripciones narrativas, completado de metadatos visuales, uso de comillas en el texto, declaración del alcance de edición y pre-reescritura mediante LLM, es posible lograr que la salida de la API iguale o incluso supere a la versión web.
  4. La arquitectura óptima: Implementar una arquitectura de dos modelos en serie en la capa de aplicación ("expansión mediante LLM de texto + generación mediante modelo de imagen") resuelve por completo el problema de la brecha de calidad.

Para los equipos que ya utilizan la API de Nano Banana 2 en entornos de producción, elevar la ingeniería de indicaciones al mismo nivel de importancia que la calidad del código es, actualmente, la optimización con mayor retorno de inversión (ROI). Recomendamos utilizar APIYI (apiyi.com) para integrar de forma unificada los modelos de texto e imagen, lo que no solo simplifica los costos de acceso a múltiples modelos, sino que también facilita el cambio rápido y la comparación del rendimiento entre diferentes modelos.


Sobre el autor: El equipo técnico de APIYI se dedica a proporcionar a los desarrolladores servicios de acceso a API de Modelos de Lenguaje Grande estables, transparentes y completos. Visite el sitio web oficial de APIYI en apiyi.com para obtener más información sobre las soluciones de acceso a modelos líderes como Nano Banana 2, Gemini 3 Pro y Claude 4.

Publicaciones Similares