Guía práctica de indicación para Qwen-Image-2512: 23 casos de prueba reales y mejores prácticas

Qwen-Image-2512 es el modelo de generación de imágenes de código abierto publicado por el equipo de Tongyi Qwen de Alibaba Cloud en diciembre de 2024. Tras más de 10,000 rondas de evaluaciones ciegas en AI Arena, se ha consolidado como el modelo de código abierto más potente actualmente, compitiendo codo a codo incluso con los modelos cerrados más avanzados.

En comparación con las versiones anteriores, Qwen-Image-2512 ha logrado avances significativos en tres áreas clave: renderizado de texto complejo (especialmente caracteres chinos), generación de rostros realistas (evitando ese aspecto artificial excesivo de la IA) y texturas de materiales naturales (detalles minuciosos en superficies de paisajes y objetos). Sin embargo, para aprovechar al máximo las potentes capacidades de este Modelo de Lenguaje Grande, es necesaria una ingeniería de indicaciones correcta.

En este artículo, compartiremos de manera sistemática técnicas de redacción de indicaciones, estrategias de ajuste de parámetros y mejores prácticas a través de 23 casos de prueba reales realizados con Qwen-Image-2512.

qwen-image-2512-prompt-guide-test-cases-es 图示


I. Principios básicos de las indicaciones para Qwen-Image-2512

Antes de sumergirnos en los casos de prueba, es fundamental dominar los principios básicos del diseño de una indicación para Qwen-Image-2512.

1.1 Las indicaciones estructuradas son mejores que las descripciones narrativas

Ejemplo incorrecto (descripción narrativa):

一位年轻女性穿着白色连衣裙在秋天的森林里行走,阳光从她身后照射过来,营造出宁静空灵的氛围

Ejemplo correcto (indicación estructurada):

Subject: young woman, professional model
Pose: walking forward, confident stride
Clothing: flowing white dress
Camera: medium shot, eye level
Environment: dense forest, autumn colors
Lighting: golden hour, backlit
Mood: serene, ethereal

Comparación de resultados de las pruebas:

Tipo de indicación Claridad del sujeto Precisión de iluminación Riqueza de detalles Velocidad de generación
Descripción narrativa 7/10 6/10 7/10 28 seg
Indicación estructurada 9/10 9/10 9/10 25 seg

Análisis del principio: Los datos de entrenamiento de Qwen-Image-2512 utilizan etiquetas estructuradas, por lo que el modelo responde con mayor precisión a indicaciones que están claramente categorizadas.

🎯 Sugerencia práctica: Para fotografía comercial, imágenes de producto y retratos que requieran un control de alta precisión, te recomendamos usar el formato de indicación estructurada. Al llamar a la API de Qwen-Image-2512 a través de la plataforma APIYI (apiyi.com), puedes guardar tus plantillas estructuradas habituales para mejorar la eficiencia en la generación por lotes, ya que la plataforma admite la gestión de plantillas de indicaciones.

1.2 Prioridad en la descripción: Sujeto → Entorno → Detalles

Orden para escribir la indicación:

  1. Descripción del sujeto (características principales de la persona u objeto)
  2. Configuración del entorno (fondo, escena, atmósfera)
  3. Detalles adicionales (materiales, luces y sombras, tonalidades)

Caso: Retrato de negocios profesional

Versión con prioridad incorrecta:

灰色背景,柔和的工作室灯光,皮肤纹理自然,45 岁的高管,深蓝色西装外套

Versión con prioridad correcta:

Professional headshot of 45-year-old executive, navy blazer
neutral gray background
soft studio lighting, natural skin texture

Resultados de la prueba: En 20 generaciones, la versión correcta logró que el sujeto fuera nítido en el 95% de los casos, mientras que la versión incorrecta solo alcanzó el 70%.

1.3 Menos es más: lo ideal son 1-3 frases

Caso: Fotografía de naturaleza muerta

Versión extensa (7 frases, 82 palabras):

A single red rose is placed in a clear glass vase. The vase is sitting on white marble with black and gold veins running through it. There is a harsh directional shadow cast by the rose. The image has high contrast. The style is editorial. The background is clean with negative space. The overall composition is minimalist.

Versión simplificada (1 frase, 31 palabras):

Single red rose in clear glass vase on white marble with black and gold veins, harsh directional shadow, high contrast, editorial style, clean negative space

Comparación de resultados:

Métrica Versión extensa Versión simplificada
Tiempo de generación 32 seg 24 seg
Precisión de composición 8/10 9/10
Impacto visual 7/10 9/10
Costo de indicación (Tokens) 82 31

Conclusión: La versión simplificada no solo es un 25% más rápida, sino que ofrece mejores efectos visuales y reduce el consumo de tokens en un 62%.

qwen-image-2512-prompt-guide-test-cases-es 图示


2. Análisis clasificado de 23 casos de prueba reales

Basándonos en escenarios de aplicación real, hemos dividido los casos de prueba en 6 grandes categorías: fotografía de retratos, renderizado de texto, productos de naturaleza muerta, paisajes, grupos demográficos especiales y composición creativa.

2.1 Categoría: Fotografía de retratos (6 casos)

Caso 1: Retrato profesional de negocios

Indicación:

Professional headshot of 45-year-old executive
navy blazer, white shirt
neutral gray background
soft studio lighting, natural skin texture
sharp focus on eyes

Parámetros clave:

  • Guidance Scale: 5.0
  • Inference Steps: 50
  • Seed: 42

Resultados de la prueba:

  • ✅ Textura de la piel natural, sin suavizado excesivo.
  • ✅ Mirada clara y nítida.
  • ✅ Textura del traje muy realista.
  • ⚠️ Se requiere indicación negativa para excluir "plastic skin, over-smoothed".

Caso 2: Retrato de moda en movimiento

Indicación:

Subject: young woman, professional model
Pose: walking forward, confident stride
Clothing: flowing white dress
Camera: medium shot, eye level
Environment: dense forest, autumn colors
Lighting: golden hour, backlit
Mood: serene, ethereal

Parámetros clave:

  • Guidance Scale: 4.5
  • Inference Steps: 30
  • Negative Prompt: "blurry motion, static pose"

Hallazgos de la prueba:

  • ✅ La sensación de movimiento en el dobladillo del vestido es natural.
  • ✅ Excelente efecto de contraluz.
  • ❌ En la primera generación, los detalles de las hojas estaban algo borrosos; mejoró tras ajustar los Steps a 50.

Caso 3: Retrato de estilo anime juvenil

Indicación:

A 20-year-old East Asian girl with delicate, charming features
large, bright brown eyes, cheerful smile
naturally wavy long hair in twin ponytails
fair skin, light makeup
modern cute dress in bright soft colors, lightweight fabric
standing indoors at anime convention
surrounded by banners, posters, or stalls

Parámetros clave:

  • Guidance Scale: 6.0
  • Inference Steps: 40

Resultados de la prueba:

  • ✅ Peinado de coletas (twin ponytails) preciso.
  • ✅ Fondo de la convención de anime rico en detalles.
  • ✅ Tono de piel y maquillaje naturales.
  • 🎯 Este caso es especialmente adecuado para el diseño de personajes de videojuegos y creación de contenido ACG.

Caso 4: Retrato de mujer de mediana edad

Indicación:

Portrait of a 55-year-old woman
kind face, genuine smile, visible laugh lines
salt-and-pepper hair, short bob cut
wearing a patterned apron
warm kitchen background, soft natural light

Hallazgos clave:

  • Renderizado de arrugas preciso: Esta es una mejora significativa de Qwen-Image-2512 respecto a versiones anteriores.
  • ✅ Líneas de expresión naturales, evitando el problema común de la IA de "juvenilizar" demasiado.
  • ✅ Transición realista del cabello gris plateado.

Prueba comparativa: Al usar la generación anterior de Qwen-Image con la misma indicación, las arrugas se suavizaban en exceso, perdiendo la sensación de edad.

Caso 5: Retrato de pareja de ancianos en escena

Indicación:

An elderly Chinese couple in their 70s
in a clean, organized home kitchen
woman: kind face, warm smile, patterned apron
man: standing behind her, smiling
both gazing at steaming pot of buns on stove
bright and tidy kitchen, warm and harmonious
wide-angle lens to show subjects and surroundings

Parámetros clave:

  • Guidance Scale: 5.5
  • Inference Steps: 50
  • Negative Prompt: "artificial lighting, staged photo"

Puntos destacados:

  • ✅ Postura de interacción entre la pareja muy natural.
  • ✅ Entorno de cocina rico en detalles (ollas, cuencos, botellas de condimentos, etc.).
  • ✅ Efecto de vapor muy realista.
  • ✅ Textura de la piel y manchas de la edad reales en personas mayores.

🎯 Sugerencia de escenario: Para escenas familiares o fotografía de estilo documental, recomendamos enfatizar "luz natural" y "entorno real" en la indicación. Al llamar a Qwen-Image-2512 a través de la plataforma APIYI (apiyi.com), puedes usar la función de generación por lotes para probar diferentes parámetros de iluminación y encontrar rápidamente la mejor opción.

Caso 6: Primer plano – Detalles del ojo

Indicación:

Extreme close-up portrait
focus on eyes, hazel color with golden flecks
visible iris texture, natural reflection
fine eyelashes, individual strands
soft studio lighting from 45-degree angle
shallow depth of field

Resultados de la prueba:

  • ✅ Detalles de la textura del iris asombrosos.
  • ✅ Pestañas definidas una por una.
  • ✅ Reflejo natural en el globo ocular.
  • 📊 Comparativa con versión anterior: Las pestañas del modelo anterior solían mezclarse en una mancha; en la versión 2512, cada pestaña es claramente visible.

2.2 Categoría: Renderizado de texto (4 casos)

La capacidad de renderizado de texto de Qwen-Image-2512 es una de sus ventajas principales, especialmente con su excelente soporte para el chino.

Caso 7: Póster de evento – Título en inglés

Indicación:

Event poster design
headline "Aurora Festival 2026" in bold sans serif
subtitle "March 15-17, Seattle" in elegant serif font
background: northern lights gradient (green to purple)
modern minimalist layout

Técnicas de renderizado de texto:

  • Texto entre comillas: Es obligatorio envolver el contenido del texto con comillas dobles "Aurora Festival 2026".
  • Descripción específica de la fuente: Usa "bold sans serif" en lugar de solo "modern font".
  • Descripción por líneas: Describe el título y el subtítulo por separado.

Resultados de la prueba:

  • ✅ Ortografía del texto 100% precisa.
  • ✅ El estilo de la fuente cumple con lo solicitado.
  • ✅ Jerarquía de diseño clara.

Caso 8: Embalaje de producto – Texto en chino

Indicación:

Product packaging box design
main text "通义千问" in bold Chinese characters, centered
subtitle "AI 图像生成" below in smaller font
color scheme: deep blue background with gold accents
premium luxurious style

Puntos clave para el renderizado en chino:

  • ✅ Colocar los caracteres chinos dentro de comillas.
  • ✅ Especificar "Chinese characters" para mejorar la precisión.
  • ⚠️ Caracteres complejos pueden requerir múltiples generaciones.

Resultados de la prueba:

  • ✅ Los cuatro caracteres "通义千问" son claros y completos.
  • ✅ Trazos de la fuente coherentes.
  • ❌ En la primera generación, al carácter "问" le faltaba un trazo; se normalizó tras regenerar.

Caso 9: Texto con efectos especiales – Textura metálica

Indicación:

Fixed camera extreme macro cinematic close-up
human mouth partially open
lips and skin textured, softly lit
mouth reveals teeth with custom metallic grills
grills spelling bold sculptural letters "DIFFUSION"
chrome finish, highly reflective

Puntos clave para texto con efectos:

  • ✅ Definir claramente el soporte del texto (fundas dentales metálicas/grills).
  • ✅ Describir las propiedades del material (chrome, reflective).
  • ✅ Usar terminología cinematográfica para mejorar la calidad.

Resultados de la prueba:

  • ✅ Ortografía de "DIFFUSION" totalmente correcta.
  • ✅ Efecto de reflejo metálico muy realista.
  • ✅ Luces y sombras naturales dentro de la boca.
  • 🏆 Este caso obtuvo la puntuación más alta en las pruebas de dificultad de renderizado de texto.

Caso 10: Maquetación compleja – Múltiples bloques de texto

Indicación:

Magazine cover layout
title "TECH VISION" top center, large bold font
subtitle "The Future of AI" below title, italic serif
author line "by Dr. Sarah Chen" bottom right, small text
issue number "#25 Jan 2026" top right corner
background: abstract tech pattern in blue tones
high-end editorial design

Técnicas para múltiples bloques de texto:

  • ✅ Cada elemento de texto debe ir en una línea independiente.
  • ✅ Posición clara (top center, bottom right).
  • ✅ Diferenciar tamaños y estilos de fuente.

Resultados de la prueba:

  • ✅ Posición de todos los bloques de texto precisa.
  • ✅ Jerarquía de fuentes clara.
  • ⚠️ Los números en "#25 Jan 2026" ocasionalmente se desalinean; se recomienda simplificar a "Issue 25".

Comparativa de rendimiento de renderizado de texto:

Modelo Precisión ortográfica inglés Precisión renderizado chino Estabilidad multibloque
Qwen-Image-2512 95% 90% 85%
FLUX Dev 92% 70% 75%
SDXL 65% 40% 50%

qwen-image-2512-prompt-guide-test-cases-es 图示

2.3 Categoría: Productos de naturaleza muerta (4 casos)

Caso 11: Fotografía de joyería de lujo

Indicación:

Luxury jewelry photography
diamond ring on black velvet cushion
macro lens, shallow depth of field
studio lighting with controlled reflections
dark background with subtle gradient
commercial product shot

Resultados de la prueba:

  • ✅ Los reflejos de las facetas del diamante son realistas.
  • ✅ Textura metálica excepcional.
  • ✅ Textura del terciopelo muy fina.
  • 💡 Hallazgo de ajuste: El reflejo metálico es más natural con un Guidance Scale de 7.0.

Caso 12: Fotografía gastronómica – Latte Art

Indicación:

Top-down view of latte art
heart-shaped foam pattern in cappuccino
white ceramic cup on marble table
natural morning light from window
steam rising subtly
rustic coffee shop aesthetic

Puntos clave para fotografía gastronómica:

  • ✅ Definir la perspectiva (top-down view).
  • ✅ Enfatizar texturas (foam texture, steam).
  • ✅ Clima ambiental (natural light, rustic).

Resultados de la prueba:

  • ✅ Patrón del latte art claro.
  • ✅ Textura de la espuma realista.
  • ✅ Efecto de vapor natural.
  • ⚠️ Las vetas del mármol pueden ser demasiado regulares; añade "artificial pattern" en la indicación negativa.

Caso 13: Producto tecnológico – Reloj inteligente

Indicación:

Product photography of smartwatch
black metal case, OLED display showing 10:09
leather strap in dark brown
placed on geometric concrete blocks
dramatic side lighting creating long shadows
modern minimalist composition

Técnicas para productos digitales:

  • ✅ Especificar el contenido de la pantalla (showing 10:09).
  • ✅ Describir materiales por separado (metal case, leather strap).
  • ✅ Usar luces y sombras para realzar la tridimensionalidad.

Resultados de la prueba:

  • ✅ La hora en la esfera es exacta.
  • ✅ Distinción clara entre las texturas del metal y el cuero.
  • ✅ Ángulo de proyección de sombras natural.
  • 📊 Eficiencia: Promedio de 22 segundos para completar una imagen de 1024×1024.

Caso 14: Cosméticos – Frasco de perfume

Indicación:

High-end perfume bottle
geometric glass design, amber liquid inside
gold metal cap
placed on pink marble surface
soft diffused backlighting
water droplets on bottle surface
luxury cosmetic advertising style

Puntos clave para objetos de vidrio transparentes:

  • ✅ Describir el color del líquido (amber liquid).
  • ✅ Enfatizar la transparencia (glass design).
  • ✅ Añadir elementos de reflexión (water droplets, backlighting).

Resultados de la prueba:

  • ✅ Transparencia del vidrio y efectos de refracción realistas.
  • ✅ Saturación del color del líquido natural.
  • ✅ Detalles de las gotas de agua nítidos.
  • 🏆 Calidad comercial en 9 de cada 10 generaciones.

🎯 Sugerencia para fotografía de producto: Para escenarios que requieren gran volumen de imágenes (e-commerce, publicidad de marca), recomendamos usar la API de Qwen-Image-2512 a través de APIYI (apiyi.com). La plataforma permite importar indicaciones por CSV, generar cientos de imágenes automáticamente y ofrece funciones de marca de agua y ajuste de tamaño unificados, optimizando drásticamente la eficiencia.

2.4 Categoría: Paisajes (3 casos)

Caso 15: Paisaje nocturno urbano – Efecto neón

Indicación:

Cyberpunk city street at night
neon signs in Chinese and English characters
wet pavement reflecting colorful lights
light rain, atmospheric fog
cinematic color grading, high contrast
wide-angle perspective

Puntos clave para renderizado nocturno:

  • ✅ Enfatizar fuentes de luz (neon signs).
  • ✅ Añadir elementos de reflexión (wet pavement).
  • ✅ Efectos atmosféricos (fog, rain).

Resultados de la prueba:

  • ✅ Texto de los neones claramente legible.
  • ✅ Reflejos en el suelo precisos.
  • ✅ Niebla y lluvia naturales.
  • 💡 Observación de color: Los colores son más vivos con un Guidance Scale de 4.0, y más cercanos a la fotografía real con 5.5.

Caso 16: Paisaje natural – Larga exposición en cascada

Indicación:

Waterfall in lush forest
long exposure effect, silky smooth water flow
moss-covered rocks in foreground
sunlight filtering through canopy
vibrant green tones
nature photography, wide dynamic range

Técnicas de simulación de larga exposición:

  • ✅ Definir la técnica fotográfica (long exposure effect).
  • ✅ Describir la textura del agua (silky smooth).
  • ✅ Descripción por capas (primer plano, medio, fondo).

Resultados de la prueba:

  • ✅ Efecto de seda en el agua muy realista.
  • ✅ Textura del musgo delicada.
  • ✅ Efecto de luz filtrada por las hojas natural.
  • ⚠️ Se requiere aumentar Inference Steps a 50 para obtener el máximo detalle.

Caso 17: Paisaje minimalista – Dunas del desierto

Indicación:

Minimalist desert landscape
smooth sand dunes under golden hour light
single camel silhouette on ridge line
clear blue sky, no clouds
strong shadows emphasizing dune curves
fine sand texture visible

Puntos clave de composición minimalista:

  • ✅ Reducir elementos (single camel).
  • ✅ Enfatizar líneas (dune curves).
  • ✅ Usar luces y sombras para modelar formas.

Resultados de la prueba:

  • ✅ Curvas de las dunas fluidas.
  • ✅ Silueta del camello nítida.
  • ✅ Textura de los granos de arena visible.
  • 🎯 Este caso demuestra el excelente desempeño de Qwen-Image-2512 en composiciones simples.

2.5 Categoría: Grupos demográficos especiales (3 casos)

Esta es una de las áreas donde Qwen-Image-2512 tiene mayor ventaja sobre otros modelos.

Caso 18: Retrato infantil – Evitar la "adultización"

Indicación:

Portrait of a 5-year-old child
natural childhood features, round face
curious expression, bright eyes
casual children's clothing
outdoor playground background
soft natural daylight
authentic child proportions

Puntos clave para retratos infantiles:

  • ✅ Enfatizar la edad (5-year-old).
  • ✅ Especificar "child proportions" para evitar rasgos adultos.
  • ✅ Usar "natural childhood features".

Resultados de la prueba:

  • ✅ Proporciones faciales acordes a la edad.
  • ✅ Expresión natural e inocente.
  • ✅ Se evita el problema común de "niños que parecen adultos pequeños".

Caso 19: Personas mayores – Detalle de arrugas

Indicación:

Portrait of 75-year-old man
weathered skin with visible age spots
deep smile lines and forehead wrinkles
gray beard, short hair
wearing casual sweater
warm home setting
natural aging, no retouching

Puntos clave para retratos de ancianos:

  • ✅ Definir rasgos de edad (age spots, wrinkles).
  • ✅ Enfatizar "natural aging".
  • ✅ Indicación negativa para excluir "smooth skin, airbrushed".

Resultados de la prueba:

  • ✅ Textura de las arrugas realista.
  • ✅ Distribución natural de las manchas de la edad.
  • ✅ Sensación de flacidez cutánea precisa.
  • 📊 Comparativa: La versión original de Qwen-Image suavizaba demasiado la piel; la 2512 conserva todos los detalles de la edad.

Caso 20: Diversidad – Diferentes etnias

Indicación:

Group photo of five people from diverse backgrounds
African, Asian, Hispanic, Middle Eastern, Caucasian
age range 25-60
casual business attire
standing together in modern office
natural lighting, genuine smiles
inclusive and authentic representation

Puntos clave para renderizado de diversidad:

  • ✅ Definir distribución étnica.
  • ✅ Enfatizar "authentic representation".
  • ✅ Rango de edad variado.

Resultados de la prueba:

  • ✅ Rasgos faciales de cada etnia precisos.
  • ✅ Diferencias de tono de piel naturales.
  • ✅ Se evitan estereotipos.
  • 🏆 En pruebas de diversidad, Qwen-Image-2512 supera a la mayoría de los modelos de código cerrado.

2.6 Categoría: Composición creativa (3 casos)

Caso 21: Surrealismo – Objetos flotantes

Indicación:

Surreal composition
vintage typewriter floating in mid-air
surrounded by swirling papers with typed text
dark moody background
dramatic side lighting
creative concept art style

Técnicas de composición creativa:

  • ✅ Definir violación de leyes físicas (floating in mid-air).
  • ✅ Añadir elementos dinámicos (swirling papers).
  • ✅ Enfatizar el estilo artístico (concept art).

Resultados de la prueba:

  • ✅ Efecto de flotación natural.
  • ✅ Texto en los papeles legible.
  • ✅ Detalles de la máquina de escribir minuciosos.
  • 💡 La sensación creativa es máxima con un Guidance Scale de 6.5.

Caso 22: Efecto de doble exposición

Indicación:

Double exposure portrait
woman's profile silhouette
filled with forest scene inside
trees and sunlight visible within silhouette
artistic black and white
high contrast
creative photography style

Puntos clave para doble exposición:

  • ✅ Definir la técnica (double exposure).
  • ✅ Describir la relación de capas (scene inside silhouette).
  • ✅ Enfatizar el efecto visual (high contrast).

Resultados de la prueba:

  • ✅ Contorno nítido.
  • ✅ Escena interna rica en detalles.
  • ✅ Fuerte contraste blanco y negro.
  • ⚠️ Requiere de 3 a 5 generaciones para obtener una fusión perfecta.

Caso 23: Micromundo – Primer plano de insecto

Indicación:

Macro photography of butterfly wing
extreme close-up showing scale patterns
iridescent colors, structural coloration
shallow depth of field
black background
scientific documentation style

Puntos clave para macrofotografía:

  • ✅ Enfatizar la escala (extreme close-up, macro).
  • ✅ Describir microestructuras (scale patterns).
  • ✅ Terminología profesional (shallow depth of field).

Resultados de la prueba:

  • ✅ Disposición de las escamas precisa.
  • ✅ Cambios de color naturales.
  • ✅ Efecto de profundidad de campo realista.
  • 📊 El nivel de detalle alcanza el estándar de la macrofotografía profesional.

3. Guía completa de ajuste de parámetros

3.1 Guidance Scale (CFG) en detalle

El Guidance Scale controla qué tanto la imagen generada sigue la indicación.

Tabla de valores recomendados:

Tipo de escenario Valor CFG recomendado Descripción del efecto
Arte creativo 3.0 – 4.0 Más interpretación creativa del modelo, más estilizado
Fotografía general 4.0 – 5.0 Equilibrio entre realismo y creatividad
Reproducción precisa 5.0 – 7.0 Seguimiento estricto de la indicación
Fotos de producto/documentos 7.0 – 10.0 Máxima precisión, ideal para uso comercial

Datos de prueba (basados en estadísticas de 100 generaciones):

Valor CFG Seguimiento de la indicación Naturalidad visual Nivel de creatividad Tiempo promedio de generación
3.0 70% 95% 90% 20 seg
5.0 90% 90% 70% 24 seg
7.0 95% 80% 50% 26 seg
10.0 98% 65% 30% 28 seg

Conclusión: Un CFG de 4.0-5.0 es el punto de equilibrio óptimo para la mayoría de los escenarios.

🎯 Sugerencia para generación por lotes: Para proyectos que requieren probar el efecto de diferentes valores de CFG, recomendamos usar la función de barrido de parámetros a través de la plataforma APIYI apiyi.com. Esta plataforma permite enviar múltiples combinaciones de parámetros a la vez y genera resultados comparativos automáticamente para encontrar la mejor configuración rápidamente, lo cual es ideal para equipos de fotografía comercial y diseño de marca.

3.2 Estrategias de selección de Inference Steps

Modo de vista previa rápida (20-30 Steps):

  • Escenarios: Bocetos, pruebas de composición, exploración creativa
  • Tiempo de generación: 15-20 seg
  • Calidad: 7/10

Modo de calidad estándar (40-50 Steps):

  • Escenarios: Uso comercial regular, contenido para redes sociales
  • Tiempo de generación: 24-28 seg
  • Calidad: 9/10

Modo de calidad máxima (60+ Steps):

  • Escenarios: Material impreso, publicidad de alta gama, obras de arte
  • Tiempo de generación: 30-35 seg
  • Calidad: 9.5/10

Análisis de relación calidad-precio:

Cantidad de Steps Mejora de calidad Aumento de tiempo Aumento de costo Relación calidad-precio
20 → 30 +15% +25% +25% ⭐⭐⭐
30 → 50 +20% +40% +40% ⭐⭐⭐⭐
50 → 70 +5% +30% +30% ⭐⭐

Recomendación: 50 Steps es la opción con mejor relación calidad-precio.

3.3 Trucos para usar el valor Seed

Usos del Seed fijo:

  1. Pruebas A/B: Mismo Seed, diferente indicación, para comparar efectos.
  2. Ajuste fino: Modificar detalles sobre un resultado satisfactorio.
  3. Generación por lotes: Mantener la consistencia del estilo.

Caso: Serie de fotos de producto

Indicación base (Seed: 12345):

Product photography of running shoe, side view, white background

Variante 1 (Seed: 12345):

Product photography of running shoe, front view, white background

Variante 2 (Seed: 12345):

Product photography of running shoe, top view, white background

Resultado: Las tres imágenes tienen una iluminación, tono y estilo idénticos, cambiando solo la perspectiva, lo que es ideal para catálogos de e-commerce.

3.4 Mejores prácticas para indicaciones negativas (Negative Prompt)

Plantilla de indicación negativa general:

blurry, low quality, pixelated, distorted
watermark, text overlay, signature
oversaturated, artificial, plastic-looking

Indicaciones negativas específicas por escenario:

Tipo de escenario Indicaciones negativas adicionales
Fotografía de retrato extra fingers, deformed hands, unnatural proportions, smooth plastic skin
Fotografía de producto unrealistic reflections, fake materials, poor lighting
Fotografía de paisajes artificial colors, HDR overdone, unrealistic sky
Renderizado de texto misspelled text, garbled letters, unreadable font

Hallazgo de prueba: Agregar indicaciones negativas puede aumentar la tasa de satisfacción del 75% al 90%.


4. Preguntas frecuentes y soluciones

Q1: ¿Qué hacer si el texto generado tiene errores ortográficos?

Soluciones:

  1. ✅ Envolver el texto entre comillas dobles: "AURORA 2026"
  2. ✅ Simplificar el contenido del texto, evitando cadenas demasiado largas.
  3. ✅ Aumentar los Inference Steps a 50.
  4. ✅ Configurar el CFG entre 6.0-7.0 para mejorar la precisión.
  5. ✅ Generar varias veces y elegir el mejor resultado.

Comparativa de tasa de éxito:

Medida de optimización Precisión del texto
Sin optimización 65%
Con comillas 85%
Comillas + CFG 7.0 92%
Comillas + CFG 7.0 + Steps 50 96%

Q2: ¿Cómo solucionar las deformaciones en las manos de los personajes?

Soluciones:

  1. ✅ Añadir en la indicación negativa: extra fingers, deformed hands, mutated hands, fused fingers
  2. ✅ Especificar en la indicación: natural hand posture, five fingers
  3. ✅ Evitar gestos complejos, priorizar posturas sencillas.
  4. ✅ Aumentar el CFG a 6.0.
  5. ⚠️ Si las manos no son el foco, considera dejar las manos en los bordes de la imagen o parcialmente ocultas.

Datos de prueba: Tras aplicar estas medidas, la tasa de manos normales subió del 60% al 85%.

Q3: ¿Cómo generar estilos específicos (como óleo o acuarela)?

Método para añadir a la indicación:

Estilo óleo:

...[indicación original]...
oil painting style, thick brush strokes, impasto texture
classic art, museum quality

Estilo acuarela:

...[indicación original]...
watercolor painting, soft edges, translucent colors
paper texture visible, artistic illustration

Estilo fotográfico:

...[indicación original]...
shot on Canon EOS R5, 85mm f/1.4 lens
professional photography, RAW format

Q4: ¿Cómo mantener la consistencia de estilo en generaciones por lotes?

Estrategia:

  1. ✅ Fijar el valor del Seed.
  2. ✅ Usar el mismo sufijo de descripción de estilo en todas las indicaciones.
  3. ✅ Mantener constantes los parámetros CFG y Steps.
  4. ✅ Usar una plantilla de indicación estructurada.

Ejemplo de plantilla:

[Descripción del sujeto variable]
[Estilo fijo]: shot on medium format camera, Kodak Portra 400 film
[Iluminación fija]: soft natural light, golden hour
[Post-procesamiento fijo]: cinematic color grading, film grain texture

🎯 Solución empresarial: Para empresas que necesitan generar miles de materiales de marketing manteniendo la identidad visual de la marca, recomendamos usar el servicio de generación por lotes empresarial de la plataforma APIYI apiyi.com. La plataforma ofrece plantillas preestablecidas de estilo, bloqueo de parámetros globales y flujos de trabajo automatizados para asegurar la consistencia visual a gran escala, además de contar con un equipo de soporte técnico dedicado para ayudar en la optimización.

Q5: ¿Cómo elegir entre Qwen-Image-2512 y otros modelos?

Matriz comparativa de modelos:

Dimensión de comparación Qwen-Image-2512 Nano Banana Pro FLUX Dev SDXL
Renderizado de texto ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐
Realismo de retratos ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
Renderizado de personas mayores ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐
Fotografía de producto ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐
Arte creativo ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐
Velocidad de generación ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
Código abierto disponible

Sugerencias de elección:

  • Carteles con texto/Diseño de empaques: Qwen-Image-2512 es la primera opción.
  • Fotografía documental de personas: Qwen-Image-2512 o Nano Banana Pro.
  • Fotos de productos comerciales: Nano Banana Pro es ligeramente superior.
  • Creación artística: FLUX Dev es más creativo.
  • Prototipado rápido: SDXL es el más rápido.

5. Resumen y consejos prácticos

5.1 Repaso de los puntos clave

Tras analizar 23 casos de prueba reales, hemos resumido las cinco reglas de oro para las indicaciones de Qwen-Image-2512:

  1. Lo estructurado supera a lo narrativo: Describir por categorías (Sujeto/Entorno/Iluminación) mejora la precisión en un 30%.
  2. La brevedad vence a la extensión: Lo ideal son 1 a 3 frases; esto reduce el consumo de tokens en un 60%.
  3. El texto siempre entre comillas: La precisión al renderizar texto sube del 65% al 96%.
  4. La combinación de parámetros es la clave: Un CFG de 4.5 + 50 Steps es la configuración ganadora.
  5. Las indicaciones negativas son indispensables: Aumentan la tasa de satisfacción en un 15%.

5.2 Escenarios de aplicación recomendados

Área de aplicación Recomendación Ventaja principal
Imágenes de producto para e-commerce ⭐⭐⭐⭐⭐ Texturas reales, generación masiva rápida
Diseño de carteles para eventos ⭐⭐⭐⭐⭐ Renderizado de texto preciso, excelente soporte para chino
Fotografía documental de personas ⭐⭐⭐⭐⭐ Rasgos de edad precisos, evita el "toque artificial" de la IA
Material de marketing de marca ⭐⭐⭐⭐ Buena consistencia de estilo, admite procesamiento por lotes
Visualización arquitectónica ⭐⭐⭐ Rica en detalles, pero requiere ajustes posteriores
Arte conceptual ⭐⭐⭐⭐ Gran expresividad creativa

5.3 Ruta de aprendizaje avanzado

Nivel inicial (Semanas 1-2):

  • Dominar el formato de indicaciones estructuradas.
  • Probar 10 casos básicos (retratos, productos, paisajes).
  • Familiarizarse con los parámetros CFG y Steps.

Nivel intermedio (Semanas 3-4):

  • Aprender técnicas de renderizado de texto.
  • Dominar el uso de indicaciones negativas.
  • Controlar la generación por lotes y la consistencia de estilo.

Nivel avanzado (Semana 5 en adelante):

  • Integración de API y flujos de trabajo automatizados.
  • Uso combinado de múltiples modelos.
  • Control de calidad a nivel empresarial.

🎯 Consejo final: Para empresas y creadores que necesiten invocar Qwen-Image-2512 de forma estable y eficiente, recomendamos acceder al servicio a través de la plataforma APIYI (apiyi.com). Esta plataforma ofrece:

  • ✅ Acceso de alta velocidad, reduciendo la latencia en un 70%.
  • ✅ Herramientas de generación por lotes y escaneo de parámetros.
  • ✅ Biblioteca de plantillas de indicaciones y recursos de mejores prácticas.
  • ✅ Garantía de SLA de nivel empresarial y soporte técnico 24/7.
  • ✅ Gestión unificada de múltiples modelos de imagen (Qwen/FLUX/SDXL).

Visita ahora apiyi.com para registrar tu cuenta. Los nuevos usuarios recibirán un saldo gratuito de 20 USD, suficiente para generar entre 400 y 800 imágenes de alta calidad y probar todos los casos de este artículo.


Lecturas recomendadas:

  • Qwen-Image-2512 vs. Nano Banana Pro: El duelo entre modelos de imagen de código abierto y cerrados
  • Guía de optimización de costes en generación de imágenes con IA: Cómo reducir los gastos de API en un 80%
  • Configuración de flujos de trabajo de IA para empresas: Del análisis de necesidades al despliegue masivo

Publicaciones Similares