作者注:深度解析 Gemini 3.1 Flash Image Preview 和 Gemini 3 Pro Image Preview 的 14 张参考图功能,掌握对象保真和角色一致性的正确用法与配额分配策略
Gemini 图像模型支持混合使用最多 14 张参考图片进行图像生成,但很多开发者对这 14 张配额的分配规则并不清楚。本文将详细解析对象保真(Object Fidelity)和角色一致性(Character Consistency)两大核心能力,帮助你正确理解并高效使用 Gemini 多参考图功能。
核心价值: 读完本文,你将掌握 14 张参考图的配额分配逻辑、两个模型的差异对比,以及实际项目中的最佳实践方案。

Gemini 14 张参考图功能核心要点
Google 在 Gemini 3 系列图像模型中引入了多参考图混合能力,允许开发者在单次生成请求中传入最多 14 张参考图片。这 14 张图片并非简单的"数量上限",而是被精确划分为两个功能类别,各自承担不同的视觉保持任务。
| 要点 | 说明 | 价值 |
|---|---|---|
| 14 张总配额 | 对象保真图 + 角色一致性图的总和上限 | 单次请求最大视觉参考能力 |
| 对象保真(Object Fidelity) | 确保特定物品在生成图中高度还原 | 产品图、商品展示、品牌素材 |
| 角色一致性(Character Consistency) | 保持角色外观在不同场景中一致 | 连续故事、品牌 IP、角色营销 |
| 两模型配额不同 | Flash 和 Pro 的分配比例存在差异 | 根据需求选择合适模型 |
Gemini 参考图的两大功能类别详解
对象保真(Object Fidelity) 是指将参考图中的特定物品高保真地融入到最终生成的图像中。例如你上传一张红色运动鞋的照片,模型会在生成的场景图中精确还原这双鞋的外观细节——包括颜色、形状、纹理、Logo 位置等。这对于电商产品图、品牌物料生成等场景至关重要。
角色一致性(Character Consistency) 则聚焦于人物或角色。当你上传一个角色的参考图后,模型可以在不同的背景、姿态、光照条件下生成该角色的新图像,同时保持面部特征、发型、服装等关键视觉元素的一致性。这在连续故事插画、品牌吉祥物营销、游戏角色设计等场景中非常实用。
理解这两个类别的区别是正确使用 14 张参考图的前提。它们并非互相排斥,而是可以在同一请求中混合使用,但各自有独立的数量上限。
Gemini 参考图两模型配额对比
Gemini 3.1 Flash Image Preview 和 Gemini 3 Pro Image Preview 虽然都支持多参考图功能,但在配额分配上有显著差异。

| 能力维度 | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| 参考图总上限 | 14 张 | 11 张 |
| 对象保真图上限 | 最多 10 张 | 最多 6 张 |
| 角色一致性图上限 | 最多 4 张 | 最多 5 张 |
| 对象保真侧重 | 更强(10 张) | 较弱(6 张) |
| 角色一致性侧重 | 较弱(4 张) | 更强(5 张) |
| 生成速度 | 更快(Flash 级别) | 较慢(Pro 级别) |
| 适用场景 | 大批量产品图、多物品场景 | 多角色故事、复杂角色交互 |
Gemini 参考图配额分配的理解要点
很多开发者容易混淆的一个关键点是:14 张参考图并不意味着可以任意分配。以 Gemini 3.1 Flash Image Preview 为例:
- 你最多可以上传 10 张对象保真图 + 4 张角色一致性图 = 14 张
- 但你不能上传 14 张对象保真图和 0 张角色一致性图(对象保真上限是 10 张)
- 也不能上传 0 张对象保真图和 14 张角色一致性图(角色一致性上限是 4 张)
换句话说,14 张是理论最大值,只有当你同时使用两种类型的参考图,并且各自达到上限时才会用满。
对于 Gemini 3 Pro Image Preview 同理:最多 6 + 5 = 11 张,而非 14 张。Pro 模型的总上限实际上是 11 张。
选择建议: 如果你的场景以产品展示为主(需要大量物品参考),建议选择 Gemini 3.1 Flash Image Preview,它提供更多的对象保真配额。如果你的场景以角色故事为主(需要多角色保持一致),Gemini 3 Pro Image Preview 的 5 个角色配额更有优势。通过 API易 apiyi.com 可以同时测试两个模型,快速对比效果。
Gemini 14 张参考图快速上手
极简示例
以下是使用 Gemini 3.1 Flash Image Preview 进行多参考图生成的基础代码:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# 加载对象参考图(最多 10 张)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# 加载角色参考图(最多 4 张)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
查看完整多参考图生成代码
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# 初始化客户端
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
使用多参考图生成图像
Args:
prompt: 生成提示词
object_images: 对象保真图路径列表(Flash 最多 10 张)
character_images: 角色一致性图路径列表(Flash 最多 4 张)
aspect_ratio: 输出比例
model: 模型名称
"""
contents = [prompt]
# 添加对象参考图
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# 添加角色参考图
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# 提取生成的图片
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("图片已保存: output.png")
# 使用示例:电商产品场景
generate_with_references(
prompt="这些产品放在一个极简白色展台上的专业产品摄影",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
建议: 通过 API易 apiyi.com 获取 API Key 即可快速测试 Gemini 图像模型,平台支持 Gemini 3.1 Flash Image Preview 和 Gemini 3 Pro Image Preview 的统一接口调用。
Gemini 参考图应用场景与最佳配额策略
不同业务场景下,14 张参考图的分配策略差异很大。以下是 5 种典型场景的推荐配置:
| 场景 | 推荐模型 | 对象图数量 | 角色图数量 | 总参考图 | 说明 |
|---|---|---|---|---|---|
| 电商产品合集 | Flash | 8-10 张 | 0 张 | 8-10 | 多产品同框展示 |
| 品牌角色故事 | Pro | 2-3 张 | 4-5 张 | 6-8 | 角色在不同场景冒险 |
| 产品+代言人 | Flash | 5-6 张 | 2-3 张 | 7-9 | 角色手持/展示产品 |
| 游戏角色设计 | Pro | 3-4 张 | 4-5 张 | 7-9 | 多角色交互场景 |
| 家居场景搭配 | Flash | 8-10 张 | 0 张 | 8-10 | 多家具/装饰品组合 |
Gemini 参考图电商产品场景实践
电商是多参考图功能最直接的应用场景。传统方式下,你需要为每个产品单独拍摄场景图,成本高且风格难统一。使用 Gemini 的对象保真能力,你可以将多个产品的白底图作为参考,一次性生成统一风格的场景图。
推荐使用 Gemini 3.1 Flash Image Preview,因为它支持最多 10 张对象保真图,足以覆盖一个品类的产品合集。同时 Flash 级别的生成速度也更适合大批量生产的需求。
Gemini 参考图角色故事场景实践
如果你需要为品牌 IP 或游戏角色生成系列故事插画,角色一致性就是核心需求。Gemini 3 Pro Image Preview 支持最多 5 张角色一致性图,可以同时维护 5 个独立角色的外观一致性。
需要注意的是,角色一致性目前并非 100% 完美。Google 官方文档也指出:"character consistency is not always perfect between input images and generated output images"。在实际使用中,建议:
- 提供清晰、正面、光照均匀的角色参考图
- 在提示词中明确描述每个角色的关键特征
- 对生成结果进行人工筛选和微调
实践建议: 建议先通过 API易 apiyi.com 进行小批量测试,确认角色一致性效果满足要求后再进行批量生成。平台提供免费测试额度,方便快速验证。

Gemini 参考图技术规格与注意事项
支持的输出宽高比
Gemini 图像模型支持 14 种宽高比,覆盖几乎所有常见的使用场景:
| 宽高比 | 典型用途 | 适合场景 |
|---|---|---|
| 1:1 | 社交媒体头像、商品方图 | Instagram、产品缩略图 |
| 16:9 | 横版展示、博客配图 | 网页 Banner、文章头图 |
| 9:16 | 竖版展示、手机壁纸 | 小红书、抖音封面 |
| 4:3 | 传统显示比例 | PPT 配图、传统海报 |
| 3:2 | 摄影标准比例 | 产品摄影、风景图 |
| 21:9 | 超宽屏展示 | 电影海报、网站横幅 |
| 1:4 / 4:1 | 极端比例 | 长图、信息图 |
Gemini 参考图使用的关键限制
在实际开发中,以下限制需要特别注意:
- 配额是硬上限: 超过对象保真或角色一致性的数量上限会导致 API 报错
- 图片质量影响效果: 模糊、遮挡严重的参考图会降低保真度
- 角色一致性非 100%: 特别是在极端姿态变化或光照条件差异大的情况下
- 提示词需配合: 参考图只是视觉输入,提示词中需要明确描述图片内容和期望效果
- thoughtSignature 机制: 在对话式编辑中,模型依赖上一轮的 thoughtSignature 理解图像构图,连续编辑时需保留该签名
开发建议: API易 apiyi.com 支持 Gemini 全系列图像模型,包括 gemini-3.1-flash-image-preview 和 gemini-3-pro-image-preview,使用 OpenAI 兼容接口即可调用,无需额外适配。
常见问题
Q1: 14 张参考图是两个模型都支持吗?
不完全是。14 张是 Gemini 3.1 Flash Image Preview 的总上限(10 对象 + 4 角色)。Gemini 3 Pro Image Preview 的总上限实际上是 11 张(6 对象 + 5 角色)。选择模型时需要根据你的具体配额需求来决定。
Q2: 可以只用对象保真图,不用角色一致性图吗?
可以。这两种参考图类型是独立的,你可以只使用其中一种。例如电商场景通常只需要对象保真图,不涉及角色一致性。此时 Flash 模型最多可传入 10 张对象图。通过 API易 apiyi.com 可以快速测试不同配置的效果。
Q3: 角色一致性效果不好怎么办?
Google 官方承认角色一致性目前并非 100% 可靠。建议:(1)使用高清正面参考图;(2)在提示词中详细描述角色特征;(3)生成多张候选图后人工筛选;(4)尝试在 API易 apiyi.com 上同时测试 Flash 和 Pro 模型,对比一致性效果。
Q4: 如何区分对象保真图和角色一致性图?
关键区别在于语义:对象保真图是你希望在生成结果中精确还原的"物品"(鞋子、包、手表等),角色一致性图是你希望在不同场景中保持外观一致的"人物/角色"。在 API 调用中,两者都是普通图片输入,模型通过提示词中的描述来理解每张图的角色。建议在提示词中明确标注"this shoe"、"this character"等指代关系。
总结
Gemini 14 张参考图功能的核心要点:
- 配额分两类: 14 张上限由对象保真图和角色一致性图共同构成,各有独立上限
- 两模型有差异: Flash 偏向对象保真(10 张),Pro 偏向角色一致性(5 张)
- 场景决定选择: 产品展示选 Flash,角色故事选 Pro,混合场景按需分配
- 角色一致性需验证: 非 100% 完美,建议先小批量测试再批量生成
理解配额分配逻辑是高效使用 Gemini 多参考图功能的关键。建议通过 API易 apiyi.com 快速测试 Flash 和 Pro 两个模型的实际效果,平台提供免费额度和统一接口,便于对比选择最适合你场景的方案。
参考资料
-
Google Gemini 图像生成文档: 官方多参考图功能说明
- 链接:
ai.google.dev/gemini-api/docs/image-generation - 说明: 包含 14 张参考图的详细 API 规格和代码示例
- 链接:
-
Gemini 3.1 Flash Image Preview 模型卡: 模型能力和限制说明
- 链接:
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - 说明: Flash 图像模型的技术规格和性能参数
- 链接:
-
Gemini 3 开发者指南: Gemini 3 系列模型完整开发文档
- 链接:
ai.google.dev/gemini-api/docs/gemini-3 - 说明: 涵盖文本、图像、视频等多模态能力的开发指南
- 链接:
作者: APIYI 技术团队
技术交流: 欢迎在评论区讨论 Gemini 多参考图的使用技巧,更多资料可访问 API易 docs.apiyi.com 文档中心
