저자 주: Gemini 3.1 Flash Image Preview와 Gemini 3 Pro Image Preview의 14개 참조 이미지 기능을 심층 분석하고, 객체 충실도(Object Fidelity) 및 캐릭터 일관성(Character Consistency)의 올바른 사용법과 할당 전략을 알아보세요.
Gemini 이미지 모델은 최대 14개의 참조 이미지를 혼합하여 이미지 생성을 지원하지만, 많은 개발자들이 이 14개 할당량의 분배 규칙을 명확히 알지 못합니다. 이 글에서는 객체 충실도(Object Fidelity)와 캐릭터 일관성(Character Consistency)이라는 두 가지 핵심 기능을 자세히 분석하여, Gemini의 다중 참조 이미지 기능을 올바르게 이해하고 효율적으로 사용하는 데 도움을 드릴 것입니다.
핵심 가치: 이 글을 읽고 나면 14개 참조 이미지의 할당량 분배 로직, 두 모델의 차이점 비교, 그리고 실제 프로젝트에서의 최적의 활용 방안을 마스터하게 될 것입니다.

Gemini 14개 참조 이미지 기능 핵심 요점
Google은 Gemini 3 시리즈 이미지 모델에 다중 참조 이미지 혼합 기능을 도입하여, 개발자가 단일 생성 요청에 최대 14개의 참조 이미지를 전달할 수 있도록 했습니다. 이 14개의 이미지는 단순히 "수량 상한선"이 아니라, 두 가지 기능 범주로 정확하게 나뉘어 각각 다른 시각적 유지 작업을 수행합니다.
| 요점 | 설명 | 가치 |
|---|---|---|
| 14개 총 할당량 | 객체 충실도 이미지 + 캐릭터 일관성 이미지의 총합 상한선 | 단일 요청 최대 시각적 참조 능력 |
| 객체 충실도 (Object Fidelity) | 특정 아이템이 생성된 이미지에서 고정밀로 재현되도록 보장 | 제품 이미지, 상품 전시, 브랜드 자료 |
| 캐릭터 일관성 (Character Consistency) | 다양한 장면에서 캐릭터 외형을 일관되게 유지 | 연속 스토리, 브랜드 IP, 캐릭터 마케팅 |
| 두 모델의 할당량 차이 | Flash와 Pro의 할당 비율에 차이가 있음 | 필요에 따라 적합한 모델 선택 |
Gemini 참조 이미지의 두 가지 기능 범주 상세 설명
**객체 충실도(Object Fidelity)**는 참조 이미지에 있는 특정 아이템을 최종 생성되는 이미지에 고정밀로 통합하는 것을 의미합니다. 예를 들어, 빨간색 운동화 사진을 업로드하면 모델은 생성된 장면 이미지에서 이 신발의 외형 디테일(색상, 모양, 질감, 로고 위치 등)을 정확하게 재현합니다. 이는 전자상거래 제품 이미지, 브랜드 자료 생성 등과 같은 시나리오에서 매우 중요합니다.
**캐릭터 일관성(Character Consistency)**은 인물 또는 캐릭터에 초점을 맞춥니다. 캐릭터 참조 이미지를 업로드하면 모델은 다양한 배경, 자세, 조명 조건에서 해당 캐릭터의 새로운 이미지를 생성하면서 얼굴 특징, 헤어스타일, 의상 등 핵심 시각 요소를 일관되게 유지할 수 있습니다. 이는 연속 스토리 삽화, 브랜드 마스코트 마케팅, 게임 캐릭터 디자인 등과 같은 시나리오에서 매우 유용합니다.
이 두 범주의 차이점을 이해하는 것이 14개 참조 이미지를 올바르게 사용하는 전제 조건입니다. 이들은 서로 배타적이지 않으며, 동일한 요청에서 혼합하여 사용할 수 있지만, 각각 독립적인 수량 상한선을 가집니다.
Gemini 참조 이미지 두 모델 할당량 비교
Gemini 3.1 Flash Image Preview와 Gemini 3 Pro Image Preview는 모두 멀티 참조 이미지 기능을 지원하지만, 할당량 배분에는 상당한 차이가 있습니다.

| 기능 차원 | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| 참조 이미지 총 상한 | 14장 | 11장 |
| 객체 충실도 이미지 상한 | 최대 10장 | 최대 6장 |
| 캐릭터 일관성 이미지 상한 | 최대 4장 | 최대 5장 |
| 객체 충실도 중점 | 더 강함 (10장) | 더 약함 (6장) |
| 캐릭터 일관성 중점 | 더 약함 (4장) | 더 강함 (5장) |
| 생성 속도 | 더 빠름 (Flash 레벨) | 더 느림 (Pro 레벨) |
| 적용 시나리오 | 대량 제품 이미지, 다중 객체 시나리오 | 다중 캐릭터 스토리, 복잡한 캐릭터 상호작용 |
Gemini 참조 이미지 할당량 배분 이해 핵심
많은 개발자들이 혼동하기 쉬운 핵심은 14장의 참조 이미지가 임의로 배분될 수 있다는 것을 의미하지 않는다는 점입니다. Gemini 3.1 Flash Image Preview를 예로 들어보겠습니다.
- 최대 10장의 객체 충실도 이미지 + 4장의 캐릭터 일관성 이미지 = 14장을 업로드할 수 있습니다.
- 하지만 14장의 객체 충실도 이미지와 0장의 캐릭터 일관성 이미지를 업로드할 수는 없습니다 (객체 충실도 상한은 10장입니다).
- 또한 0장의 객체 충실도 이미지와 14장의 캐릭터 일관성 이미지를 업로드할 수도 없습니다 (캐릭터 일관성 상한은 4장입니다).
다시 말해, 14장은 이론적인 최댓값이며, 두 가지 유형의 참조 이미지를 동시에 사용하고 각각의 상한에 도달했을 때만 모두 사용할 수 있습니다.
Gemini 3 Pro Image Preview도 마찬가지입니다. 최대 6 + 5 = 11장이며, 14장이 아닙니다. Pro 모델의 총 상한은 실제로는 11장입니다.
선택 제안: 시나리오가 제품 전시에 중점을 둔다면 (많은 객체 참조가 필요한 경우), 더 많은 객체 충실도 할당량을 제공하는 Gemini 3.1 Flash Image Preview를 선택하는 것이 좋습니다. 시나리오가 캐릭터 스토리에 중점을 둔다면 (다중 캐릭터의 일관성 유지가 필요한 경우), Gemini 3 Pro Image Preview의 5개 캐릭터 할당량이 더 유리합니다. APIYI(apiyi.com)를 통해 두 모델을 동시에 테스트하여 효과를 빠르게 비교할 수 있습니다.
Gemini 14장 참조 이미지 빠르게 시작하기
간단한 예시
다음은 Gemini 3.1 Flash Image Preview를 사용하여 멀티 참조 이미지 생성을 위한 기본 코드입니다.
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# 객체 참조 이미지 로드 (최대 10장)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# 캐릭터 참조 이미지 로드 (최대 4장)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
전체 멀티 참조 이미지 생성 코드 보기
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# 클라이언트 초기화
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
멀티 참조 이미지를 사용하여 이미지 생성
Args:
prompt: 생성 프롬프트
object_images: 객체 충실도 이미지 경로 목록 (Flash 최대 10장)
character_images: 캐릭터 일관성 이미지 경로 목록 (Flash 최대 4장)
aspect_ratio: 출력 비율
model: 모델 이름
"""
contents = [prompt]
# 객체 참조 이미지 추가
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# 캐릭터 참조 이미지 추가
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# 생성된 이미지 추출
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("이미지가 저장되었습니다: output.png")
# 사용 예시: 이커머스 제품 시나리오
generate_with_references(
prompt="이 제품들을 미니멀한 흰색 전시 스탠드에 놓은 전문적인 제품 사진",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
제안: APIYI(apiyi.com)에서 API 키를 받아 Gemini 이미지 모델을 빠르게 테스트할 수 있습니다. 플랫폼은 Gemini 3.1 Flash Image Preview와 Gemini 3 Pro Image Preview의 통합 인터페이스 호출을 지원합니다.
Gemini 참조 이미지 활용 시나리오 및 최적 할당 전략
다양한 비즈니스 시나리오에서 14장의 참조 이미지를 할당하는 전략은 크게 달라집니다. 다음은 5가지 대표적인 시나리오에 대한 권장 구성입니다.
| 시나리오 | 추천 모델 | 객체 이미지 수 | 캐릭터 이미지 수 | 총 참조 이미지 수 | 설명 |
|---|---|---|---|---|---|
| 이커머스 제품 컬렉션 | Flash | 8-10장 | 0장 | 8-10 | 여러 제품을 한 프레임에 표시 |
| 브랜드 캐릭터 스토리 | Pro | 2-3장 | 4-5장 | 6-8 | 다양한 시나리오에서 모험하는 캐릭터 |
| 제품 + 모델 | Flash | 5-6장 | 2-3장 | 7-9 | 제품을 들거나 전시하는 캐릭터 |
| 게임 캐릭터 디자인 | Pro | 3-4장 | 4-5장 | 7-9 | 여러 캐릭터가 상호작용하는 장면 |
| 홈 데코 코디 | Flash | 8-10장 | 0장 | 8-10 | 여러 가구/장식품 조합 |
Gemini 참조 이미지 이커머스 제품 시나리오 실습
이커머스는 여러 참조 이미지 기능을 가장 직접적으로 활용할 수 있는 시나리오입니다. 기존 방식으로는 각 제품마다 개별적으로 시나리오 이미지를 촬영해야 해서 비용이 많이 들고 스타일을 통일하기 어려웠습니다. Gemini의 객체 충실도(object fidelity) 기능을 사용하면 여러 제품의 흰색 배경 이미지를 참조 이미지로 활용하여 한 번에 통일된 스타일의 시나리오 이미지를 생성할 수 있습니다.
Gemini 3.1 Flash Image Preview 사용을 추천합니다. 이 모델은 최대 10장의 객체 충실도 이미지를 지원하여 한 제품군 전체를 커버하기에 충분합니다. 또한 Flash 모델의 생성 속도는 대량 생산 요구사항에도 더 적합합니다.
Gemini 참조 이미지 캐릭터 스토리 시나리오 실습
브랜드 IP나 게임 캐릭터를 위한 시리즈 스토리 일러스트를 생성해야 한다면, 캐릭터 일관성이 핵심 요구사항이 됩니다. Gemini 3 Pro Image Preview는 최대 5장의 캐릭터 일관성 이미지를 지원하여 5개의 독립적인 캐릭터의 외형 일관성을 동시에 유지할 수 있습니다.
주의할 점은 캐릭터 일관성이 현재 100% 완벽하지는 않다는 것입니다. Google 공식 문서에서도 "character consistency is not always perfect between input images and generated output images"라고 언급하고 있습니다. 실제 사용 시 다음을 권장합니다.
- 선명하고 정면이며 조명이 균일한 캐릭터 참조 이미지를 제공하세요.
- 프롬프트에 각 캐릭터의 주요 특징을 명확하게 설명하세요.
- 생성된 결과물을 수동으로 선별하고 미세 조정하세요.
실습 제안: 먼저 APIYI apiyi.com을 통해 소량 테스트를 진행하여 캐릭터 일관성 효과가 요구사항을 충족하는지 확인한 후 대량 생성을 진행하는 것을 권장합니다. 플랫폼은 무료 테스트 크레딧을 제공하여 빠른 검증에 편리합니다.

Gemini 참조 이미지 기술 사양 및 주의사항
지원되는 출력 가로세로 비율
Gemini 이미지 모델은 14가지 가로세로 비율을 지원하여 거의 모든 일반적인 사용 시나리오를 포괄합니다.
| 가로세로 비율 | 일반적인 용도 | 적합한 시나리오 |
|---|---|---|
| 1:1 | 소셜 미디어 프로필 사진, 정사각형 상품 이미지 | 인스타그램, 제품 썸네일 |
| 16:9 | 가로형 디스플레이, 블로그 삽화 | 웹 배너, 게시물 헤더 이미지 |
| 9:16 | 세로형 디스플레이, 휴대폰 배경화면 | 샤오홍슈, 틱톡 커버 |
| 4:3 | 전통적인 디스플레이 비율 | PPT 삽화, 전통 포스터 |
| 3:2 | 사진 표준 비율 | 제품 사진, 풍경 이미지 |
| 21:9 | 울트라 와이드 디스플레이 | 영화 포스터, 웹사이트 배너 |
| 1:4 / 4:1 | 극단적인 비율 | 긴 이미지, 인포그래픽 |
Gemini 참조 이미지 사용의 주요 제한 사항
실제 개발 시 다음 제한 사항에 특히 주의해야 합니다.
- 할당량은 엄격한 상한선입니다: 객체 충실도 또는 캐릭터 일관성의 수량 상한을 초과하면 API 오류가 발생합니다.
- 이미지 품질이 결과에 영향을 미칩니다: 흐리거나 심하게 가려진 참조 이미지는 충실도를 떨어뜨릴 수 있습니다.
- 캐릭터 일관성은 100%가 아닙니다: 특히 극단적인 자세 변화나 조명 조건 차이가 큰 경우에 그렇습니다.
- 프롬프트와 함께 사용해야 합니다: 참조 이미지는 시각적 입력일 뿐이며, 프롬프트에는 이미지 내용과 기대하는 효과를 명확하게 설명해야 합니다.
- thoughtSignature 메커니즘: 대화형 편집에서 모델은 이전 라운드의 thoughtSignature에 의존하여 이미지 구성을 이해하므로, 연속 편집 시 이 서명을 유지해야 합니다.
개발 팁: APIYI (apiyi.com)는 gemini-3.1-flash-image-preview 및 gemini-3-pro-image-preview를 포함한 Gemini 전체 이미지 모델을 지원하며, OpenAI 호환 인터페이스를 사용하여 추가적인 조정 없이 호출할 수 있습니다.
자주 묻는 질문
Q1: 14장의 참조 이미지를 두 모델 모두 지원하나요?
완전히 그렇지는 않습니다. 14장은 Gemini 3.1 Flash Image Preview의 총 상한선입니다 (객체 10개 + 캐릭터 4개). Gemini 3 Pro Image Preview의 총 상한선은 실제로는 11장입니다 (객체 6개 + 캐릭터 5개). 모델을 선택할 때는 특정 할당량 요구 사항에 따라 결정해야 합니다.
Q2: 객체 충실도 이미지만 사용하고 캐릭터 일관성 이미지는 사용하지 않을 수 있나요?
네, 가능합니다. 이 두 가지 참조 이미지 유형은 독립적이므로, 둘 중 하나만 사용할 수 있습니다. 예를 들어, 전자상거래 시나리오에서는 일반적으로 객체 충실도 이미지만 필요하며 캐릭터 일관성은 관련이 없습니다. 이 경우 Flash 모델은 최대 10장의 객체 이미지를 전달할 수 있습니다. APIYI (apiyi.com)를 통해 다양한 구성의 효과를 빠르게 테스트해 볼 수 있습니다.
Q3: 캐릭터 일관성 효과가 좋지 않으면 어떻게 해야 하나요?
Google 공식적으로 캐릭터 일관성이 현재 100% 신뢰할 수 있는 것은 아니라고 인정했습니다. 다음을 권장합니다: (1) 고화질 정면 참조 이미지를 사용하세요; (2) 프롬프트에 캐릭터 특징을 상세히 묘사하세요; (3) 여러 후보 이미지를 생성한 후 수동으로 선별하세요; (4) APIYI (apiyi.com)에서 Flash 및 Pro 모델을 동시에 테스트하여 일관성 효과를 비교해 보세요.
Q4: 객체 충실도 이미지와 캐릭터 일관성 이미지를 어떻게 구분하나요?
핵심적인 차이는 의미론에 있습니다: 객체 충실도 이미지는 생성 결과에서 정확하게 재현되기를 바라는 "사물"(신발, 가방, 시계 등)이며, 캐릭터 일관성 이미지는 다양한 시나리오에서 외형이 일관되게 유지되기를 바라는 "인물/캐릭터"입니다. API 호출에서는 둘 다 일반 이미지 입력이며, 모델은 프롬프트의 설명을 통해 각 이미지의 역할을 이해합니다. 프롬프트에서 "this shoe", "this character" 등과 같은 지칭 관계를 명확히 표시하는 것이 좋습니다.
요약
Gemini 14장 참조 이미지 기능의 핵심 요점:
- 할당량은 두 가지 유형으로 나뉩니다: 14장 상한선은 객체 충실도 이미지와 캐릭터 일관성 이미지로 구성되며, 각각 독립적인 상한선을 가집니다.
- 두 모델의 차이점: Flash는 객체 충실도에 중점을 둡니다 (10장). Pro는 캐릭터 일관성에 중점을 둡니다 (5장).
- 시나리오에 따라 선택: 제품 전시는 Flash를, 캐릭터 스토리는 Pro를 선택하고, 혼합 시나리오에서는 필요에 따라 할당하세요.
- 캐릭터 일관성 검증 필요: 100% 완벽하지 않으므로, 소량 테스트 후 대량 생성을 권장합니다.
할당량 분배 로직을 이해하는 것이 Gemini 멀티 참조 이미지 기능을 효율적으로 사용하는 핵심입니다. APIYI apiyi.com을 통해 Flash와 Pro 두 모델의 실제 효과를 빠르게 테스트해 보세요. 플랫폼은 무료 할당량과 통합 인터페이스를 제공하여, 사용자 시나리오에 가장 적합한 솔루션을 비교하고 선택하기 편리합니다.
참고 자료
-
Google Gemini 이미지 생성 문서: 공식 멀티 참조 이미지 기능 설명
- 링크:
ai.google.dev/gemini-api/docs/image-generation - 설명: 14장 참조 이미지의 상세 API 사양 및 코드 예시를 포함합니다.
- 링크:
-
Gemini 3.1 Flash Image Preview 모델 카드: 모델 기능 및 제한 사항 설명
- 링크:
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - 설명: Flash 이미지 모델의 기술 사양 및 성능 매개변수입니다.
- 링크:
-
Gemini 3 개발자 가이드: Gemini 3 시리즈 모델 전체 개발 문서
- 링크:
ai.google.dev/gemini-api/docs/gemini-3 - 설명: 텍스트, 이미지, 비디오 등 멀티모달 기능에 대한 개발 가이드를 다룹니다.
- 링크:
작성자: APIYI 기술팀
기술 교류: 댓글 섹션에서 Gemini 멀티 참조 이미지 사용 팁을 자유롭게 토론해 주세요. 더 많은 자료는 APIYI docs.apiyi.com 문서 센터에서 확인하실 수 있습니다.
