Penulis: Analisis mendalam fitur 14 gambar referensi pada Gemini 3.1 Flash Image Preview dan Gemini 3 Pro Image Preview, menguasai penggunaan yang benar dan strategi alokasi kuota untuk Object Fidelity dan Character Consistency.
Model gambar Gemini mendukung penggunaan campuran hingga 14 gambar referensi untuk pembuatan gambar, namun banyak developer yang belum memahami aturan alokasi kuota untuk 14 gambar ini. Artikel ini akan menganalisis secara mendalam dua kemampuan inti utama: Object Fidelity dan Character Consistency, untuk membantu Anda memahami dan menggunakan fitur multi-gambar referensi Gemini secara efisien.
Nilai Inti: Setelah membaca artikel ini, Anda akan menguasai logika alokasi kuota 14 gambar referensi, perbandingan perbedaan antara kedua model, serta praktik terbaik dalam proyek nyata.

Poin-Poin Penting Fitur 14 Gambar Referensi Gemini
Google memperkenalkan kemampuan campuran multi-gambar referensi dalam model gambar seri Gemini 3, memungkinkan developer untuk mengirimkan hingga 14 gambar referensi dalam satu permintaan pembuatan. Ke-14 gambar ini bukan sekadar "batas jumlah", melainkan dibagi secara presisi menjadi dua kategori fungsional, masing-masing bertanggung jawab atas tugas mempertahankan visual yang berbeda.
| Poin Utama | Deskripsi | Nilai |
|---|---|---|
| 14 Gambar Total Kuota | Batas atas total gambar Object Fidelity + gambar Character Consistency | Kemampuan referensi visual maksimum per permintaan |
| Object Fidelity | Memastikan item tertentu direplikasi dengan akurasi tinggi dalam gambar yang dihasilkan | Gambar produk, tampilan barang dagangan, materi merek |
| Character Consistency | Menjaga konsistensi penampilan karakter di berbagai skenario | Cerita bersambung, IP merek, pemasaran karakter |
| Kuota Model Berbeda | Rasio alokasi antara Flash dan Pro berbeda | Pilih model yang sesuai berdasarkan kebutuhan |
Penjelasan Mendalam Dua Kategori Fungsional Gambar Referensi Gemini
Object Fidelity mengacu pada pengintegrasian objek tertentu dari gambar referensi ke dalam gambar akhir yang dihasilkan dengan fidelitas tinggi. Misalnya, Anda mengunggah foto sepatu olahraga merah, model akan mereplikasi detail penampilan sepatu tersebut secara akurat dalam gambar skenario yang dihasilkan—termasuk warna, bentuk, tekstur, posisi Logo, dan lainnya. Ini sangat penting untuk skenario seperti gambar produk e-commerce dan pembuatan materi merek.
Character Consistency berfokus pada figur atau karakter. Ketika Anda mengunggah gambar referensi karakter, model dapat menghasilkan gambar baru karakter tersebut dalam latar belakang, pose, dan kondisi pencahayaan yang berbeda, sambil menjaga konsistensi elemen visual kunci seperti fitur wajah, gaya rambut, dan pakaian. Ini sangat praktis dalam skenario seperti ilustrasi cerita bersambung, pemasaran maskot merek, dan desain karakter game.
Memahami perbedaan antara kedua kategori ini adalah prasyarat untuk menggunakan 14 gambar referensi dengan benar. Keduanya tidak saling eksklusif, melainkan dapat digunakan secara bersamaan dalam permintaan yang sama, tetapi masing-masing memiliki batas jumlah yang terpisah.
Perbandingan Kuota Dua Model Gemini untuk Gambar Referensi
Gemini 3.1 Flash Image Preview dan Gemini 3 Pro Image Preview, meskipun keduanya mendukung fitur multi-gambar referensi, memiliki perbedaan signifikan dalam alokasi kuota.

| Dimensi Kemampuan | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| Total Batas Gambar Referensi | 14 Gambar | 11 Gambar |
| Batas Gambar Konsistensi Objek | Maks. 10 Gambar | Maks. 6 Gambar |
| Batas Gambar Konsistensi Karakter | Maks. 4 Gambar | Maks. 5 Gambar |
| Fokus Konsistensi Objek | Lebih Kuat (10 Gambar) | Lebih Lemah (6 Gambar) |
| Fokus Konsistensi Karakter | Lebih Lemah (4 Gambar) | Lebih Kuat (5 Gambar) |
| Kecepatan Generasi | Lebih Cepat (Level Flash) | Lebih Lambat (Level Pro) |
| Skenario Aplikasi | Gambar produk massal, skenario multi-objek | Cerita multi-karakter, interaksi karakter kompleks |
Poin Penting untuk Memahami Alokasi Kuota Gambar Referensi Gemini
Satu poin penting yang sering membingungkan banyak developer adalah: 14 gambar referensi tidak berarti dapat dialokasikan secara sembarangan. Ambil contoh Gemini 3.1 Flash Image Preview:
- Anda dapat mengunggah maksimal 10 gambar konsistensi objek + 4 gambar konsistensi karakter = 14 gambar
- Tapi Anda tidak bisa mengunggah 14 gambar konsistensi objek dan 0 gambar konsistensi karakter (batas atas konsistensi objek adalah 10 gambar)
- Dan juga tidak bisa mengunggah 0 gambar konsistensi objek dan 14 gambar konsistensi karakter (batas atas konsistensi karakter adalah 4 gambar)
Dengan kata lain, 14 adalah nilai maksimum teoretis, dan hanya akan terpenuhi jika Anda menggunakan kedua jenis gambar referensi secara bersamaan, dan masing-masing mencapai batas atasnya.
Hal yang sama berlaku untuk Gemini 3 Pro Image Preview: maksimal 6 + 5 = 11 gambar, bukan 14 gambar. Batas total model Pro sebenarnya adalah 11 gambar.
Saran Pemilihan: Jika skenario Anda berfokus pada tampilan produk (membutuhkan banyak referensi objek), disarankan untuk memilih Gemini 3.1 Flash Image Preview, karena menawarkan kuota konsistensi objek yang lebih banyak. Jika skenario Anda berfokus pada cerita karakter (membutuhkan banyak karakter yang konsisten), kuota 5 karakter pada Gemini 3 Pro Image Preview lebih menguntungkan. Anda dapat menguji kedua model secara bersamaan melalui APIYI apiyi.com untuk membandingkan hasilnya dengan cepat.
Memulai Cepat dengan 14 Gambar Referensi Gemini
Contoh Sederhana
Berikut adalah kode dasar untuk pembuatan multi-gambar referensi menggunakan Gemini 3.1 Flash Image Preview:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# Muat gambar referensi objek (maks. 10 gambar)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# Muat gambar referensi karakter (maks. 4 gambar)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
Lihat Kode Lengkap untuk Pembuatan Multi-Gambar Referensi
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# Inisialisasi klien
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
Membuat gambar menggunakan multi-gambar referensi
Args:
prompt: Petunjuk pembuatan
object_images: Daftar jalur gambar konsistensi objek (Flash maks. 10 gambar)
character_images: Daftar jalur gambar konsistensi karakter (Flash maks. 4 gambar)
aspect_ratio: Rasio aspek output
model: Nama model
"""
contents = [prompt]
# Tambahkan gambar referensi objek
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# Tambahkan gambar referensi karakter
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# Ekstrak gambar yang dihasilkan
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("Gambar telah disimpan: output.png")
# Contoh penggunaan: Skenario produk e-commerce
generate_with_references(
prompt="Fotografi produk profesional dengan produk-produk ini ditempatkan di stan pameran putih minimalis",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
Saran: Dapatkan Kunci API melalui APIYI apiyi.com untuk menguji model gambar Gemini dengan cepat. Platform ini mendukung pemanggilan API terpadu untuk Gemini 3.1 Flash Image Preview dan Gemini 3 Pro Image Preview.
Skenario Penggunaan Gambar Referensi Gemini dan Strategi Alokasi Terbaik
Strategi alokasi 14 gambar referensi sangat bervariasi tergantung pada skenario bisnis yang berbeda. Berikut adalah rekomendasi konfigurasi untuk 5 skenario tipikal:
| Skenario | Model Rekomendasi | Jumlah Gambar Objek | Jumlah Gambar Karakter | Total Gambar Referensi | Deskripsi |
|---|---|---|---|---|---|
| Koleksi Produk E-commerce | Flash | 8-10 Gambar | 0 Gambar | 8-10 | Tampilan multi-produk dalam satu bingkai |
| Kisah Karakter Merek | Pro | 2-3 Gambar | 4-5 Gambar | 6-8 | Karakter berpetualang di berbagai skenario |
| Produk + Duta Merek | Flash | 5-6 Gambar | 2-3 Gambar | 7-9 | Karakter memegang/menampilkan produk |
| Desain Karakter Game | Pro | 3-4 Gambar | 4-5 Gambar | 7-9 | Skenario interaksi multi-karakter |
| Penataan Skenario Rumah | Flash | 8-10 Gambar | 0 Gambar | 8-10 | Kombinasi multi-furnitur/dekorasi |
Praktik Skenario Produk E-commerce dengan Gambar Referensi Gemini
E-commerce adalah skenario penggunaan paling langsung untuk fitur multi-gambar referensi. Secara tradisional, Anda perlu memotret gambar skenario untuk setiap produk secara terpisah, yang biayanya tinggi dan sulit untuk menyatukan gayanya. Dengan kemampuan fidelitas objek Gemini, Anda bisa menggunakan gambar produk berlatar putih sebagai referensi untuk menghasilkan gambar skenario dengan gaya yang seragam sekaligus.
Kami merekomendasikan penggunaan Gemini 3.1 Flash Image Preview karena mendukung hingga 10 gambar fidelitas objek, cukup untuk mencakup koleksi produk dalam satu kategori. Selain itu, kecepatan generasi tingkat Flash juga lebih cocok untuk kebutuhan produksi massal.
Praktik Skenario Kisah Karakter dengan Gambar Referensi Gemini
Jika Anda perlu menghasilkan ilustrasi cerita berseri untuk IP merek atau karakter game, konsistensi wajah adalah kebutuhan inti. Gemini 3 Pro Image Preview mendukung hingga 5 gambar konsistensi wajah, yang dapat menjaga konsistensi penampilan 5 karakter independen secara bersamaan.
Perlu diperhatikan bahwa konsistensi wajah saat ini belum 100% sempurna. Dokumentasi resmi Google juga menyatakan: "character consistency is not always perfect between input images and generated output images". Dalam penggunaan praktis, disarankan untuk:
- Sediakan gambar referensi karakter yang jelas, tampak depan, dan pencahayaan merata
- Jelaskan fitur kunci setiap karakter secara eksplisit dalam petunjuk
- Lakukan penyaringan manual dan penyesuaian halus pada hasil yang dihasilkan
Saran Praktis: Disarankan untuk melakukan pengujian batch kecil terlebih dahulu melalui APIYI apiyi.com untuk memastikan efek konsistensi wajah memenuhi persyaratan sebelum melakukan generasi massal. Platform ini menyediakan kuota uji coba gratis, memudahkan verifikasi cepat.

Spesifikasi Teknis dan Catatan Penting Gambar Referensi Gemini
Rasio Aspek Output yang Didukung
Model gambar Gemini mendukung 14 rasio aspek, mencakup hampir semua skenario penggunaan umum:
| Rasio Aspek | Penggunaan Umum | Skenario yang Cocok |
|---|---|---|
| 1:1 | Avatar media sosial, gambar produk persegi | Instagram, thumbnail produk |
| 16:9 | Tampilan lanskap, ilustrasi blog | Banner web, gambar utama artikel |
| 9:16 | Tampilan potret, wallpaper ponsel | Sampul Xiaohongshu, Douyin |
| 4:3 | Rasio tampilan tradisional | Ilustrasi PPT, poster tradisional |
| 3:2 | Rasio standar fotografi | Fotografi produk, gambar pemandangan |
| 21:9 | Tampilan layar ultra-lebar | Poster film, banner situs web |
| 1:4 / 4:1 | Rasio ekstrem | Gambar panjang, infografis |
Batasan Utama dalam Penggunaan Gambar Referensi Gemini
Dalam pengembangan praktis, batasan-batasan berikut perlu diperhatikan secara khusus:
- Kuota adalah batas keras: Melebihi batas jumlah untuk kesetiaan objek atau konsistensi karakter akan menyebabkan error API.
- Kualitas gambar memengaruhi hasil: Gambar referensi yang buram atau terhalang parah akan mengurangi kesetiaan.
- Konsistensi karakter tidak 100%: Terutama dalam kasus perubahan pose ekstrem atau perbedaan kondisi pencahayaan yang besar.
- Petunjuk perlu disesuaikan: Gambar referensi hanyalah input visual, petunjuk perlu secara jelas menjelaskan konten gambar dan efek yang diinginkan.
- Mekanisme thoughtSignature: Dalam pengeditan berbasis dialog, model bergantung pada
thoughtSignaturedari putaran sebelumnya untuk memahami komposisi gambar. Tanda tangan ini perlu dipertahankan saat melakukan pengeditan berkelanjutan.
Saran Pengembangan: APIYI apiyi.com mendukung seluruh seri model gambar Gemini, termasuk
gemini-3.1-flash-image-previewdangemini-3-pro-image-preview. Anda dapat memanggilnya menggunakan antarmuka yang kompatibel dengan OpenAI, tanpa perlu adaptasi tambahan.
Pertanyaan Umum
Q1: Apakah 14 gambar referensi didukung oleh kedua model?
Tidak sepenuhnya. 14 adalah batas total untuk Gemini 3.1 Flash Image Preview (10 objek + 4 karakter). Batas total untuk Gemini 3 Pro Image Preview sebenarnya adalah 11 gambar (6 objek + 5 karakter). Saat memilih model, Anda perlu memutuskan berdasarkan kebutuhan kuota spesifik Anda.
Q2: Bisakah saya hanya menggunakan gambar kesetiaan objek dan tidak menggunakan gambar konsistensi karakter?
Bisa. Kedua jenis gambar referensi ini bersifat independen, Anda bisa hanya menggunakan salah satunya. Misalnya, skenario e-commerce biasanya hanya memerlukan gambar kesetiaan objek dan tidak melibatkan konsistensi karakter. Dalam kasus ini, model Flash dapat menerima hingga 10 gambar objek. Anda dapat dengan cepat menguji efek konfigurasi yang berbeda melalui APIYI apiyi.com.
Q3: Bagaimana jika efek konsistensi karakter tidak bagus?
Google secara resmi mengakui bahwa konsistensi karakter saat ini tidak 100% dapat diandalkan. Saran: (1) Gunakan gambar referensi beresolusi tinggi dari depan; (2) Jelaskan karakteristik karakter secara detail dalam petunjuk; (3) Saring secara manual setelah menghasilkan beberapa gambar kandidat; (4) Coba uji model Flash dan Pro secara bersamaan di APIYI apiyi.com untuk membandingkan efek konsistensi.
Q4: Bagaimana cara membedakan antara gambar kesetiaan objek dan gambar konsistensi karakter?
Perbedaan utamanya terletak pada semantik: gambar kesetiaan objek adalah "item" (sepatu, tas, jam tangan, dll.) yang ingin Anda reproduksi secara akurat dalam hasil yang dihasilkan, sedangkan gambar konsistensi karakter adalah "orang/karakter" yang ingin Anda pertahankan penampilannya tetap konsisten di berbagai skenario. Dalam pemanggilan API, keduanya adalah input gambar biasa, dan model memahami peran setiap gambar melalui deskripsi dalam petunjuk. Disarankan untuk dengan jelas menandai hubungan referensi seperti "sepatu ini", "karakter ini" dalam petunjuk.
Ringkasan
Poin-poin utama fitur 14 gambar referensi Gemini:
- Kuota dibagi dua kategori: Batas 14 gambar terdiri dari gambar fidelitas objek dan gambar konsistensi karakter, masing-masing dengan batas independen.
- Dua model memiliki perbedaan: Flash lebih condong ke fidelitas objek (10 gambar), sedangkan Pro lebih condong ke konsistensi karakter (5 gambar).
- Skenario menentukan pilihan: Pilih Flash untuk presentasi produk, Pro untuk cerita karakter, dan alokasikan sesuai kebutuhan untuk skenario campuran.
- Konsistensi karakter perlu diverifikasi: Tidak 100% sempurna, disarankan untuk menguji dalam jumlah kecil terlebih dahulu sebelum menghasilkan secara massal.
Memahami logika alokasi kuota adalah kunci untuk menggunakan fitur multi-gambar referensi Gemini secara efisien. Disarankan untuk menguji efek sebenarnya dari kedua model, Flash dan Pro, dengan cepat melalui APIYI apiyi.com. Platform ini menyediakan kuota gratis dan antarmuka terpadu, memudahkan perbandingan dan pemilihan solusi terbaik untuk skenario Anda.
Referensi
-
Dokumentasi Pembuatan Gambar Google Gemini: Penjelasan resmi fitur multi-gambar referensi
- Tautan:
ai.google.dev/gemini-api/docs/image-generation - Deskripsi: Berisi spesifikasi API terperinci dan contoh kode untuk 14 gambar referensi.
- Tautan:
-
Kartu Model Pratinjau Gambar Gemini 3.1 Flash: Penjelasan kemampuan dan batasan model
- Tautan:
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - Deskripsi: Spesifikasi teknis dan parameter kinerja model gambar Flash.
- Tautan:
-
Panduan Pengembang Gemini 3: Dokumentasi pengembangan lengkap untuk seri model Gemini 3
- Tautan:
ai.google.dev/gemini-api/docs/gemini-3 - Deskripsi: Mencakup panduan pengembangan untuk kemampuan multimodal teks, gambar, dan video.
- Tautan:
Penulis: Tim Teknis APIYI
Diskusi Teknis: Silakan berdiskusi tentang tips penggunaan fitur multi-gambar referensi Gemini di kolom komentar. Untuk informasi lebih lanjut, kunjungi pusat dokumentasi APIYI docs.apiyi.com.
