Saat menggunakan Nano Banana Pro API untuk rendering rumah, gambar produk, atau skenario e-commerce, Anda mungkin pernah menemui situasi yang membingungkan: Anda telah mengunggah dua gambar referensi dan menuliskan petunjuk dengan jelas, namun hasil yang dikembalikan justru tampak seperti "duplikat" dari salah satu gambar referensi, tanpa melakukan pengeditan sesuai instruksi. Fenomena ini menjadi jauh lebih sering terjadi setelah peluncuran Gemini 3.1 Flash Image pada Februari 2026, dan diskusi terkait di Google AI Developers Forum juga mengonfirmasi bahwa model Pro menunjukkan "ketidakstabilan tinggi" dalam skenario multi-referensi.
Artikel ini akan membahas mekanisme pemanggilan API, menggabungkan studi kasus nyata tentang "rendering gambar kerangka arsitektur + hasil jadi", menjelaskan 5 kondisi pemicu utama mengapa Nano Banana Pro mengembalikan gambar asli, serta memberikan 8 solusi praktis yang bisa langsung diterapkan. Semua contoh pemanggilan dalam artikel ini didasarkan pada platform APIYI (apiyi.com), yang telah melakukan peningkatan stabilitas pada seri model Gemini 3 Pro Image, sehingga cocok untuk langsung menguji petunjuk perbaikan yang ada di dalam artikel.
Satu. Fenomena Khas Masalah Pengembalian Gambar Asli pada Nano Banana Pro
Mari kita lihat kasus nyata: Seorang pengguna sedang melakukan rendering desain rumah dan mengunggah dua gambar referensi—Gambar 1 adalah kerangka bangunan yang belum selesai (struktur beton utama, 4,9 MB), dan Gambar 2 adalah hasil jadi (dinding kaca, penghijauan, dan cahaya matahari terbenam sudah lengkap, 13,8 MB). Petunjuknya ditulis dalam bahasa Mandarin sederhana: "Render Gambar 1 dengan referensi Gambar 2. Warna: gunakan nada warna dingin yang elegan… Gaya: rendering realisme komersial yang khas…". Tujuannya adalah meminjam gaya dan material dari Gambar 2 untuk merender struktur kerangka Gambar 1 menjadi produk jadi. Hasilnya, model mengembalikan gambar yang hampir identik dengan Gambar 2, dan informasi struktur Gambar 1 hampir tidak muncul dalam output.
Ini bukan kasus tunggal. Di Google AI Developers Forum, pengembang melaporkan bahwa "downsampling model terhadap gambar referensi terlalu agresif sehingga detail tidak dapat dikenali", dan menunjukkan bahwa masalah ini semakin parah setelah perilisan Gemini 3.1 Flash Image. Dokumentasi pemecahan masalah dari platform pihak ketiga seperti Replicate, Atlas Cloud, dan AI Free API juga mencatat kasus serupa di mana "gambar referensi langsung keluar", hanya saja kondisi pemicunya sedikit berbeda.
1.1 Frekuensi Kejadian dan Cakupan Dampak
Tabel di bawah ini merangkum probabilitas pemicu relatif dari fenomena Nano Banana Pro tidak mengubah gambar dalam berbagai skenario penggunaan, dengan data yang dikumpulkan dari umpan balik komunitas dan sampel pemantauan platform.
| Skenario Penggunaan | Probabilitas Pemicu | Tingkat Dampak |
|---|---|---|
| Pengeditan satu gambar referensi | Rendah | Hanya pergeseran detail kecil |
| Penggunaan dua gambar (transfer gaya) | Menengah-Tinggi | Output mendekati salah satu gambar asli |
| Sintesis banyak gambar (3+ gambar) | Tinggi | Model cenderung ke gambar terakhir |
| Pemanggilan saat jam sibuk AS/Eropa | Meningkat signifikan | Kualitas detail keseluruhan menurun |
| Mengandung skenario sensitif (wajah/merek) | Kadang-kadang | Menolak edit atau langsung kembali ke awal |
🎯 Saran Diagnosis: Jika Anda menjalankan bisnis e-commerce, rumah, atau gambar produk yang melibatkan banyak gambar referensi dan frekuensi "pengembalian gambar asli" melebihi 10%, biasanya ini bukan disebabkan oleh satu alasan saja, melainkan akumulasi dari petunjuk, parameter, dan infrastruktur. Disarankan untuk menggunakan antarmuka terpadu dari platform APIYI (apiyi.com) untuk membandingkan perbedaan output antara Nano Banana Pro dan Nano Banana 2 dengan petunjuk yang sama, sehingga Anda dapat dengan cepat menentukan apakah masalahnya ada di lapisan model atau lapisan petunjuk.
2. 5 Alasan Teknis Mengapa Nano Banana Pro Mengembalikan Gambar Asli

2.1 Penyebab 1: Referensi petunjuk yang membingungkan membuat model secara default menyalin "Gambar 2"
Penyebab paling umum mengapa Nano Banana Pro mengembalikan gambar asli adalah karena frasa seperti "referensi gambar 2" dalam petunjuk disalahpahami oleh model sebagai "keluarkan salinan gambar 2". Panduan petunjuk resmi Google DeepMind secara jelas menyarankan: gunakan penamaan semantik saat memasukkan banyak gambar (seperti "kerangka kawat", "bangunan yang dirender"), alih-alih menggunakan penanda posisi murni seperti "gambar 2" atau "image 2".
Dalam bahasa Mandarin, "referensi gambar 2 untuk merender gambar 1" secara semantik dalam bahasa Inggris mendekati "render image 1 in the style of image 2", namun saat melakukan dekode, model akan memprioritaskan sinyal visual yang paling lengkap—yaitu gambar 2 yang sudah berupa hasil render jadi. Ketika bagian akhir petunjuk memberikan deskripsi mendetail tentang warna dan material gambar 2, model dengan mudah menganggap gambar 2 sebagai "output target", bukan sebagai "referensi gaya".
2.2 Penyebab 2: Kurangnya kata kerja edit menyebabkan model menempuh jalur "reproduksi"
Mekanisme inti Gemini 2.5 dan Gemini 3 Pro Image didasarkan pada transformasi gambar melalui pemahaman bahasa alami. Jika petunjuk tidak menyertakan kata kerja edit yang jelas (seperti transform, render, apply, replace, composite, dll.), model cenderung menempuh jalur "rekonstruksi" saat menerima input banyak gambar. Artinya, model akan membangun kembali gambar yang mirip berdasarkan gambar referensi dengan sinyal terkuat, alih-alih benar-benar melakukan "pengeditan".
Templat petunjuk resmi yang diberikan oleh DataCamp dan Google Developers Blog adalah Take the [element from image 1] and place it with/on the [element from image 2], atau Using the provided image of [subject], please [add/remove/modify] [element]. Kedua templat ini menggunakan kata kerja yang jelas untuk menentukan "objek mana yang akan diubah, dan mana yang menjadi referensi gaya". Ini adalah bagian yang paling sering hilang dalam petunjuk berbahasa Mandarin.
2.3 Penyebab 3: Konflik rasio aspek, gambar terakhir mendominasi output
Seri Nano Banana memiliki aturan resmi yang jarang disadari: saat input banyak gambar, model secara default menggunakan rasio aspek dari gambar referensi terakhir. Aturan ini dijelaskan dalam tutorial DataCamp dan Google Developers Blog, namun sering diabaikan dalam pengembangan praktis.
Kembali ke kasus pengguna, gambar 2 (hasil render bangunan jadi) adalah hasil render horizontal 16:9, sedangkan gambar 1 (kerangka kawat bangunan) mendekati 4:3 dan ukurannya lebih kecil. Saat model menggunakan rasio aspek gambar 2, secara geometris lebih mudah untuk menyebarkan komposisi gambar 2 di layar daripada membuat ulang berdasarkan gambar 1. Langkah ini sering kali tumpang tindih dengan Penyebab 1, yang menyebabkan hasil akhirnya adalah "gambar 2 langsung keluar".
2.4 Penyebab 4: Penurunan infrastruktur dan fallback diam-diam di jam sibuk
Sejak Februari 2026, Google menetapkan Nano Banana 2 sebagai pintu masuk default di aplikasi Gemini, sementara model Pro dipindahkan ke jalur "menu tiga titik → Regenerate". Pada periode yang sama, fenomena fallback diam-diam terjadi di sisi API selama jam sibuk—postingan di Google AI Developers Forum pada 18 Mei (sehari sebelum Google I/O) secara langsung menunjukkan bahwa "kualitas pembuatan gambar akan segera turun di sekitar waktu peluncuran besar".
Manifestasinya adalah: model tetap mengembalikan kode status 200, tetapi di tingkat dasar mungkin beralih ke sub-model yang lebih kecil atau melewatkan beberapa pemrosesan pasca-produksi, yang menyebabkan distorsi detail dan penurunan kepatuhan terhadap petunjuk. Dalam kondisi ini, meskipun petunjuk ditulis dengan sangat standar, probabilitas kegagalan pemanggilan model gambar ke gambar Nano Banana Pro akan meningkat secara signifikan, dan manifestasi kegagalannya sering kali berupa "mengembalikan gambar yang mirip dengan aslinya".
2.5 Penyebab 5: Gambar referensi yang terlalu besar memicu downsampling agresif
Postingan yang sama di Google AI Developers Forum juga menunjukkan: "Model melakukan downsampling (penurunan resolusi) pada gambar referensi secara terlalu agresif, sehingga tidak dapat mengenali atau mereproduksi detail". Ketika ukuran gambar referensi mendekati atau melebihi 13 MB, model mungkin melakukan penskalaan besar-besaran selama tahap pra-pemrosesan internal, sehingga informasi struktur kunci (seperti balok bangunan, label produk, ekspresi wajah) terkompresi hingga kabur.
Jika detail gambar 1 tidak dapat dikenali setelah downsampling, model secara alami akan mengandalkan gambar referensi lain yang lebih "jelas" saat melakukan sintesis, sehingga output akhirnya mendekati salinan gambar 2. Inilah sebabnya mengapa petunjuk yang sama memiliki tingkat kegagalan yang sangat berbeda pada gambar referensi dengan resolusi yang berbeda—banyak pengembang mengira itu adalah masalah petunjuk, padahal sebenarnya gambar referensi itu sendiri yang "tidak terlihat jelas" oleh model.
Tiga, 8 Solusi Perbaikan Praktis: Membuat Nano Banana Pro Benar-benar "Mengedit Sesuai Gambar"

Ide utama untuk memperbaiki masalah Nano Banana Pro yang mengembalikan gambar asli adalah: jangan berharap model bisa menebak niat Anda sendiri. Sebaliknya, jelaskan dengan gamblang "gambar mana yang menjadi dasar, mana yang menjadi referensi, dan transformasi apa yang diinginkan", serta gunakan parameter pemanggilan sebagai cadangan. Berikut adalah 8 poin perbaikan yang bisa langsung Anda terapkan, dibagi menjadi aspek petunjuk (prompt) dan parameter.
3.1 5 Poin Perbaikan pada Lapisan Petunjuk (Prompt)
| No | Poin Perbaikan | Penulisan Salah | Penulisan yang Disarankan |
|---|---|---|---|
| 1 | Tambahkan kata kerja edit | "Referensi gambar 2 render gambar 1" | "Transform image 1 using image 2 as reference" |
| 2 | Gunakan nama semantik, bukan nomor | "Gambar 1, Gambar 2" | "the wireframe / the finished rendering" |
| 3 | Perjelas pembagian peran | (Tanpa penjelasan) | "use the first as structure base, the second as style reference" |
| 4 | Deskripsikan target secara positif | "Jangan ubah menjadi gambar 2" | "preserve the original building outline from the first image" |
| 5 | Gabungkan dengan kebutuhan material spesifik | "Gunakan nada warna dingin" | "apply the cool-toned glass facade and warm interior glow from image 2 onto the structure from image 1" |
💡 Template petunjuk: Untuk tugas dua gambar seperti "struktur + gaya" pada render bangunan, disarankan untuk menggunakan struktur template berikut:
[Kata kerja aksi] + [referensi struktur dari gambar A] + [referensi gaya/material dari gambar B] + [batasan eksplisit]. Di platform APIYI (apiyi.com), Anda dapat membungkus template ini sebagai system prompt yang umum digunakan, melakukan pengujian A/B antara Nano Banana Pro dan Nano Banana 2, dengan biaya iterasi yang sangat rendah.
3.2 3 Poin Perbaikan pada Lapisan Parameter Pemanggilan
| No | Poin Perbaikan | Penjelasan |
|---|---|---|
| 6 | Kontrol urutan unggah | Letakkan "objek yang diedit" di urutan terakhir agar model menggunakan rasio aspeknya |
| 7 | Batasi ukuran gambar referensi | Kompres gambar tunggal menjadi 2-5 MB untuk menghindari downsampling yang agresif |
| 8 | Tentukan image_size secara eksplisit | Contohnya 1024×1024 atau 1536×1024 untuk mengurangi konflik rasio aspek |
Perlu ditambahkan bahwa pada beberapa versi Gemini 3 Pro Image, memang terdapat laporan bahwa "parameter imageSize diabaikan" (kasus Forum Pengembang Google AI 110458). Oleh karena itu, poin perbaikan 6 dan 8 biasanya perlu digunakan bersamaan untuk memastikan rasio aspek akhir sesuai dengan yang diharapkan. Jika Anda hanya mengatur image_size tanpa menyesuaikan urutan unggah, pada beberapa versi, rasio aspek mungkin tetap akan tertimpa oleh gambar terakhir.
IV. Contoh Lengkap Pemanggilan API Gambar ke Gambar Nano Banana Pro
4.1 Contoh Salah: Penulisan yang Memicu Nano Banana Pro Mengembalikan Gambar Asli
Cuplikan kode di bawah ini mereplikasi skenario kegagalan yang sering dialami pengguna: referensi prompt yang membingungkan, kurangnya kata kerja perintah penyuntingan, rasio aspek yang tidak terkontrol, dan gambar referensi yang belum dikompres.
import openai
client = openai.OpenAI(
api_key="your-apiyi-key",
base_url="https://api.apiyi.com/v1"
)
response = client.images.edit(
model="gemini-3-pro-image-preview",
image=[
open("wireframe.jpg", "rb"), # 4.9 MB
open("rendered.jpg", "rb"), # 13.8 MB, diunggah terakhir
],
prompt="参照图2渲染图1。色彩: 采用清冷的高级色调。",
size="auto",
n=1,
)
Dalam skenario banyak gambar, cara penulisan ini kemungkinan besar akan membuat model menganggap rendered.jpg sebagai sinyal utama, sehingga menghasilkan salinan yang mendekati gambar ke-2. Tiga risiko utamanya adalah: frasa "参照图2" (referensi gambar 2) disalahartikan sebagai target output, tidak adanya kata kerja transform, dan penggunaan size="auto" yang membuat rasio aspek didominasi oleh gambar dengan ukuran terbesar.
4.2 Contoh Perbaikan: Agar Nano Banana Pro Benar-benar Melakukan Penyuntingan Berbasis Gambar
import openai
client = openai.OpenAI(
api_key="your-apiyi-key",
base_url="https://api.apiyi.com/v1"
)
prompt = (
"Transform the unfinished concrete wireframe structure in the first image "
"into a fully rendered architectural visualization. "
"Use the second image STRICTLY as a STYLE and MATERIAL reference: "
"apply its cool-toned glass facade, warm interior glow, surrounding greenery "
"and dusk lighting onto the structure from the first image. "
"Preserve the building outline, floor count and balcony arrangement "
"exactly as shown in the first image. "
"Do NOT replace the geometry with the second image."
)
response = client.images.edit(
model="gemini-3-pro-image-preview",
image=[
open("rendered_compressed.jpg", "rb"), # Referensi gaya, dikompres ke ~3 MB
open("wireframe_compressed.jpg", "rb"), # Objek yang diedit diletakkan terakhir
],
prompt=prompt,
size="1536x1024",
n=1,
)
Terdapat empat perubahan kunci di sini: menggunakan bahasa Inggris untuk memperjelas pembagian peran "transform A using B as reference"; menyesuaikan urutan unggahan agar wireframe (objek yang diedit) menjadi "gambar terakhir" yang menentukan rasio aspek; menentukan size secara eksplisit untuk menghindari mode auto yang mewarisi resolusi tinggi dari gambar referensi; serta mengompres kedua gambar referensi di bawah 5 MB untuk menghindari downsampling yang agresif.
🚀 Saran Memulai Cepat: Bagi pengembang yang ingin memverifikasi hasil perbaikan, Anda dapat langsung memanggil Nano Banana Pro dan Nano Banana 2 dengan prompt yang sama di APIYI apiyi.com. Platform ini telah menyatukan antarmuka yang kompatibel dengan OpenAI, sehingga Anda tidak perlu menulis kode adaptasi untuk setiap model. Anda bisa mendapatkan hasil perbandingan A/B dalam 5 menit.
V. FAQ Umum Gambar ke Gambar Nano Banana Pro
Q1: Mengapa prompt yang sudah diperbaiki namun tetap ditulis dalam bahasa Mandarin malah mengembalikan gambar asli, tetapi normal saat menggunakan bahasa Inggris?
Seri Gemini memiliki analisis semantik yang lebih stabil dalam bahasa Inggris. Kata kerja dalam bahasa Mandarin dan referensi urutan ("参照图X") sering kali disalahartikan sebagai "instruksi output target" selama proses tokenisasi tingkat rendah. Disarankan untuk menulis instruksi penyuntingan utama (seperti transform / preserve / apply) dalam bahasa Inggris, sementara deskripsi skenario bisa dicampur. Dengan begitu, Anda tetap mempertahankan kehalusan ekspresi bahasa Mandarin sekaligus menghindari kesalahpahaman pada kata kerja.
Q2: Apakah masalah akan selesai jika semua gambar referensi dikompres di bawah 2 MB?
Mengompres gambar hanya dapat mengurangi penyebab kelima (distorsi downsampling), tetapi tidak menyelesaikan konflik antara prompt dan rasio aspek. Disarankan untuk melakukan tiga langkah sekaligus: kompresi + penulisan ulang prompt + kontrol urutan unggahan. Jika volume bisnis Anda besar, Anda dapat melakukan prapemrosesan terpadu sebelum pemanggilan, yaitu mengubah gambar referensi menjadi format JPG dan mengompresnya ke 2-5 MB sebelum dikirim ke model.
Q3: Mana yang lebih cocok untuk penyuntingan banyak gambar, Nano Banana Pro atau Nano Banana 2?
| Model | Stabilitas Multi-gambar | Retensi Detail | Skenario yang Cocok |
|---|---|---|---|
| Nano Banana Pro (Gemini 3 Pro Image) | Sedang (fluktuatif) | Tinggi | Penyuntingan satu gambar kualitas tinggi, gambar merek |
| Nano Banana 2 (Gemini 3.1 Flash Image) | Lebih Tinggi | Sedang (sedikit efek plastik) | Batch banyak gambar, gambar e-commerce |
Dalam praktiknya, jika kebutuhan detail sangat tinggi (seperti rendering bangunan atau gambar produk fidelitas tinggi), Anda bisa menggunakan Nano Banana 2 untuk mendapatkan output yang stabil, lalu gunakan Nano Banana Pro untuk penyempurnaan (finishing). Metode "draf + penyempurnaan" ini dapat menyeimbangkan stabilitas dan kualitas.
Q4: Jika muncul hasil "gambar asli langsung keluar", apakah mencoba lagi bisa menyelesaikannya?
Jika itu hanya penurunan performa infrastruktur pada jam sibuk, mencoba lagi 1-3 kali biasanya efektif. Namun, jika masalahnya ada pada level prompt atau parameter, mencoba 100 kali pun hasilnya akan sama. Cara menilainya mudah: jika parameter yang sama terus gagal di waktu yang berbeda, Anda bisa mengesampingkan masalah waktu dan perlu memeriksa kembali prompt. Sebaliknya, jika hasil normal setelah jam sibuk, berarti itu hanya penurunan performa sementara.
Q5: Apakah solusi perbaikan ini berlaku untuk model lain (Flux Kontext, Seedream)?
Bagian modifikasi prompt (penamaan semantik, kata kerja penyuntingan, pembagian peran, deskripsi positif) berlaku untuk semua model gambar ke gambar arus utama. Namun, aturan "gambar terakhir menentukan rasio aspek" adalah aturan khusus seri Nano Banana; Flux dan Seedream memiliki mekanisme bobot gambar referensi masing-masing. Jika bisnis Anda mencakup banyak model, antarmuka terpadu di platform APIYI apiyi.com memungkinkan Anda hanya perlu mengelola satu templat prompt dan menyesuaikannya dengan karakteristik parameter model yang berbeda.
Kesimpulan
Kembalinya gambar asli pada Nano Banana Pro pada dasarnya adalah hasil dari kombinasi "input multi-gambar + petunjuk yang ambigu + fluktuasi infrastruktur" dalam perilaku default model, bukan sekadar bug. Dengan memahami preferensi model terhadap "gambar terakhir", ketergantungan pada kata kerja pengeditan, serta strategi downsampling resolusi untuk gambar referensi, Anda dapat mengatasi 90% skenario kegagalan hanya dengan melakukan perbaikan pada 80% petunjuk Anda.
Bagi tim yang menangani bisnis multi-gambar seperti rendering rumah, gambar produk, atau penggunaan gambar referensi untuk e-commerce, kami menyarankan untuk mengintegrasikan 8 solusi perbaikan di atas ke dalam templat petunjuk dan standar pemanggilan, lalu menetapkannya berdasarkan jenis bisnis di lingkungan produksi. Dalam jangka panjang, langkah ini akan secara signifikan mengurangi biaya pengulangan proses dan tingkat pengerjaan ulang manual, sekaligus memastikan kemampuan output berkualitas tinggi dari Nano Banana Pro benar-benar dapat dimanfaatkan oleh bisnis Anda.
Artikel ini disusun oleh tim APIYI, yang berfokus pada implementasi praktis API Model Bahasa Besar. Untuk melihat contoh pemanggilan dan data stabilitas terbaru dari Nano Banana Pro, silakan kunjungi situs resmi APIYI di apiyi.com.
