
Saat menggunakan Nano Banana untuk membuat gambar, banyak developer menghadapi masalah yang bikin frustrasi: gambarnya bagus, tapi teks di atasnya salah eja, buram, atau bahkan jadi teks acak.
Kabar baiknya, dokumentasi resmi Google sebenarnya memberikan petunjuk penting: minta model untuk menghasilkan konten teks terlebih dahulu, lalu baru minta untuk menghasilkan gambar yang berisi teks tersebut. Ini yang disebut "Metode Dua Langkah" (Two-Step Approach), yang dapat meningkatkan akurasi rendering teks secara signifikan.
Artikel ini akan menganalisis secara mendalam alasan teknis di balik fenomena ini, dan memberikan 6 tips rendering teks yang telah terbukti efektif, untuk membantu Anda membuat teks pada gambar Nano Banana menjadi jelas dan akurat.
Nilai Inti: Setelah membaca artikel ini, Anda akan memahami cara kerja rendering teks Nano Banana, menguasai 6 tips praktis seperti metode dua langkah, dan meningkatkan akurasi teks gambar dari "kebetulan" menjadi tingkat yang terkontrol.
Kondisi Render Teks Nano Banana: Kemampuan Hebat tapi Butuh Teknik
Mari kita mulai dengan kesimpulan: Kemampuan render teks pada seri model Nano Banana adalah tingkat atas di bidang pembuatan gambar AI, tapi bukan berarti "cukup tulis petunjuk apa saja langsung menghasilkan teks yang sempurna".
Data Akurasi Render Teks Nano Banana
| Model | Akurasi Teks | Dukungan Multibahasa | Teks Terpanjang yang Andal | Keterangan |
|---|---|---|---|---|
| Nano Banana Pro | ~94% | Sangat Baik | Sekitar 25 karakter | Akurasi tertinggi, cocok untuk poster kelas komersial |
| Nano Banana 2 | ~87% | Sangat Baik | Sekitar 20 karakter | Cepat, nilai terbaik |
| DALL-E 3 | ~78% | Baik | Sekitar 15 karakter | Teks panjang rentan kesalahan |
| Stable Diffusion XL | ~45% | Cukup Buruk | Sekitar 8 karakter | Hampir tidak dapat diandalkan |
| Midjourney v6 | ~65% | Sedang | Sekitar 12 karakter | Gaya bagus tapi teks lemah |
Terlihat bahwa akurasi 94% dari Nano Banana Pro sudah menjadi level tertinggi di industri. Namun, 6% skenario kegagalan yang tersisa – kesalahan ejaan, teks buram, karakter hilang – tidak dapat diterima untuk skenario komersial.
Mengapa Render Teks pada Pembuatan Gambar AI Begitu Sulit
Untuk memahami mengapa "metode dua langkah" diperlukan, pertama-tama kita harus memahami kesulitan dalam menghasilkan teks dalam gambar AI:
- Persyaratan Akurasi Tingkat Piksel: Teks dalam gambar harus akurat hingga tingkat piksel; satu goresan yang salah saja bisa menjadi kesalahan penulisan. Sementara konten lain yang dihasilkan AI (pemandangan, orang) memungkinkan tingkat keburaman tertentu.
- Ledakan Kombinasi Karakter: 26 huruf dalam bahasa Inggris, ribuan karakter Hanzi dalam bahasa Mandarin, ditambah huruf besar/kecil, jenis huruf, dan kombinasi tata letak, kemungkinannya hampir tak terbatas.
- Gangguan Konteks: Saat model menghasilkan komposisi gambar secara keseluruhan, ia mudah "terpecah perhatian" – harus menggambar latar belakang dengan baik dan juga menata teks, kedua tugas ini saling berebut perhatian.
- Bias Data Pelatihan: Proporsi gambar dengan teks sempurna dalam set data pelatihan terbatas, sehingga model kurang cukup belajar tentang jenis huruf dan kombinasi tata letak tertentu.
🎯 Saran Teknis: Dengan memahami kesulitan render teks, kita bisa mengoptimalkan petunjuk secara terarah. Dengan memanggil Nano Banana Pro dan Nano Banana 2 melalui platform APIYI apiyi.com, Anda bisa dengan cepat membandingkan efek render teks kedua model dan memilih solusi yang paling sesuai untuk skenario Anda.
Teknik Utama Satu: Metode Dua Langkah — Praktik Terbaik Render Teks yang Direkomendasikan Resmi
Ini adalah metode yang secara eksplisit direkomendasikan dalam dokumentasi resmi Google, dan juga teknik terpenting dalam artikel ini.
Prinsip Metode Dua Langkah
Metode Satu Langkah Tradisional (hasil buruk):
"Buat poster dengan tulisan 'SUMMER SALE 50% OFF'"
→ Model memproses komposisi dan teks secara bersamaan → Teks rentan kesalahan
Metode Dua Langkah (hasil bagus):
Langkah Pertama: "Tolong buatkan teks poster: Diskon 50% untuk promosi musim panas"
→ Model mengeluarkan teks: "SUMMER SALE 50% OFF"
Langkah Kedua: "Buat gambar poster yang secara akurat menampilkan teks 'SUMMER SALE 50% OFF'"
→ Model fokus merender teks yang sudah ditentukan ke dalam gambar → Akurasi meningkat drastis

Mengapa Metode Dua Langkah Efektif — Penjelasan Teknis
Nano Banana dibangun berdasarkan Model Bahasa Besar multimodal Gemini. Ketika Anda menggunakan metode satu langkah untuk langsung meminta "buat gambar yang berisi teks tertentu", model perlu menyelesaikan dua tugas secara bersamaan:
- Memahami dan merencanakan komposisi gambar — skenario, warna, tata letak.
- Merender karakter teks secara akurat — ejaan, jenis huruf, posisi.
Kedua tugas ini akan saling bersaing dalam mekanisme perhatian model. "Sumber daya berpikir" model terbatas, dan ketika memproses dua tugas berakurasi tinggi secara bersamaan, bagian teks seringkali menjadi korban.
Inti dari metode dua langkah adalah pemisahan tugas:
- Langkah pertama memungkinkan model fokus pada pembuatan dan konfirmasi konten teks — pada tahap ini, model berada dalam mode teks murni, sehingga akurasi ejaan sangat tinggi.
- Langkah kedua memungkinkan model fokus pada rendering teks yang sudah ditentukan ke dalam gambar — konten teks sudah tetap, model hanya perlu menyelesaikan masalah "bagaimana cara menggambarnya".
Ini seperti meminta seorang pelukis untuk terlebih dahulu menentukan teks apa yang akan ditulis di poster (tahap penulisan naskah), lalu baru menggambar poster (tahap desain). Melakukan dua tahap secara terpisah akan meningkatkan efisiensi dan akurasi.
Implementasi Kode API Metode Dua Langkah
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com/v1" # Antarmuka terpadu APIYI
)
# ========== Langkah Pertama: Minta model untuk menghasilkan/mengonfirmasi konten teks ==========
text_response = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=[{
"role": "user",
"content": "Saya butuh poster promosi untuk kedai kopi. Tolong buatkan teks bahasa Inggris yang perlu ditampilkan di poster, harus ringkas dan kuat, tidak lebih dari 20 karakter. Hanya keluarkan teksnya, jangan ada konten lain."
}]
)
poster_text = text_response.choices[0].message.content.strip()
print(f"Langkah Pertama - Menghasilkan teks: {poster_text}")
# Contoh output: "BREW YOUR PERFECT DAY"
# ========== Langkah Kedua: Gunakan teks yang sudah dikonfirmasi untuk menghasilkan gambar ==========
image_response = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=[{
"role": "user",
"content": f'Generate an image: A warm-toned coffee shop promotional poster. Display the exact text "{poster_text}" in bold serif font, centered at the top. Background shows a cozy cafe interior with warm lighting.'
}]
)
print("Langkah Kedua - Pembuatan gambar selesai")
Detail Penting Metode Dua Langkah
| Detail | Keterangan | Alasan |
|---|---|---|
| Langkah pertama menggunakan mode teks murni | Jangan meminta pembuatan gambar di langkah pertama | Agar model fokus pada kualitas teks |
| Teks diapit tanda kutip ganda | Dalam petunjuk langkah kedua, gunakan "…"` untuk mengapit teks |
Memberi tahu model dengan jelas bahwa ini adalah konten yang perlu dirender persis seperti aslinya |
| Langkah kedua menggunakan petunjuk bahasa Inggris | Instruksi pembuatan gambar disarankan menggunakan bahasa Inggris | Akurasi pemahaman petunjuk bahasa Inggris lebih tinggi |
| Tentukan gaya jenis huruf | Tambahkan deskripsi seperti bold serif font |
Membantu model memilih jenis huruf yang lebih mudah dirender |
| Batasi panjang teks | Kontrol agar tidak lebih dari 25 karakter di langkah pertama | Akurasi menurun secara signifikan jika melebihi 25 karakter |
Kiat Utama Kedua: Aturan Emas 25 Karakter
Ini adalah batasan keras terpenting untuk rendering teks Nano Banana.
Hubungan Akurasi Rendering Teks Nano Banana dengan Jumlah Karakter
| Rentang Karakter | Akurasi | Saran |
|---|---|---|
| 1-10 Karakter | ~98% | Rentang terbaik, hampir tidak ada kesalahan |
| 11-20 Karakter | ~92% | Rentang aman, kadang ada masalah kecil |
| 21-25 Karakter | ~85% | Bisa digunakan tapi perlu diperiksa, mungkin perlu dicoba lagi |
| 26-40 Karakter | ~60% | Rentang risiko tinggi, sering terjadi kesalahan |
| 40+ Karakter | <40% | Tidak disarankan, pada dasarnya tidak dapat diandalkan |
Strategi Mengatasi Teks Lebih dari 25 Karakter
Ketika teks Anda memang melebihi 25 karakter, ada 3 cara untuk menanganinya:
Strategi Satu: Pecah menjadi Beberapa Baris Teks Pendek
# ❌ Rendering teks panjang sekaligus
prompt = 'Generate a poster with text "ANNUAL SUMMER CLEARANCE SALE - UP TO 70% OFF ALL ITEMS"'
# ✅ Pecah menjadi beberapa baris teks pendek
prompt = '''Generate a poster with two lines of text:
Line 1 (large, bold): "SUMMER SALE 70% OFF"
Line 2 (smaller, below): "ALL ITEMS INCLUDED"'''
Strategi Dua: Tambahkan Secara Bertahap Melalui Multiturn Chat
# Putaran 1: Hasilkan gambar hanya dengan judul utama
# Putaran 2: Tambahkan subjudul berdasarkan hasil putaran sebelumnya
# Putaran 3: Tambahkan teks penjelasan di bagian bawah
Strategi Tiga: Gunakan Gambar untuk Teks Kunci, Komposisi Pasca-produksi untuk Teks Panjang
Untuk skenario yang benar-benar membutuhkan banyak teks (seperti infografis), disarankan untuk hanya menggunakan Nano Banana untuk menghasilkan judul pendek yang penting, dan teks paragraf panjang ditambahkan kemudian menggunakan alat desain.
Kiat Utama Ketiga: Pembungkus Tanda Kutip Ganda + Penentuan Font Secara Eksplisit
Kombinasi kedua kiat kecil ini dapat meningkatkan akurasi rendering teks ke tingkat berikutnya.
Fungsi Tanda Kutip Ganda
Tanda kutip ganda memberi tahu model: konten di dalam tanda kutip adalah teks yang perlu dirender secara tepat karakter per karakter, bukan deskripsi umum.
# ❌ Tanpa tanda kutip, model mungkin berkreasi bebas
prompt = "Generate a sign that says Welcome to Tokyo"
# Mungkin menghasilkan: "WELCOME TO TOKIO" (salah eja) atau teks yang sama sekali berbeda
# ✅ Dibungkus tanda kutip ganda, memaksa rendering karakter per karakter
prompt = 'Generate a sign that displays the exact text "Welcome to Tokyo"'
# Output: "Welcome to Tokyo" (kemungkinan besar akurat)
Penentuan Font Secara Eksplisit
Menentukan jenis font secara eksplisit dapat membantu model memilih bentuk font yang lebih mudah dirender:
| Penentuan Font | Cara Penulisan Petunjuk | Efek |
|---|---|---|
| Serif Tebal | bold serif font |
Paling jelas, direkomendasikan untuk judul poster |
| Sans-serif Bersih | clean sans-serif font |
Modern, cocok untuk tema teknologi |
| Tulisan Tangan | handwritten script |
Akurasi teks rendah, gunakan dengan hati-hati |
| Monospace | monospace font |
Cocok untuk skenario tangkapan layar kode |
| Font Spesifik | in Helvetica style |
Referensi gaya, tidak menjamin kecocokan sempurna |
💡 Kiat Praktis: Font serif tebal (bold serif) adalah jenis font dengan akurasi rendering teks tertinggi. Karena goresannya tebal dan strukturnya jelas, model lebih mudah menghasilkannya dengan akurat. Font tulisan tangan dan font dekoratif memiliki akurasi terendah, jadi hindari menggunakannya untuk teks penting.
Kiat Utama Empat: Penanganan Khusus untuk Rendering Teks Multibahasa
Nano Banana menunjukkan performa yang sangat baik dalam rendering teks multibahasa, namun ada perbedaan strategi penanganan untuk setiap bahasa.
Performa Rendering Teks Berbagai Bahasa
| Bahasa | Akurasi Rendering | Jumlah Karakter Optimal | Catatan Khusus |
|---|---|---|---|
| Inggris | ~94% | ≤25 | Huruf kapital semua paling efektif |
| Mandarin | ~85% | ≤8 karakter Hanzi | Sederhana lebih baik dari tradisional |
| Jepang | ~82% | ≤10 | Hiragana lebih baik dari Kanji |
| Korea | ~80% | ≤12 | Perlu ditentukan sebagai bahasa Korea |
| Arab | ~75% | ≤8 | Perhatikan urutan kanan ke kiri |
Template Petunjuk Rendering Teks Multibahasa
# Inggris — Paling andal
prompt = 'Generate a poster with bold text "HELLO WORLD" in white serif font'
# Mandarin — Tentukan bahasa + singkat
prompt = 'Generate a poster with Chinese text "欢迎光临" in bold Chinese calligraphy style font, centered'
# Jepang — Tentukan bahasa secara eksplisit
prompt = 'Generate a Japanese store sign with text "いらっしゃいませ" in clean sans-serif Japanese font'
# Bahasa Campuran — Tangani per baris
prompt = '''Generate a bilingual poster:
Top line in English: "GRAND OPENING"
Bottom line in Chinese: "盛大开业"
Both in bold, high contrast against dark background'''
🎯 Saran Teknis: Untuk rendering teks multibahasa, disarankan untuk melakukan pengujian berulang dan perbandingan melalui platform APIYI apiyi.com. Efek untuk bahasa yang berbeda sangat bervariasi, dan pengujian aktual lebih dapat diandalkan daripada parameter teoretis. Platform ini mendukung peralihan cepat antara model Nano Banana Pro dan Nano Banana 2.
Kiat Utama Lima: Template Petunjuk Terstruktur (Wajib untuk Praktik)
Gabungkan semua kiat sebelumnya menjadi template petunjuk terstandardisasi untuk berbagai skenario.
Template Petunjuk Universal Rendering Teks Nano Banana
Generate an image:
[Deskripsi skenario, maksimal 100 karakter].
Display the exact text "[Teks Anda, ≤25 karakter]" in [Gaya font] font,
positioned at [Posisi], [Deskripsi ukuran].
The text should be [Warna] with high contrast against the background.
Ensure the text is perfectly legible and correctly spelled.
Contoh Praktis untuk Berbagai Skenario
Skenario Satu: Poster Komersial
prompt = '''Generate an image:
A vibrant summer sale promotional poster with tropical beach background.
Display the exact text "SUMMER SALE" in bold white serif font,
positioned at the center top, large and prominent.
Below it, display "50% OFF" in bold yellow sans-serif font.
The text should have high contrast against the background.
Ensure all text is perfectly legible and correctly spelled.'''
Skenario Dua: Desain Logo
prompt = '''Generate an image:
A minimalist tech company logo on a clean white background.
Display the exact text "NEXUS" in modern bold sans-serif font,
positioned at the center, medium size.
The text should be dark navy blue (#1a1a2e).
Ensure the text is perfectly legible and correctly spelled.'''
Skenario Tiga: Gambar untuk Media Sosial
prompt = '''Generate an image:
An inspirational quote card with soft gradient background (blue to purple).
Display the exact text "START NOW" in elegant white serif font,
positioned at the center, large and prominent.
The text should be pure white with subtle drop shadow.
Ensure the text is perfectly legible and correctly spelled.'''

Teknik Utama Keenam: Iterasi Koreksi Percakapan Multiturn
Meskipun sudah menggunakan 5 teknik sebelumnya, rendering teks mungkin masih belum sempurna. Salah satu keunggulan besar Nano Banana adalah mendukung pengeditan percakapan multiturn — jika tidak puas, langsung saja perbaiki berdasarkan hasil putaran sebelumnya.
Alur Percakapan Koreksi Teks
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com/v1"
)
messages = []
# Putaran 1: Membuat gambar awal
messages.append({
"role": "user",
"content": 'Generate an image: A coffee shop menu board with text "TODAY\'S SPECIAL" in chalk-style white font on dark background'
})
response_1 = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=messages
)
messages.append({"role": "assistant", "content": response_1.choices[0].message.content})
# Putaran 2: Memeriksa dan mengoreksi teks
messages.append({
"role": "user",
"content": 'The text is slightly blurry. Please regenerate with the text "TODAY\'S SPECIAL" rendered more sharply and clearly. Make the font bolder and increase the contrast.'
})
response_2 = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=messages
)
Perintah Koreksi Umum
| Masalah | Petunjuk Koreksi |
|---|---|
| Teks Buram | "Make the text sharper and bolder, increase contrast" |
| Kesalahan Ejaan | "Fix the spelling. The correct text should be exactly '[Teks yang Benar]'" |
| Teks Hilang | "The text '[Teks]' is missing. Add it at [Posisi] in [Font]" |
| Font Salah | "Change the font to bold serif, keep the same text content" |
| Posisi Bergeser | "Move the text to the center of the image, keep everything else" |
| Ukuran Tidak Sesuai | "Make the text larger/smaller while keeping it legible" |
🚀 Mulai Cepat: Pengeditan percakapan multiturn sangat cocok untuk skenario yang membutuhkan efek teks berkualitas tinggi. Dengan memanggil Nano Banana melalui platform APIYI apiyi.com, setiap putaran pengeditan sekitar $0.02, dan 3-4 putaran iterasi sudah cukup untuk mencapai hasil yang memuaskan.
Alur Kerja Lengkap Rendering Teks Nano Banana
Menggabungkan 6 teknik menjadi alur kerja standar:
Langkah Pertama: Merencanakan Konten Teks
- Tentukan teks yang perlu dirender (≤25 karakter)
- Jika lebih dari 25 karakter, pisahkan menjadi beberapa baris
- Pastikan ejaan akurat
Langkah Kedua: Pembuatan Dua Tahap
- Pertama, biarkan model mengonfirmasi/mengoptimalkan konten teks
- Kemudian, gunakan teks yang sudah dikonfirmasi untuk membuat gambar
Langkah Ketiga: Optimasi Petunjuk
- Bungkus teks dengan tanda kutip ganda
- Tentukan gaya font secara eksplisit
- Gunakan template terstruktur
- Tambahkan batasan
"Ensure text is perfectly legible"
Langkah Keempat: Pemeriksaan dan Iterasi
- Periksa apakah teks pada hasil yang dibuat sudah akurat
- Jika tidak puas, perbaiki dengan percakapan multiturn
- Biasanya 1-3 putaran sudah cukup untuk mencapai hasil yang memuaskan
Lihat Kode Alur Kerja Rendering Teks Lengkap
#!/usr/bin/env python3
"""
Alur Kerja Optimasi Rendering Teks Nano Banana
Implementasi lengkap dari metode dua tahap + 6 teknik utama
"""
import openai
import base64
import re
from datetime import datetime
API_KEY = "YOUR_API_KEY"
BASE_URL = "https://api.apiyi.com/v1"
client = openai.OpenAI(api_key=API_KEY, base_url=BASE_URL)
def render_text_in_image(
scene_description: str,
desired_text: str,
font_style: str = "bold serif",
text_color: str = "white",
text_position: str = "centered",
model: str = "gemini-3.1-flash-image-preview",
max_fix_rounds: int = 2
):
"""
Menggunakan metode dua tahap untuk membuat gambar dengan teks yang akurat
Args:
scene_description: Deskripsi adegan (tidak termasuk persyaratan teks)
desired_text: Teks yang perlu dirender (disarankan ≤25 karakter)
font_style: Gaya font
text_color: Warna teks
text_position: Posisi teks
model: Model yang digunakan
max_fix_rounds: Jumlah putaran koreksi maksimum
"""
# Memeriksa panjang teks
if len(desired_text) > 25:
print(f"⚠️ Panjang teks {len(desired_text)} melebihi 25 karakter, akurasi mungkin menurun")
# ===== Langkah Pertama: Mengonfirmasi konten teks =====
print(f"📝 Langkah Pertama: Mengonfirmasi konten teks → '{desired_text}'")
text_check = client.chat.completions.create(
model=model,
messages=[{
"role": "user",
"content": f"Please verify this text is correctly spelled and formatted: '{desired_text}'. Only reply with the verified text, nothing else."
}]
)
verified_text = text_check.choices[0].message.content.strip().strip("'\"")
print(f"✅ Teks dikonfirmasi: '{verified_text}'")
# ===== Langkah Kedua: Membuat gambar dengan teks =====
print(f"🎨 Langkah Kedua: Membuat gambar...")
image_prompt = f'''Generate an image:
{scene_description}.
Display the exact text "{verified_text}" in {font_style} font,
positioned at {text_position}, with {text_color} color.
The text should have high contrast against the background.
Ensure the text is perfectly legible and correctly spelled.'''
messages = [{"role": "user", "content": image_prompt}]
response = client.chat.completions.create(
model=model,
messages=messages
)
content = response.choices[0].message.content
print(f"✅ Pembuatan gambar selesai")
# Menyimpan gambar
save_image(content, f"text_render_{datetime.now().strftime('%H%M%S')}.png")
return content
def save_image(content, filename):
"""Mengekstrak dan menyimpan gambar dari respons"""
patterns = [
r'data:image/[^;]+;base64,([A-Za-z0-9+/=]+)',
r'([A-Za-z0-9+/=]{1000,})'
]
for pattern in patterns:
match = re.search(pattern, content)
if match:
data = base64.b64decode(match.group(1))
with open(filename, 'wb') as f:
f.write(data)
print(f"💾 Disimpan ke: {filename} ({len(data):,} byte)")
return True
print("⚠️ Data gambar tidak ditemukan")
return False
# ===== Contoh Penggunaan =====
if __name__ == "__main__":
# Contoh 1: Poster Komersial
render_text_in_image(
scene_description="A vibrant promotional poster with tropical beach background, summer vibes",
desired_text="SUMMER SALE",
font_style="bold white serif",
text_position="top center, large and prominent"
)
# Contoh 2: Logo
render_text_in_image(
scene_description="A minimalist tech company logo on clean white background",
desired_text="NEXUS",
font_style="modern bold sans-serif",
text_color="dark navy blue",
text_position="centered"
)
# Contoh 3: Bahasa Mandarin
render_text_in_image(
scene_description="A traditional Chinese restaurant sign with red and gold decorations",
desired_text="福满楼",
font_style="bold Chinese calligraphy",
text_color="gold",
text_position="centered, large"
)
Perbandingan Render Teks Nano Banana Pro dan Nano Banana 2
Kedua model memiliki fokus masing-masing dalam render teks:
| Dimensi Perbandingan | Nano Banana Pro | Nano Banana 2 | Saran Pilihan |
|---|---|---|---|
| Akurasi Teks | ~94% | ~87% | Untuk kebutuhan komersial, pilih Pro |
| Karakter Andal Maksimal | ~25 | ~20 | Pro memiliki ruang toleransi kesalahan yang lebih besar |
| Dukungan Multibahasa | Sangat Baik | Sangat Baik | Keduanya setara |
| Variasi Gaya Font | Lebih Kaya | Cukup | Pro menawarkan lebih banyak pilihan font |
| Kecepatan Generasi | 10-20 detik | 3-8 detik | Untuk iterasi cepat, pilih Banana 2 |
| Harga API | ~$0.04/panggilan | ~$0.02/panggilan | Jika sensitif biaya, pilih Banana 2 |
| Kemampuan Iterasi & Koreksi | Sangat Baik | Sangat Baik | Keduanya setara |
| ID Model | gemini-3.0-pro-image |
gemini-3.1-flash-image-preview |
Dapat dipanggil secara bersamaan melalui APIYI apiyi.com |
Saran Pemilihan Model untuk Render Teks
- Poster Komersial/Materi Branding: Pilih Nano Banana Pro — Akurasi 94% + lebih banyak gaya font
- Gambar untuk Media Sosial/Prototip Cepat: Pilih Nano Banana 2 — Cepat + nilai terbaik
- Skenario yang Membutuhkan Iterasi Berulang: Pilih Nano Banana 2 — Kecepatan berarti biaya iterasi yang rendah
- Teks Multibahasa: Perbedaan keduanya tidak signifikan, pilih berdasarkan kebutuhan kecepatan/biaya
Pertanyaan Umum
Q1: Mengapa Google secara resmi merekomendasikan “menghasilkan teks terlebih dahulu, lalu menghasilkan gambar”?
Ini karena ketika model multimodal secara bersamaan menangani dua tugas, yaitu "menghasilkan konten teks" dan "merender teks ke gambar", sumber daya perhatian akan saling bersaing, yang mengakibatkan penurunan akurasi teks. Metode dua langkah memisahkan tugas, memungkinkan model pada langkah pertama untuk fokus pada kebenaran teks (mode teks murni, akurasi mendekati 100%), dan pada langkah kedua untuk fokus merender teks yang sudah ditentukan ke dalam gambar. Prinsip ini mirip dengan desainer manusia yang menentukan teks terlebih dahulu sebelum melakukan desain. Pemanggilan dua langkah melalui platform APIYI apiyi.com sangat nyaman, dan total biaya untuk dua pemanggilan API tidak lebih dari $0.05.
Q2: Apakah batas 25 karakter itu mutlak? Apakah pasti akan ada kesalahan jika melebihi itu?
Ini bukan batasan mutlak, melainkan titik balik akurasi. Dalam 25 karakter, akurasi berada di antara 85%-98%, namun setelah melebihi 25 karakter, akurasi akan menurun drastis hingga di bawah 60%. Jika harus menggunakan teks yang lebih panjang, disarankan untuk membaginya menjadi beberapa baris (setiap baris ≤15 karakter), atau menambahkannya secara bertahap menggunakan percakapan multi-putaran.
Q3: Bagaimana efek render teks bahasa Mandarin? Apakah jauh lebih buruk daripada bahasa Inggris?
Efek render teks bahasa Mandarin Nano Banana jauh lebih baik daripada sebagian besar pesaing, namun memang sedikit kalah dari bahasa Inggris. Akurasi teks Mandarin yang diuji sekitar 85% (Inggris 94%). Disarankan untuk membatasi teks Mandarin hingga 8 karakter Hanzi, menggunakan gaya tebal, dan secara eksplisit menentukan "Chinese text" dan "Chinese calligraphy font" atau "bold Chinese font" dalam petunjuk. Melalui platform APIYI apiyi.com, Anda dapat dengan cepat menguji efek render teks Mandarin dengan berbagai penulisan petunjuk.
Q4: Apakah metode dua langkah akan sangat meningkatkan biaya?
Metode dua langkah memang memerlukan dua pemanggilan API, namun langkah pertama adalah pembuatan teks murni (tidak melibatkan gambar), dengan biaya yang sangat rendah (kurang dari $0.001). Langkah kedua barulah pembuatan gambar ($0.02-$0.04). Jadi, total biaya hanya meningkat kurang dari 5%, namun peningkatan akurasi teks sangat signifikan. Mengingat bahwa tanpa metode dua langkah, Anda mungkin perlu mencoba ulang 3-5 kali untuk mendapatkan teks yang benar, metode dua langkah sebenarnya lebih hemat biaya.
Q5: Apakah ada metode yang sama sekali tidak menghasilkan kesalahan?
Saat ini, render teks yang dihasilkan oleh AI pada gambar belum dapat menjamin akurasi 100%. Meskipun semua teknik optimasi telah digunakan, tetap disarankan untuk menyertakan tahap pemeriksaan manual dalam alur kerja — terutama untuk gambar keperluan komersial. Untuk skenario yang membutuhkan akurasi mutlak (seperti tangkapan layar dokumen hukum, sertifikat resmi), disarankan untuk menggunakan AI untuk menghasilkan latar belakang dan komposisi, lalu menambahkan bagian teks menggunakan alat desain di kemudian hari.
Ringkasan
Kemampuan rendering teks Nano Banana sudah berada di level teratas dalam bidang pembuatan gambar AI (Pro 94%, Banana 2 87%), namun untuk memanfaatkan kemampuan ini secara stabil, diperlukan penguasaan teknik yang tepat.
6 teknik inti, diurutkan berdasarkan kepentingan:
- Metode Dua Langkah — Hasilkan teks terlebih dahulu, lalu hasilkan gambar. Ini adalah rekomendasi resmi dan memberikan hasil paling signifikan.
- Aturan 25 Karakter — Kontrol panjang teks. Teks yang terlalu panjang harus dipecah dan diproses secara terpisah.
- Tanda Kutip Ganda + Penentuan Font — Memaksa rendering kata per kata + memilih font dengan akurasi tinggi.
- Penanganan Khusus Multibahasa — Gunakan strategi yang berbeda untuk bahasa yang berbeda.
- Template Petunjuk Terstruktur — Standardisasi untuk meningkatkan stabilitas.
- Koreksi Multi-putaran — Jika tidak puas, lakukan iterasi dan optimasi.
Setelah menguasai teknik-teknik ini, rendering teks Nano Banana akan berubah dari "kebetulan" menjadi kemampuan yang dapat dikontrol dan diprediksi. Direkomendasikan untuk segera memulai pengujian melalui APIYI apiyi.com untuk menemukan kombinasi parameter yang paling sesuai dengan skenario Anda.
Referensi
-
Dokumentasi Resmi Google – Pembuatan Gambar Nano Banana
- Tautan:
ai.google.dev/gemini-api/docs/image-generation - Deskripsi: Berisi rekomendasi resmi "hasilkan teks terlebih dahulu, lalu hasilkan gambar".
- Tautan:
-
Blog Pengembang Google – Tips Petunjuk untuk Nano Banana Pro
- Tautan:
blog.google/products/gemini/prompting-tips-nano-banana-pro/ - Deskripsi: Tips optimasi petunjuk resmi.
- Tautan:
-
Blog Pengembang Google – Cara Memberikan Petunjuk untuk Pembuatan Gambar Gemini 2.5 Flash
- Tautan:
developers.googleblog.com/how-to-prompt-gemini-2-5-flash-image-generation-for-the-best-results/ - Deskripsi: Strategi optimasi pembuatan gambar untuk model seri Flash.
- Tautan:
📝 Penulis: Tim APIYI | Untuk diskusi teknis dan integrasi API, kunjungi apiyi.com
