Gemini 3.5 Flash API hadir di APIYI: Uji coba gratis + kecepatan 4x lipat, interpretasi lengkap 8 data evaluasi utama

Pada tanggal 19 Mei 2026, Google secara resmi meluncurkan Gemini 3.5 Flash di ajang I/O 2026. Ini adalah model pertama dari seri Gemini 3.5 yang dirilis ke publik. ID API yang digunakan adalah gemini-3.5-flash tanpa akhiran preview, yang berarti model ini sudah berstatus GA (General Availability atau siap digunakan secara resmi). Di hari yang sama, platform APIYI (apiyi.com) telah menyelesaikan integrasi, sehingga pengembang dapat langsung memanggil Gemini 3.5 Flash ke dalam produk mereka melalui antarmuka yang kompatibel dengan OpenAI. Pengguna baru akan mendapatkan saldo gratis sebesar 0,05 USD saat mendaftar, yang bisa digunakan untuk mencoba integrasi tanpa biaya.

Hal yang paling mengejutkan pengembang global dari Gemini 3.5 Flash adalah fenomena "Flash melampaui Pro": dalam berbagai tolok ukur Agent dan pengkodean seperti Terminal-Bench 2.1, MCP Atlas, Finance Agent v2, dan GDPval-AA, skornya tercatat lebih tinggi daripada Gemini 3.1 Pro (generasi unggulan sebelumnya). Sementara itu, kecepatan outputnya diklaim resmi sekitar 4 kali lebih cepat dari model terdepan di kelasnya. Bagi tim yang menjalankan Agent pengkodean, alur kerja pemanggilan alat, atau pemrosesan dokumen panjang, ini adalah peningkatan model yang paling layak dievaluasi segera di bulan Mei ini. Kami menyarankan Anda untuk mencoba tugas nyata Anda menggunakan saldo gratis dari APIYI (apiyi.com) sebelum memutuskan untuk mengganti model Flash standar di lini produksi Anda ke versi 3.5.

Apa itu Gemini 3.5 Flash: Posisi Inti Versi Resmi Google

Gemini 3.5 Flash adalah versi unggulan ringan yang pertama kali dirilis oleh Google DeepMind dalam keluarga Gemini 3.5, dengan posisi sebagai "Agentic Flash": tetap mempertahankan karakteristik latensi rendah dan throughput tinggi khas seri Flash, namun kini dilengkapi dengan kemampuan orkestrasi alat dan penalaran multi-langkah yang sebelumnya hanya ada pada model Pro generasi sebelumnya. Dalam peluncurannya, Google menekankan bahwa 3.5 Flash adalah model orkestrasi Agent terkuat mereka saat ini, yang disebarkan secara serentak ke aplikasi Gemini, mode AI di Google Search, Google Antigravity, Google AI Studio, dan Google Cloud untuk perusahaan.

Ada empat poin informasi resmi yang sangat krusial dari peluncuran ini. Pertama, ID model tidak memiliki akhiran preview, dengan nomor versi internal 3.5-flash-05-2026, yang berarti model ini langsung tersedia dalam bentuk GA dan tidak melalui jalur pengujian model pratinjau. Kedua, Dynamic Thinking (pemikiran dinamis) diaktifkan secara default; model akan secara otomatis menentukan apakah masalah saat ini memerlukan rantai pemikiran, sehingga pengembang tidak perlu lagi mengatur thinking budget secara manual. Ketiga, kemampuan alat tersedia secara lengkap, mulai dari function calling, output terstruktur, Search-as-a-Tool, hingga eksekusi kode, yang sangat cocok untuk integrasi Agent kompleks. Keempat, batas pengetahuan diperbarui hingga Januari 2026, menjadikannya salah satu basis pengetahuan terbaru di antara model tertutup arus utama saat ini.

Tabel berikut merangkum spesifikasi inti Gemini 3.5 Flash, dengan data yang bersumber dari dokumentasi resmi Google AI for Developers serta data pengujian independen dari LLM-Stats dan Artificial Analysis.

Parameter	Nilai Gemini 3.5 Flash	Catatan
Tanggal Rilis	19 Mei 2026	Pidato Utama Google I/O 2026
ID Model	`gemini-3.5-flash`	Versi resmi, tanpa akhiran preview
Versi Internal	`3.5-flash-05-2026`	Sesuai dengan Google AI Studio
Posisi Utama	Agentic Flash · Orkestrasi Alat + Pengkodean	Flash melampaui 3.1 Pro dalam banyak tes Agent
Jendela Konteks	1.048.576 token input / 65.536 token output	Yaitu 1M / 64K
Modalitas Input	Teks + Gambar + Audio + Video	Output hanya teks
Pemikiran Dinamis	Aktif secara default	Tidak perlu konfigurasi manual
Kemampuan Alat	function calling / output terstruktur / Search-as-a-Tool / Eksekusi Kode	Stack alat Agent lengkap
Batas Pengetahuan	Januari 2026	Satu era dengan GPT-5.5, Claude Opus 4.7
Akses API	Kompatibel dengan OpenAI / Antarmuka asli Gemini	APIYI (apiyi.com) mendukung kedua cara pemanggilan

🎯 Saran Integrasi: Perubahan terbesar pada Gemini 3.5 Flash adalah menjadikan "model ringan + pemanggilan alat" sebagai kemampuan bawaan. Oleh karena itu, cara integrasi yang paling hemat biaya bukanlah penggantian satu titik, melainkan menempatkannya pada "lapisan penjadwalan alat" dalam alur kerja Agent Anda. Kami menyarankan Anda untuk mendapatkan saldo gratis 0,05 USD melalui antarmuka terpadu platform APIYI (apiyi.com), jalankan pengujian regresi pada alur kerja GPT-5.5 Instant / Claude Haiku 4.5 / Gemini 3.1 Flash Anda yang ada saat ini dengan beralih ke gemini-3.5-flash, sebelum memutuskan untuk menerapkannya ke tahap produksi.

Sekilas Harga dan Spesifikasi Jendela Konteks Gemini 3.5 Flash

Penetapan harga Gemini 3.5 Flash menjadi poin perdebatan utama dalam peluncuran kali ini. Google menaikkan harga seri Flash dari $0,50 / $4 pada 3 Flash Preview menjadi $1,50 / $9 pada 3.5 Flash, mendekati kisaran harga Gemini 3.1 Pro yang berada di angka $2 / $12. Simon Willison dalam komunitas bahasa Inggris berpendapat bahwa ini adalah cara Google untuk "menguji toleransi harga pelanggan API". Hal ini juga menyiratkan bahwa tujuan 3.5 Flash bukanlah untuk menjadi lebih murah, melainkan memberikan kecerdasan setingkat model Pro dengan biaya model Flash.

Tabel di bawah ini membandingkan harga resmi Gemini 3.5 Flash dengan model arus utama di kelasnya untuk membantu Anda menentukan apakah model ini efisien untuk beban kerja Anda. Semua harga dihitung dalam USD per 1 juta token.

Model	Harga Input	Harga Output	Input Cache Hit	Jendela Konteks
Gemini 3.5 Flash	$1,50	$9,00	$0,15	1M / 64K Output
Gemini 3.1 Pro	$2,00	$12,00	$0,20	1M / 64K Output
Gemini 3.1 Flash-Lite	$0,25	$1,50	$0,025	1M / 64K Output
GPT-5.5 (Model Utama)	$5,00	$30,00	$0,50	400K Input
Claude Opus 4.7 (1M)	$15,00	$75,00	$1,50	1M Input

Perhatikan tiga poin perbandingan utama. Pertama, dibandingkan dengan Gemini 3.1 Pro dari vendor yang sama, Gemini 3.5 Flash 25% lebih murah, namun justru lebih kuat dalam pengujian coding dan Agent. Oleh karena itu, bagi pengguna Pro, ini adalah kesempatan "peningkatan performa dengan penurunan biaya" yang jelas. Kedua, dibandingkan dengan GPT-5.5, harga per token Gemini 3.5 Flash kurang dari sepertiganya, dengan skor hanya selisih 5 poin pada Artificial Analysis Intelligence Index, sehingga cocok sebagai model utama untuk percakapan dan Agent yang sensitif terhadap biaya. Ketiga, dibandingkan dengan Claude Opus 4.7, kecerdasan komprehensif Gemini 3.5 Flash hanya terpaut 2 poin, namun total biaya per juta token kurang dari sepersepuluhnya, yang dapat menghemat anggaran secara signifikan dalam skenario konteks yang sangat panjang.

💡 Saran Optimasi Harga: Gemini 3.5 Flash menawarkan harga input cache hit sebesar $0,15 / 1M, yang sangat cocok untuk skenario system prompt panjang dan RAG dokumen panjang. Kami menyarankan untuk mengaktifkan prompt caching di platform APIYI (apiyi.com) untuk menggunakan kembali instruksi tetap, potongan basis pengetahuan, dan riwayat percakapan panjang, yang dapat menekan biaya input 1M token hingga setingkat dengan 3.1 Flash-Lite.

Tolok Ukur Utama Gemini 3.5 Flash: Perbandingan Langsung dengan Gemini 3.1 Pro

Data yang paling tidak terduga dari peluncuran Gemini 3.5 Flash adalah fenomena "Flash melampaui Pro". Model card resmi Google dan pengujian independen LLM-Stats mengonfirmasi hal ini: dalam tugas-tugas seperti Agent, orkestrasi alat, coding, dan analisis keuangan, skor 3.5 Flash sebenarnya lebih tinggi daripada Gemini 3.1 Pro; hanya pada penalaran akademis murni (Humanity's Last Exam) dan penalaran abstrak (ARC-AGI-2) model ini sedikit di bawah 3.1 Pro.

Tabel berikut merangkum perbandingan tolok ukur utama antara Gemini 3.5 Flash dan Gemini 3.1 Pro, dengan data yang diambil dari pengumuman resmi Google dan evaluasi publik pihak ketiga.

Tolok Ukur	Gemini 3.5 Flash	Gemini 3.1 Pro	Selisih	Kemampuan yang Diuji
Terminal-Bench 2.1	76,2%	70,3%	+5,9	Agent Coding Terminal
MCP Atlas	83,6%	78,2%	+5,4	Pemanggilan Alat MCP
Finance Agent v2	57,9%	43,0%	+14,9	Agent Dokumen Keuangan
GDPval-AA (Elo)	1656	1314	+342	Komprehensif Agent Umum
CharXiv Reasoning	84,2%	—	—	Penalaran Grafik
Humanity's Last Exam	40,2%	44,4%	-4,2	Penalaran Akademis Murni
ARC-AGI-2	72,1%	77,1%	-5,0	Penalaran Pola Abstrak
Kecepatan Output	~284 token/detik	Lebih lambat	—	Respons Real-time

Data ini menyampaikan tiga sinyal yang jelas. Pertama, keunggulan Gemini 3.5 Flash terkonsentrasi pada tugas pemanggilan alat dan Agent; selisih +14,9 pada Finance Agent v2 dan +342 Elo pada GDPval-AA adalah rentang yang sangat signifikan. Kedua, pengetahuan statis murni dan penalaran abstrak tetap menjadi keunggulan model Pro. Jika beban kerja Anda condong ke arah kompetisi matematika, penalaran akademis, atau soal logika berantai panjang, Gemini 3.5 Flash belum tentu menjadi solusi terbaik. Ketiga, Google sebenarnya menggunakan model Flash untuk melakukan "pembagian tugas ulang dalam silsilah model". Menurut kabar dari luar negeri, Gemini 3.5 Pro akan dirilis bulan depan dan akan semakin memperlebar batas atas kelas Pro.

Perlu ditekankan secara khusus mengenai Artificial Analysis Intelligence Index (Indeks Kecerdasan Komprehensif). Gemini 3.5 Flash memperoleh skor 55 pada indeks sintetis lintas tolok ukur ini, hanya terpaut 2 poin dari Claude Opus 4.7 dan 5 poin dari GPT-5.5. Mengingat harga input 3.5 Flash hanya sepersepuluh dari Claude Opus 4.7 dan kurang dari sepertiga GPT-5.5, ini adalah salah satu model "mendekati lapis pertama" dengan rasio harga-performa terbaik saat ini. Kami menyarankan untuk menggunakannya sebagai model Agent default di platform APIYI (apiyi.com) untuk mengurangi beban operasional dalam membagi lalu lintas antar vendor.

Analisis Dampak Gemini 3.5 Flash: Apa Artinya bagi Pengembang

Dampak dari peluncuran ini bukan sekadar menambah pilihan model baru, melainkan langkah Google dalam menghadirkan entitas komprehensif yang mampu menandingi GPT-5.5 dan Claude Opus 4.7 melalui jalur "Flash + Agent". Hal ini akan membentuk ulang beberapa alur kerja utama dalam 1-2 kuartal ke depan.

Dampak Langsung bagi Pengembang Agen

Tim pengembang agen adalah pihak yang paling diuntungkan oleh Gemini 3.5 Flash. Berdasarkan tolok ukur, peningkatan pada Terminal-Bench 2.1 dan MCP Atlas berarti hambatan tradisional seperti "pemanggilan alat multi-langkah + pemulihan kesalahan" telah membaik; peningkatan +14.9 pada Finance Agent v2 menunjukkan kemajuan signifikan dalam pemrosesan dokumen terstruktur. Perusahaan global seperti Shopify, Macquarie Bank, Salesforce, Ramp, Xero, dan Databricks telah terdaftar sebagai mitra awal Google, dengan cakupan skenario meliputi analisis data, dokumen keuangan, otomatisasi perusahaan, OCR faktur, alur kerja pajak, dan pemantauan dataset. Jika produk Anda memiliki alur kerja "membaca dokumen → memanggil alat → menghasilkan hasil terstruktur", Gemini 3.5 Flash hampir pasti menjadi kandidat yang harus segera dievaluasi.

Dampak pada Aplikasi RAG Konteks Panjang

Gemini 3.5 Flash tetap mempertahankan jendela 1 juta input + 64 ribu output, ditambah harga input cache hit sebesar $0,15 / 1 juta token, yang secara efektif membawa biaya "RAG konteks panjang jutaan token" ke tingkat yang terjangkau bagi SaaS kelas konsumen. Sebagai referensi umum: awalan basis pengetahuan tetap sebesar 500 ribu token + pertanyaan pengguna sebesar 50 ribu token, setelah cache hit, biaya input inferensi tunggal kurang dari 0,1 USD, jauh lebih murah dibandingkan membagi konteks yang sama ke GPT-5.5 atau Claude Opus 4.7. Disarankan untuk menyatukan alur RAG konteks panjang Anda di APIYI apiyi.com ke gemini-3.5-flash, di mana strategi cache dapat langsung menggunakan implementasi antarmuka Gemini yang sudah ada.

Dampak pada Strategi Perutean Multi-Model

Setelah Gemini 3.5 Flash diluncurkan, strategi perutean multi-model utama perlu dirancang ulang. Pembagian tugas yang umum di masa lalu seperti "GPT untuk percakapan, Claude untuk kode, Gemini untuk multimodal" kini tidak lagi relevan, karena Gemini 3.5 Flash memiliki daya saing dalam hal agen pengodean, pemanggilan alat, dan input multimodal sekaligus. Kami menyarankan untuk menjadikan gemini-3.5-flash sebagai "model lapisan alat umum" yang baru, sambil tetap mempertahankan GPT-5.5 Instant, Claude Opus 4.7, dan Gemini 3.1 Pro sebagai pelengkap untuk tugas-tugas spesifik. Melalui antarmuka terpadu APIYI apiyi.com, Anda dapat melakukan peralihan perutean model tanpa biaya tambahan.

Cara Akses dan Uji Coba Gratis Gemini 3.5 Flash di APIYI

Akses Gemini 3.5 Flash di platform APIYI apiyi.com sepenuhnya kompatibel dengan OpenAI, sehingga pengembang tidak perlu membangun kembali logika autentikasi atau perutean. Pengguna baru akan langsung mendapatkan kredit uji coba sebesar 0,05 USD, yang dapat digunakan untuk menjalankan contoh resmi dan menyelesaikan pengujian regresi alur kerja agen secara lengkap.

Contoh Pemanggilan Sederhana

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Anda adalah insinyur orkestrasi agen."},
        {"role": "user", "content": "Tolong rencanakan rantai alat untuk menarik issue dari GitHub dan membuat laporan mingguan."},
    ],
)
print(response.choices[0].message.content)

Lihat pemanggilan lengkap dengan function calling

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "fetch_github_issues",
            "description": "Menarik daftar issue dari repositori yang ditentukan",
            "parameters": {
                "type": "object",
                "properties": {
                    "repo": {"type": "string", "description": "pemilik/repositori"},
                    "state": {"type": "string", "enum": ["open", "closed", "all"]},
                },
                "required": ["repo"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "Bantu saya melihat issue baru yang dibuka minggu ini di repositori anthropics/anthropic-cookbook"},
    ],
    tools=tools,
    tool_choice="auto",
)
print(response.choices[0].message)

💡 Saran Uji Coba: Kredit 0,05 USD dengan harga Gemini 3.5 Flash sebesar $1,50 / $9, cukup untuk menjalankan sekitar 30-40 ribu token input atau 5000 token output, yang sudah cukup untuk menjalankan kembali petunjuk (prompt) Anda yang ada di APIYI apiyi.com secara lengkap. Kami menyarankan untuk memprioritaskan penggunaan kredit gratis untuk menjalankan serangkaian tugas nyata, bukan hanya menguji contoh resmi, agar Anda dapat menilai dengan lebih akurat apakah model ini benar-benar "Flash melampaui Pro" dalam bisnis Anda.

Tiga Langkah Selesai Terhubung

Daftar akun di APIYI apiyi.com, setelah verifikasi pengguna baru selesai, Anda bisa langsung mengklaim kredit gratis 0,05 USD.
Buat Kunci API di konsol, ubah base_url pada SDK OpenAI menjadi https://api.apiyi.com/v1, dan isi kolom model dengan gemini-3.5-flash.
Gunakan kembali petunjuk (prompt) nyata dari GPT-5.5 Instant atau Gemini 3.1 Pro Preview yang sudah ada, lalu bandingkan kualitas respons, latensi, dan konsumsi token secara item per item.

FAQ Gemini 3.5 Flash

Q1: Antara Gemini 3.5 Flash dan Gemini 3.1 Pro Preview, mana yang lebih unggul?

Tergantung pada skenario penggunaannya. Dalam tugas-tugas Agent dan pengodean seperti Terminal-Bench 2.1, MCP Atlas, Finance Agent v2, dan GDPval-AA, hasil pengujian menunjukkan Gemini 3.5 Flash lebih unggul daripada Gemini 3.1 Pro. Namun, untuk Humanity's Last Exam (penalaran akademis murni) dan ARC-AGI-2 (penalaran abstrak), performanya sedikit di bawah 3.1 Pro. Kesimpulannya: tim yang berfokus pada Agent, pemanggilan alat (tool calling), kode, dan RAG dokumen panjang sebaiknya memprioritaskan Gemini 3.5 Flash; sementara tim yang berfokus pada penalaran statis atau evaluasi akademis masih bisa menggunakan 3.1 Pro. Anda bisa langsung melakukan perbandingan regresi menggunakan kredit gratis di APIYI apiyi.com.

Q2: Mengapa Gemini 3.5 Flash tidak lagi menyertakan akhiran “preview”?

Ini adalah hasil dari penyesuaian strategi perilisan model Google untuk seri 3.5. Gemini 3.5 Flash langsung dirilis dalam bentuk GA (General Availability), dengan ID model gemini-3.5-flash dan versi internal 3.5-flash-05-2026. Ini berarti model tersebut telah melalui penilaian keamanan yang lengkap dan memiliki SLA tingkat produksi. Hal ini berbeda dengan jalur perilisan bertahap pada Gemini 3.1 Pro Preview sebelumnya, sehingga pengembang dapat dengan tenang mengintegrasikannya ke dalam kode produksi tanpa khawatir versi preview akan diubah atau dihentikan sewaktu-waktu.

Q3: Berapa banyak permintaan Gemini 3.5 Flash yang bisa dijalankan dengan kredit uji coba $0,05?

Dengan harga $1,50 per 1 juta token input dan $9 per 1 juta token output, kredit $0,05 dapat mencakup sekitar 30.000 token input dan 1.500 token output. Ini setara dengan 30-50 panggilan percakapan dengan panjang menengah, cukup untuk menjalankan petunjuk Anda saat ini pada tugas nyata di APIYI apiyi.com. Jika Anda mengaktifkan prompt caching, bagian yang terkena cache akan dikenakan biaya $0,15 per 1 juta token, sehingga kredit gratis Anda bisa bertahan lebih lama.

Q4: Apakah Gemini 3.5 Flash mendukung input video dan audio?

Ya, mendukung. Modalitas input Gemini 3.5 Flash mencakup teks, gambar, audio, dan video, dengan output berupa teks. Perlu diingat bahwa video dan audio akan dihitung ke dalam biaya input berdasarkan cara tokenisasinya. Antarmuka APIYI apiyi.com telah mengekspos parameter modalitas ini secara lengkap, sehingga Anda dapat langsung menggunakan kembali kode pemanggilan multimodal Gemini 3.x yang sudah ada.

Kesimpulan: Gemini 3.5 Flash adalah peningkatan model yang paling layak dievaluasi di bulan Mei

Kembali ke fakta yang paling kontraintuitif di awal: Gemini 3.5 Flash melampaui Gemini 3.1 Pro generasi sebelumnya dalam tugas Agent dan pengodean, dengan harga hanya 75% dari versi Pro, batas pengetahuan yang diperbarui hingga Januari 2026, dan kecepatan output yang diklaim secara resmi 4 kali lebih cepat dibandingkan model terdepan di kelasnya. Bagi tim yang menjalankan Agent, pemanggilan alat, RAG dokumen panjang, dan alur kerja otomatisasi perusahaan, ini adalah peningkatan model Google yang paling layak untuk segera dievaluasi pada paruh pertama tahun 2026.

Gemini 3.5 Flash kini telah tersedia di platform APIYI (apiyi.com). Pengguna baru akan mendapatkan kredit gratis sebesar $0,05 setelah mendaftar, sehingga Anda bisa melakukan pengujian integrasi tanpa biaya. Kami menyarankan untuk memprioritaskan model ini pada lapisan penjadwalan alat dalam alur kerja Agent Anda. Dengan mengaksesnya melalui antarmuka yang kompatibel dengan OpenAI di APIYI apiyi.com, Anda tidak hanya mendapatkan akses langsung ke pembaruan model dari Google, tetapi juga dapat melakukan perutean secara fleksibel antara model seperti Claude Opus 4.7, GPT-5.5 Instant, dan Gemini 3.1 Pro.

Penulis: Tim Teknis APIYI · apiyi.com
Tanggal Rilis: 20 Mei 2026
Referensi: Google AI for Developers, LLM-Stats, Artificial Analysis, Simon Willison Blog, Interesting Engineering, 9to5Google

Gemini 3.5 Flash API hadir di APIYI: Uji coba gratis + kecepatan 4x lipat, interpretasi lengkap 8 data evaluasi utama

Apa itu Gemini 3.5 Flash: Posisi Inti Versi Resmi Google

Sekilas Harga dan Spesifikasi Jendela Konteks Gemini 3.5 Flash

Tolok Ukur Utama Gemini 3.5 Flash: Perbandingan Langsung dengan Gemini 3.1 Pro