Em 19 de maio de 2026, o Google lançou oficialmente o Gemini 3.5 Flash durante a conferência I/O 2026. Este é o primeiro modelo público da série Gemini 3.5, e seu ID de API utiliza diretamente gemini-3.5-flash, sem o sufixo "preview", o que significa que ele já está em estado GA (disponibilidade geral). No mesmo dia, a plataforma APIYI (apiyi.com) concluiu a integração, permitindo que desenvolvedores utilizem a interface compatível com OpenAI para invocar o Gemini 3.5 Flash diretamente em seus produtos. Novos usuários recebem um crédito gratuito de 0,05 USD no cadastro, permitindo realizar testes de integração sem custo.

O que mais impressionou os desenvolvedores foi o fenômeno "Flash superando o Pro": em vários benchmarks de agentes e codificação, como Terminal-Bench 2.1, MCP Atlas, Finance Agent v2 e GDPval-AA, o modelo obteve pontuações superiores ao carro-chefe da geração anterior, o Gemini 3.1 Pro, enquanto a velocidade de saída é cerca de 4 vezes maior que a de modelos de ponta da mesma categoria. Para equipes que executam agentes de codificação, fluxos de trabalho de invocação de ferramentas e processamento de documentos longos, esta é a atualização de modelo mais importante para avaliar em maio. Recomendamos usar o crédito gratuito da APIYI (apiyi.com) para testar suas tarefas reais antes de decidir migrar sua produção para a versão 3.5.
O que é o Gemini 3.5 Flash: O posicionamento central da versão oficial do Google
O Gemini 3.5 Flash é a versão leve de alto desempenho lançada pelo Google DeepMind na família Gemini 3.5, posicionada como "Agentic Flash": mantendo as características de baixa latência e alto throughput da série Flash, enquanto traz capacidades de orquestração de ferramentas e raciocínio em múltiplas etapas, antes exclusivas do modelo Pro, para a categoria Flash. O Google enfatizou no lançamento que o 3.5 Flash é seu modelo de orquestração de agentes mais forte atualmente, sendo implantado simultaneamente nos aplicativos Gemini, no modo IA da Pesquisa Google, no Google Antigravity, no Google AI Studio e na nuvem corporativa.
Este lançamento traz quatro pontos oficiais cruciais. Primeiro, o ID do modelo não possui sufixo "preview", com a versão interna 3.5-flash-05-2026, o que significa que ele é fornecido diretamente como GA. Segundo, o Dynamic Thinking (raciocínio dinâmico) está ativado por padrão; o modelo decide automaticamente se o problema requer uma cadeia de raciocínio, sem exigir que o desenvolvedor ajuste manualmente o orçamento de pensamento. Terceiro, as capacidades de ferramentas estão completas por padrão: function calling, saída estruturada, Search-as-a-Tool e execução de código estão todos disponíveis, ideais para agentes complexos. Quarto, o corte de conhecimento foi estendido para janeiro de 2026, sendo uma das bases de conhecimento mais recentes entre os principais modelos fechados.
A tabela abaixo resume as especificações principais do Gemini 3.5 Flash, com dados provenientes da documentação oficial do Google AI for Developers e testes da LLM-Stats e Artificial Analysis.
| Parâmetro | Valor do Gemini 3.5 Flash | Observação |
|---|---|---|
| Data de lançamento | 19 de maio de 2026 | Palestra principal do Google I/O 2026 |
| ID do modelo | gemini-3.5-flash |
Versão oficial, sem sufixo preview |
| Versão interna | 3.5-flash-05-2026 |
Consistente com o Google AI Studio |
| Posicionamento | Agentic Flash · Orquestração de ferramentas + Codificação | Flash superou o 3.1 Pro em vários testes de agentes |
| Janela de contexto | 1.048.576 tokens de entrada / 65.536 tokens de saída | Ou seja, 1M / 64K |
| Modalidades de entrada | Texto + Imagem + Áudio + Vídeo | Saída apenas em texto |
| Raciocínio dinâmico | Ativado por padrão | Sem necessidade de configurar orçamento de pensamento |
| Capacidades de ferramentas | function calling / saída estruturada / Search-as-a-Tool / execução de código | Pilha completa de ferramentas de agente |
| Corte de conhecimento | Janeiro de 2026 | Mesma era do GPT-5.5 e Claude Opus 4.7 |
| Acesso à API | Compatível com OpenAI / Interface nativa Gemini | APIYI (apiyi.com) suporta ambos os métodos |
🎯 Sugestão de integração: A maior mudança do Gemini 3.5 Flash é tornar a "combinação de modelo leve + invocação de ferramentas" uma capacidade padrão. Portanto, a forma mais eficiente de integrá-lo não é uma substituição pontual, mas colocá-lo na "camada de agendamento de ferramentas" do seu fluxo de trabalho de agentes. Recomendamos usar a interface unificada da plataforma APIYI (apiyi.com) para obter o crédito gratuito de 0,05 USD, realizar um teste de regressão substituindo seus fluxos atuais (GPT-5.5 Instant / Claude Haiku 4.5 / Gemini 3.1 Flash) pelo
gemini-3.5-flashe, então, decidir sobre a entrada em produção.
Visão geral dos preços e da janela de contexto do Gemini 3.5 Flash
A precificação do Gemini 3.5 Flash é outro ponto central de debate neste lançamento. O Google elevou os preços da série Flash de US$ 0,50 / US$ 4 (no 3 Flash Preview) para US$ 1,50 / US$ 9 no 3.5 Flash, aproximando-se da faixa de US$ 2 / US$ 12 do Gemini 3.1 Pro. A interpretação de Simon Willison na comunidade de língua inglesa é que o Google está "testando a tolerância de preço dos clientes de API", o que também significa que o objetivo do 3.5 Flash não é ser mais barato, mas sim oferecer a inteligência da categoria Pro com o custo da categoria Flash.
A tabela abaixo compara os preços oficiais do Gemini 3.5 Flash com modelos convencionais da mesma categoria, ajudando você a decidir se ele é vantajoso para sua carga de trabalho. Todos os preços são baseados em dólares por 1 milhão de tokens.
| Modelo | Preço de entrada | Preço de saída | Entrada com cache | Janela de contexto |
|---|---|---|---|---|
| Gemini 3.5 Flash | US$ 1,50 | US$ 9,00 | US$ 0,15 | 1M / 64K saída |
| Gemini 3.1 Pro | US$ 2,00 | US$ 12,00 | US$ 0,20 | 1M / 64K saída |
| Gemini 3.1 Flash-Lite | US$ 0,25 | US$ 1,50 | US$ 0,025 | 1M / 64K saída |
| GPT-5.5 (modelo principal) | US$ 5,00 | US$ 30,00 | US$ 0,50 | 400K entrada |
| Claude Opus 4.7 (1M) | US$ 15,00 | US$ 75,00 | US$ 1,50 | 1M entrada |
Observe três pontos de comparação cruciais. Primeiro, em comparação com o Gemini 3.1 Pro da mesma fabricante, o Gemini 3.5 Flash é 25% mais barato, mas supera o Pro em codificação e avaliações de agentes, sendo uma clara oportunidade de "upgrade com redução de custo" para usuários do Pro. Segundo, comparado ao GPT-5.5, o preço por token do Gemini 3.5 Flash é menos de um terço, com uma pontuação apenas 5 pontos abaixo no Artificial Analysis Intelligence Index, tornando-o ideal como modelo principal para diálogos e agentes sensíveis a custos. Terceiro, comparado ao Claude Opus 4.7, a inteligência abrangente do Gemini 3.5 Flash é apenas 2 pontos inferior, mas o custo total por milhão de tokens é menos de um décimo, o que pode economizar um orçamento considerável em cenários de contexto extremamente longo.
💡 Dica de otimização de custos: O Gemini 3.5 Flash oferece um preço de entrada com cache de US$ 0,15 / 1M, ideal para system prompts longos e cenários de RAG com documentos extensos. Recomendamos ativar o prompt caching na plataforma APIYI (apiyi.com) para reutilizar instruções fixas, fragmentos de base de conhecimento e histórico de conversas longas, o que pode reduzir o custo de entrada de 1M de tokens para o mesmo nível do 3.1 Flash-Lite.
Principais testes de referência do Gemini 3.5 Flash: Comparação real com o Gemini 3.1 Pro
Um dos dados mais contra-intuitivos do lançamento do Gemini 3.5 Flash é que o "Flash superou o Pro". O model card oficial do Google e testes práticos do LLM-Stats confirmam isso: em tarefas como agentes, orquestração de ferramentas, codificação e análise financeira, a pontuação do 3.5 Flash é, na verdade, superior à do Gemini 3.1 Pro; ele só fica ligeiramente abaixo do 3.1 Pro em raciocínio puramente acadêmico (Humanity's Last Exam) e raciocínio abstrato (ARC-AGI-2).
A tabela abaixo resume os principais benchmarks comparativos entre o Gemini 3.5 Flash e o Gemini 3.1 Pro, com dados extraídos de avaliações oficiais do Google e de terceiros.
| Benchmark | Gemini 3.5 Flash | Gemini 3.1 Pro | Diferença | Capacidade avaliada |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 76,2% | 70,3% | +5,9 | Agente de codificação de terminal |
| MCP Atlas | 83,6% | 78,2% | +5,4 | Chamada de ferramentas MCP |
| Finance Agent v2 | 57,9% | 43,0% | +14,9 | Agente de documentos financeiros |
| GDPval-AA (Elo) | 1656 | 1314 | +342 | Agente geral abrangente |
| CharXiv Reasoning | 84,2% | — | — | Raciocínio de gráficos |
| Humanity's Last Exam | 40,2% | 44,4% | -4,2 | Raciocínio acadêmico puro |
| ARC-AGI-2 | 72,1% | 77,1% | -5,0 | Raciocínio de padrão abstrato |
| Velocidade de saída | ~284 token/s | Mais lento | — | Resposta em tempo real |

Esses dados transmitem três sinais claros. Primeiro, a "superação" do Gemini 3.5 Flash concentra-se em chamadas de ferramentas e tarefas de agentes; o +14,9 no Finance Agent v2 e o +342 Elo no GDPval-AA são margens consideráveis. Segundo, o conhecimento estático puro e o raciocínio abstrato continuam sendo pontos fortes dos modelos Pro; se sua carga de trabalho for voltada para competições matemáticas, raciocínio acadêmico ou problemas de lógica de cadeia longa, o Gemini 3.5 Flash pode não ser a melhor solução. Terceiro, o Google está, na verdade, usando o modelo Flash para realizar uma "redivisão da linhagem de modelos"; segundo informações externas, o Gemini 3.5 Pro será lançado no próximo mês, o que elevará ainda mais o teto da categoria Pro.
Vale destacar o Artificial Analysis Intelligence Index (índice de inteligência abrangente). O Gemini 3.5 Flash obteve 55 pontos neste índice sintético entre benchmarks, apenas 2 pontos atrás do Claude Opus 4.7 e 5 pontos atrás do GPT-5.5. Considerando que o preço de entrada do 3.5 Flash é um décimo do Claude Opus 4.7 e menos de um terço do GPT-5.5, este é um dos modelos "próximos ao primeiro escalão" com melhor custo-benefício atualmente. Recomendamos utilizá-lo como o modelo de agente padrão na plataforma APIYI (apiyi.com) para reduzir drasticamente a carga operacional de gerenciar múltiplos fornecedores.
Análise de impacto do Gemini 3.5 Flash: O que significa para os desenvolvedores
O impacto deste lançamento não se resume apenas a ter mais um modelo disponível; o Google apresentou um sistema completo na rota "Flash + Agent" que consegue competir diretamente com o GPT-5.5 e o Claude Opus 4.7. Isso remodelará vários fluxos de trabalho críticos nos próximos 1 a 2 trimestres.

Impacto direto para desenvolvedores de agentes
As equipes de agentes são as que mais se beneficiam diretamente do Gemini 3.5 Flash. Pelos benchmarks, as melhorias no Terminal-Bench 2.1 e no MCP Atlas significam que gargalos tradicionais, como "invocação de ferramentas em várias etapas + recuperação de erros", foram aprimorados; o aumento de +14.9 no Finance Agent v2 indica um progresso claro no processamento de documentos estruturados. Empresas internacionais como Shopify, Macquarie Bank, Salesforce, Ramp, Xero e Databricks já foram listadas pelo Google como os primeiros clientes parceiros, cobrindo cenários como análise de dados, documentos financeiros, automação empresarial, OCR de faturas, fluxos de trabalho fiscais e monitoramento de conjuntos de dados. Se o seu produto possui um fluxo de trabalho de "ler documentos → invocar ferramentas → gerar resultados estruturados", o Gemini 3.5 Flash é quase um candidato obrigatório para avaliação imediata.
Impacto em aplicações de RAG com contexto longo
O Gemini 3.5 Flash mantém a janela de 1M de entrada + 64K de saída, e com o custo de cache de entrada de $0,15 / 1M, ele efetivamente torna o "RAG de contexto longo de nível milionário" acessível para SaaS de consumo. Uma referência comum é: 500 mil tokens de prefixo de base de conhecimento fixa + 50 mil tokens de pergunta do usuário, com o cache atingido, o custo de entrada por inferência fica abaixo de 0,1 dólar, muito inferior ao custo de dividir o mesmo contexto entre o GPT-5.5 ou o Claude Opus 4.7. Recomendamos unificar a cadeia de RAG de contexto longo no APIYI (apiyi.com) usando o gemini-3.5-flash, onde a estratégia de cache pode reutilizar a implementação existente da interface Gemini.
Impacto nas estratégias de roteamento de múltiplos modelos
Após o lançamento do Gemini 3.5 Flash, as estratégias convencionais de roteamento de múltiplos modelos precisam ser redesenhadas. A divisão comum de "GPT para conversação, Claude para código, Gemini para multimodal" foi quebrada, pois o Gemini 3.5 Flash é competitivo nas três frentes: agentes de codificação, invocação de ferramentas e entrada multimodal. Sugerimos definir o gemini-3.5-flash como o novo "modelo de ferramenta de uso geral" e manter o GPT-5.5 Instant, Claude Opus 4.7 e Gemini 3.1 Pro como reforços para tarefas específicas. Com a interface unificada do APIYI (apiyi.com), você pode realizar a troca de roteamento de modelos com custo zero.
Integração e teste gratuito do Gemini 3.5 Flash na APIYI
A integração do Gemini 3.5 Flash na plataforma APIYI (apiyi.com) é totalmente compatível com a OpenAI, o que significa que os desenvolvedores não precisam reconstruir a autenticação ou a lógica de roteamento. Novos usuários recebem um crédito de teste de US$ 0,05 logo após o registro, o que é suficiente para executar os exemplos oficiais e concluir um teste de regressão completo do fluxo de trabalho do seu agente.
Exemplo de invocação simples
from openai import OpenAI
client = OpenAI(
api_key="YOUR_APIYI_KEY",
base_url="https://api.apiyi.com/v1",
)
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "system", "content": "Você é um engenheiro de orquestração de agentes."},
{"role": "user", "content": "Por favor, planeje uma cadeia de ferramentas para extrair issues do GitHub e gerar um relatório semanal."},
],
)
print(response.choices[0].message.content)
Ver invocação completa com function calling
from openai import OpenAI
client = OpenAI(
api_key="YOUR_APIYI_KEY",
base_url="https://api.apiyi.com/v1",
)
tools = [
{
"type": "function",
"function": {
"name": "fetch_github_issues",
"description": "Extrair a lista de issues de um repositório específico",
"parameters": {
"type": "object",
"properties": {
"repo": {"type": "string", "description": "dono/repositório"},
"state": {"type": "string", "enum": ["open", "closed", "all"]},
},
"required": ["repo"],
},
},
}
]
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "user", "content": "Ajude-me a verificar as novas issues abertas esta semana no repositório anthropics/anthropic-cookbook"},
],
tools=tools,
tool_choice="auto",
)
print(response.choices[0].message)
💡 Dica de teste: O crédito de US$ 0,05, com base no preço de US$ 1,50 / US$ 9 do Gemini 3.5 Flash, permite processar cerca de 30 a 40 mil tokens de entrada ou 5.000 tokens de saída. Isso é suficiente para rodar seus comandos atuais na APIYI (apiyi.com) e validar o desempenho. Recomendamos usar o crédito gratuito para tarefas reais, em vez de apenas exemplos oficiais, para avaliar com precisão se o "Flash supera o Pro" no seu caso de uso.
Três passos para a integração
- Registre-se na APIYI (apiyi.com) e, após a verificação, receba o crédito gratuito de US$ 0,05.
- Gere uma chave API no painel de controle, altere o
base_urldo SDK da OpenAI parahttps://api.apiyi.com/v1e defina o campomodelcomogemini-3.5-flash. - Reutilize seus comandos (prompts) atuais do GPT-5.5 Instant ou Gemini 3.1 Pro Preview e compare a qualidade da resposta, a latência e o consumo de tokens.
Perguntas Frequentes (FAQ) sobre o Gemini 3.5 Flash
Q1: Quem é melhor: Gemini 3.5 Flash ou Gemini 3.1 Pro Preview?
Depende do cenário. Em tarefas de agentes e codificação como Terminal-Bench 2.1, MCP Atlas, Finance Agent v2 e GDPval-AA, o Gemini 3.5 Flash supera o Gemini 3.1 Pro. No entanto, em testes como Humanity's Last Exam (raciocínio acadêmico puro) e ARC-AGI-2 (raciocínio abstrato), ele fica ligeiramente abaixo do 3.1 Pro. Conclusão: equipes focadas em agentes, chamadas de ferramentas, código e RAG de documentos longos devem priorizar o Gemini 3.5 Flash; equipes focadas em raciocínio estático ou avaliações acadêmicas podem manter o 3.1 Pro. Você pode fazer um teste de comparação na APIYI (apiyi.com) usando o crédito gratuito.
Q2: Por que o Gemini 3.5 Flash não possui o sufixo “preview”?
Este é o resultado da nova estratégia de lançamento de modelos do Google para a série 3.5. O 3.5 Flash foi lançado diretamente como GA (Disponibilidade Geral), com o ID de modelo gemini-3.5-flash e a versão interna 3.5-flash-05-2026. Isso significa que ele passou por avaliações de segurança completas e possui SLA de nível de produção. Diferente do Gemini 3.1 Pro Preview, você pode integrá-lo ao seu código de produção sem medo de descontinuação.
Q3: Quantas requisições do Gemini 3.5 Flash posso fazer com US$ 0,05?
Com o preço de US$ 1,50 por 1M de tokens de entrada e US$ 9 por 1M de tokens de saída, US$ 0,05 cobrem cerca de 30 mil tokens de entrada e 1.500 tokens de saída, o que equivale a 30-50 chamadas de conversação de tamanho médio. Se você ativar o prompt caching, a parte cacheada é cobrada a US$ 0,15 / 1M, estendendo ainda mais o seu crédito gratuito.
Q4: O Gemini 3.5 Flash suporta entrada de vídeo e áudio?
Sim. As modalidades de entrada do Gemini 3.5 Flash incluem texto, imagem, áudio e vídeo (saída apenas em texto). Lembre-se de que vídeo e áudio são contabilizados como tokens na entrada. A interface da APIYI (apiyi.com) já expõe esses parâmetros, permitindo que você reutilize seu código multimodal existente do Gemini 3.x.
Resumo: O Gemini 3.5 Flash é a atualização de modelo mais valiosa para avaliar em maio
Voltando ao fato mais contraintuitivo mencionado no início: o Gemini 3.5 Flash superou a geração anterior, o Gemini 3.1 Pro, em tarefas de agentes e codificação, custando apenas 75% do preço do Pro. Além disso, sua base de conhecimento foi atualizada para janeiro de 2026 e, segundo estimativas oficiais, sua velocidade de saída é quatro vezes superior à de outros modelos de ponta da mesma categoria. Para equipes que operam agentes, chamadas de ferramentas, RAG de documentos longos e fluxos de trabalho de automação empresarial, esta é a atualização de modelo do Google mais importante para avaliar imediatamente no primeiro semestre de 2026.
O Gemini 3.5 Flash já está disponível na plataforma APIYI (apiyi.com). Novos usuários recebem um crédito gratuito de 0,05 dólares ao se registrarem, permitindo realizar testes de integração sem custo algum. Recomendamos priorizar sua implementação na camada de orquestração de ferramentas de fluxos de trabalho de agentes, utilizando a interface compatível com OpenAI da APIYI (apiyi.com) para uma integração direta. Isso permite aproveitar as atualizações de modelo de primeira mão do Google, mantendo a flexibilidade para rotear entre modelos como Claude Opus 4.7, GPT-5.5 Instant, Gemini 3.1 Pro, entre outros.
Autor: Equipe técnica da APIYI · apiyi.com
Data de publicação: 20 de maio de 2026
Referências: Google AI for Developers, LLM-Stats, Artificial Analysis, Simon Willison Blog, Interesting Engineering, 9to5Google
