Gemini 3.5 Flash API disponível no APIYI: teste gratuito + 4x mais velocidade e análise completa de 8 grandes dados de avaliação

Em 19 de maio de 2026, o Google lançou oficialmente o Gemini 3.5 Flash durante a conferência I/O 2026. Este é o primeiro modelo público da série Gemini 3.5, e seu ID de API utiliza diretamente gemini-3.5-flash, sem o sufixo "preview", o que significa que ele já está em estado GA (disponibilidade geral). No mesmo dia, a plataforma APIYI (apiyi.com) concluiu a integração, permitindo que desenvolvedores utilizem a interface compatível com OpenAI para invocar o Gemini 3.5 Flash diretamente em seus produtos. Novos usuários recebem um crédito gratuito de 0,05 USD no cadastro, permitindo realizar testes de integração sem custo.

O que mais impressionou os desenvolvedores foi o fenômeno "Flash superando o Pro": em vários benchmarks de agentes e codificação, como Terminal-Bench 2.1, MCP Atlas, Finance Agent v2 e GDPval-AA, o modelo obteve pontuações superiores ao carro-chefe da geração anterior, o Gemini 3.1 Pro, enquanto a velocidade de saída é cerca de 4 vezes maior que a de modelos de ponta da mesma categoria. Para equipes que executam agentes de codificação, fluxos de trabalho de invocação de ferramentas e processamento de documentos longos, esta é a atualização de modelo mais importante para avaliar em maio. Recomendamos usar o crédito gratuito da APIYI (apiyi.com) para testar suas tarefas reais antes de decidir migrar sua produção para a versão 3.5.

O que é o Gemini 3.5 Flash: O posicionamento central da versão oficial do Google

O Gemini 3.5 Flash é a versão leve de alto desempenho lançada pelo Google DeepMind na família Gemini 3.5, posicionada como "Agentic Flash": mantendo as características de baixa latência e alto throughput da série Flash, enquanto traz capacidades de orquestração de ferramentas e raciocínio em múltiplas etapas, antes exclusivas do modelo Pro, para a categoria Flash. O Google enfatizou no lançamento que o 3.5 Flash é seu modelo de orquestração de agentes mais forte atualmente, sendo implantado simultaneamente nos aplicativos Gemini, no modo IA da Pesquisa Google, no Google Antigravity, no Google AI Studio e na nuvem corporativa.

Este lançamento traz quatro pontos oficiais cruciais. Primeiro, o ID do modelo não possui sufixo "preview", com a versão interna 3.5-flash-05-2026, o que significa que ele é fornecido diretamente como GA. Segundo, o Dynamic Thinking (raciocínio dinâmico) está ativado por padrão; o modelo decide automaticamente se o problema requer uma cadeia de raciocínio, sem exigir que o desenvolvedor ajuste manualmente o orçamento de pensamento. Terceiro, as capacidades de ferramentas estão completas por padrão: function calling, saída estruturada, Search-as-a-Tool e execução de código estão todos disponíveis, ideais para agentes complexos. Quarto, o corte de conhecimento foi estendido para janeiro de 2026, sendo uma das bases de conhecimento mais recentes entre os principais modelos fechados.

A tabela abaixo resume as especificações principais do Gemini 3.5 Flash, com dados provenientes da documentação oficial do Google AI for Developers e testes da LLM-Stats e Artificial Analysis.

Parâmetro	Valor do Gemini 3.5 Flash	Observação
Data de lançamento	19 de maio de 2026	Palestra principal do Google I/O 2026
ID do modelo	`gemini-3.5-flash`	Versão oficial, sem sufixo preview
Versão interna	`3.5-flash-05-2026`	Consistente com o Google AI Studio
Posicionamento	Agentic Flash · Orquestração de ferramentas + Codificação	Flash superou o 3.1 Pro em vários testes de agentes
Janela de contexto	1.048.576 tokens de entrada / 65.536 tokens de saída	Ou seja, 1M / 64K
Modalidades de entrada	Texto + Imagem + Áudio + Vídeo	Saída apenas em texto
Raciocínio dinâmico	Ativado por padrão	Sem necessidade de configurar orçamento de pensamento
Capacidades de ferramentas	function calling / saída estruturada / Search-as-a-Tool / execução de código	Pilha completa de ferramentas de agente
Corte de conhecimento	Janeiro de 2026	Mesma era do GPT-5.5 e Claude Opus 4.7
Acesso à API	Compatível com OpenAI / Interface nativa Gemini	APIYI (apiyi.com) suporta ambos os métodos

🎯 Sugestão de integração: A maior mudança do Gemini 3.5 Flash é tornar a "combinação de modelo leve + invocação de ferramentas" uma capacidade padrão. Portanto, a forma mais eficiente de integrá-lo não é uma substituição pontual, mas colocá-lo na "camada de agendamento de ferramentas" do seu fluxo de trabalho de agentes. Recomendamos usar a interface unificada da plataforma APIYI (apiyi.com) para obter o crédito gratuito de 0,05 USD, realizar um teste de regressão substituindo seus fluxos atuais (GPT-5.5 Instant / Claude Haiku 4.5 / Gemini 3.1 Flash) pelo gemini-3.5-flash e, então, decidir sobre a entrada em produção.

Visão geral dos preços e da janela de contexto do Gemini 3.5 Flash

A precificação do Gemini 3.5 Flash é outro ponto central de debate neste lançamento. O Google elevou os preços da série Flash de US$ 0,50 / US$ 4 (no 3 Flash Preview) para US$ 1,50 / US$ 9 no 3.5 Flash, aproximando-se da faixa de US$ 2 / US$ 12 do Gemini 3.1 Pro. A interpretação de Simon Willison na comunidade de língua inglesa é que o Google está "testando a tolerância de preço dos clientes de API", o que também significa que o objetivo do 3.5 Flash não é ser mais barato, mas sim oferecer a inteligência da categoria Pro com o custo da categoria Flash.

A tabela abaixo compara os preços oficiais do Gemini 3.5 Flash com modelos convencionais da mesma categoria, ajudando você a decidir se ele é vantajoso para sua carga de trabalho. Todos os preços são baseados em dólares por 1 milhão de tokens.

Modelo	Preço de entrada	Preço de saída	Entrada com cache	Janela de contexto
Gemini 3.5 Flash	US$ 1,50	US$ 9,00	US$ 0,15	1M / 64K saída
Gemini 3.1 Pro	US$ 2,00	US$ 12,00	US$ 0,20	1M / 64K saída
Gemini 3.1 Flash-Lite	US$ 0,25	US$ 1,50	US$ 0,025	1M / 64K saída
GPT-5.5 (modelo principal)	US$ 5,00	US$ 30,00	US$ 0,50	400K entrada
Claude Opus 4.7 (1M)	US$ 15,00	US$ 75,00	US$ 1,50	1M entrada

Observe três pontos de comparação cruciais. Primeiro, em comparação com o Gemini 3.1 Pro da mesma fabricante, o Gemini 3.5 Flash é 25% mais barato, mas supera o Pro em codificação e avaliações de agentes, sendo uma clara oportunidade de "upgrade com redução de custo" para usuários do Pro. Segundo, comparado ao GPT-5.5, o preço por token do Gemini 3.5 Flash é menos de um terço, com uma pontuação apenas 5 pontos abaixo no Artificial Analysis Intelligence Index, tornando-o ideal como modelo principal para diálogos e agentes sensíveis a custos. Terceiro, comparado ao Claude Opus 4.7, a inteligência abrangente do Gemini 3.5 Flash é apenas 2 pontos inferior, mas o custo total por milhão de tokens é menos de um décimo, o que pode economizar um orçamento considerável em cenários de contexto extremamente longo.

💡 Dica de otimização de custos: O Gemini 3.5 Flash oferece um preço de entrada com cache de US$ 0,15 / 1M, ideal para system prompts longos e cenários de RAG com documentos extensos. Recomendamos ativar o prompt caching na plataforma APIYI (apiyi.com) para reutilizar instruções fixas, fragmentos de base de conhecimento e histórico de conversas longas, o que pode reduzir o custo de entrada de 1M de tokens para o mesmo nível do 3.1 Flash-Lite.

Principais testes de referência do Gemini 3.5 Flash: Comparação real com o Gemini 3.1 Pro

Um dos dados mais contra-intuitivos do lançamento do Gemini 3.5 Flash é que o "Flash superou o Pro". O model card oficial do Google e testes práticos do LLM-Stats confirmam isso: em tarefas como agentes, orquestração de ferramentas, codificação e análise financeira, a pontuação do 3.5 Flash é, na verdade, superior à do Gemini 3.1 Pro; ele só fica ligeiramente abaixo do 3.1 Pro em raciocínio puramente acadêmico (Humanity's Last Exam) e raciocínio abstrato (ARC-AGI-2).

A tabela abaixo resume os principais benchmarks comparativos entre o Gemini 3.5 Flash e o Gemini 3.1 Pro, com dados extraídos de avaliações oficiais do Google e de terceiros.

Benchmark	Gemini 3.5 Flash	Gemini 3.1 Pro	Diferença	Capacidade avaliada
Terminal-Bench 2.1	76,2%	70,3%	+5,9	Agente de codificação de terminal
MCP Atlas	83,6%	78,2%	+5,4	Chamada de ferramentas MCP
Finance Agent v2	57,9%	43,0%	+14,9	Agente de documentos financeiros
GDPval-AA (Elo)	1656	1314	+342	Agente geral abrangente
CharXiv Reasoning	84,2%	—	—	Raciocínio de gráficos
Humanity's Last Exam	40,2%	44,4%	-4,2	Raciocínio acadêmico puro
ARC-AGI-2	72,1%	77,1%	-5,0	Raciocínio de padrão abstrato
Velocidade de saída	~284 token/s	Mais lento	—	Resposta em tempo real

Esses dados transmitem três sinais claros. Primeiro, a "superação" do Gemini 3.5 Flash concentra-se em chamadas de ferramentas e tarefas de agentes; o +14,9 no Finance Agent v2 e o +342 Elo no GDPval-AA são margens consideráveis. Segundo, o conhecimento estático puro e o raciocínio abstrato continuam sendo pontos fortes dos modelos Pro; se sua carga de trabalho for voltada para competições matemáticas, raciocínio acadêmico ou problemas de lógica de cadeia longa, o Gemini 3.5 Flash pode não ser a melhor solução. Terceiro, o Google está, na verdade, usando o modelo Flash para realizar uma "redivisão da linhagem de modelos"; segundo informações externas, o Gemini 3.5 Pro será lançado no próximo mês, o que elevará ainda mais o teto da categoria Pro.

Vale destacar o Artificial Analysis Intelligence Index (índice de inteligência abrangente). O Gemini 3.5 Flash obteve 55 pontos neste índice sintético entre benchmarks, apenas 2 pontos atrás do Claude Opus 4.7 e 5 pontos atrás do GPT-5.5. Considerando que o preço de entrada do 3.5 Flash é um décimo do Claude Opus 4.7 e menos de um terço do GPT-5.5, este é um dos modelos "próximos ao primeiro escalão" com melhor custo-benefício atualmente. Recomendamos utilizá-lo como o modelo de agente padrão na plataforma APIYI (apiyi.com) para reduzir drasticamente a carga operacional de gerenciar múltiplos fornecedores.

Análise de impacto do Gemini 3.5 Flash: O que significa para os desenvolvedores

O impacto deste lançamento não se resume apenas a ter mais um modelo disponível; o Google apresentou um sistema completo na rota "Flash + Agent" que consegue competir diretamente com o GPT-5.5 e o Claude Opus 4.7. Isso remodelará vários fluxos de trabalho críticos nos próximos 1 a 2 trimestres.

Impacto direto para desenvolvedores de agentes

As equipes de agentes são as que mais se beneficiam diretamente do Gemini 3.5 Flash. Pelos benchmarks, as melhorias no Terminal-Bench 2.1 e no MCP Atlas significam que gargalos tradicionais, como "invocação de ferramentas em várias etapas + recuperação de erros", foram aprimorados; o aumento de +14.9 no Finance Agent v2 indica um progresso claro no processamento de documentos estruturados. Empresas internacionais como Shopify, Macquarie Bank, Salesforce, Ramp, Xero e Databricks já foram listadas pelo Google como os primeiros clientes parceiros, cobrindo cenários como análise de dados, documentos financeiros, automação empresarial, OCR de faturas, fluxos de trabalho fiscais e monitoramento de conjuntos de dados. Se o seu produto possui um fluxo de trabalho de "ler documentos → invocar ferramentas → gerar resultados estruturados", o Gemini 3.5 Flash é quase um candidato obrigatório para avaliação imediata.

Impacto em aplicações de RAG com contexto longo

O Gemini 3.5 Flash mantém a janela de 1M de entrada + 64K de saída, e com o custo de cache de entrada de $0,15 / 1M, ele efetivamente torna o "RAG de contexto longo de nível milionário" acessível para SaaS de consumo. Uma referência comum é: 500 mil tokens de prefixo de base de conhecimento fixa + 50 mil tokens de pergunta do usuário, com o cache atingido, o custo de entrada por inferência fica abaixo de 0,1 dólar, muito inferior ao custo de dividir o mesmo contexto entre o GPT-5.5 ou o Claude Opus 4.7. Recomendamos unificar a cadeia de RAG de contexto longo no APIYI (apiyi.com) usando o gemini-3.5-flash, onde a estratégia de cache pode reutilizar a implementação existente da interface Gemini.

Impacto nas estratégias de roteamento de múltiplos modelos

Após o lançamento do Gemini 3.5 Flash, as estratégias convencionais de roteamento de múltiplos modelos precisam ser redesenhadas. A divisão comum de "GPT para conversação, Claude para código, Gemini para multimodal" foi quebrada, pois o Gemini 3.5 Flash é competitivo nas três frentes: agentes de codificação, invocação de ferramentas e entrada multimodal. Sugerimos definir o gemini-3.5-flash como o novo "modelo de ferramenta de uso geral" e manter o GPT-5.5 Instant, Claude Opus 4.7 e Gemini 3.1 Pro como reforços para tarefas específicas. Com a interface unificada do APIYI (apiyi.com), você pode realizar a troca de roteamento de modelos com custo zero.

Integração e teste gratuito do Gemini 3.5 Flash na APIYI

A integração do Gemini 3.5 Flash na plataforma APIYI (apiyi.com) é totalmente compatível com a OpenAI, o que significa que os desenvolvedores não precisam reconstruir a autenticação ou a lógica de roteamento. Novos usuários recebem um crédito de teste de US$ 0,05 logo após o registro, o que é suficiente para executar os exemplos oficiais e concluir um teste de regressão completo do fluxo de trabalho do seu agente.

Exemplo de invocação simples

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Você é um engenheiro de orquestração de agentes."},
        {"role": "user", "content": "Por favor, planeje uma cadeia de ferramentas para extrair issues do GitHub e gerar um relatório semanal."},
    ],
)
print(response.choices[0].message.content)

Ver invocação completa com function calling

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "fetch_github_issues",
            "description": "Extrair a lista de issues de um repositório específico",
            "parameters": {
                "type": "object",
                "properties": {
                    "repo": {"type": "string", "description": "dono/repositório"},
                    "state": {"type": "string", "enum": ["open", "closed", "all"]},
                },
                "required": ["repo"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "Ajude-me a verificar as novas issues abertas esta semana no repositório anthropics/anthropic-cookbook"},
    ],
    tools=tools,
    tool_choice="auto",
)
print(response.choices[0].message)

💡 Dica de teste: O crédito de US$ 0,05, com base no preço de US$ 1,50 / US$ 9 do Gemini 3.5 Flash, permite processar cerca de 30 a 40 mil tokens de entrada ou 5.000 tokens de saída. Isso é suficiente para rodar seus comandos atuais na APIYI (apiyi.com) e validar o desempenho. Recomendamos usar o crédito gratuito para tarefas reais, em vez de apenas exemplos oficiais, para avaliar com precisão se o "Flash supera o Pro" no seu caso de uso.

Três passos para a integração

Registre-se na APIYI (apiyi.com) e, após a verificação, receba o crédito gratuito de US$ 0,05.
Gere uma chave API no painel de controle, altere o base_url do SDK da OpenAI para https://api.apiyi.com/v1 e defina o campo model como gemini-3.5-flash.
Reutilize seus comandos (prompts) atuais do GPT-5.5 Instant ou Gemini 3.1 Pro Preview e compare a qualidade da resposta, a latência e o consumo de tokens.

Perguntas Frequentes (FAQ) sobre o Gemini 3.5 Flash

Q1: Quem é melhor: Gemini 3.5 Flash ou Gemini 3.1 Pro Preview?

Depende do cenário. Em tarefas de agentes e codificação como Terminal-Bench 2.1, MCP Atlas, Finance Agent v2 e GDPval-AA, o Gemini 3.5 Flash supera o Gemini 3.1 Pro. No entanto, em testes como Humanity's Last Exam (raciocínio acadêmico puro) e ARC-AGI-2 (raciocínio abstrato), ele fica ligeiramente abaixo do 3.1 Pro. Conclusão: equipes focadas em agentes, chamadas de ferramentas, código e RAG de documentos longos devem priorizar o Gemini 3.5 Flash; equipes focadas em raciocínio estático ou avaliações acadêmicas podem manter o 3.1 Pro. Você pode fazer um teste de comparação na APIYI (apiyi.com) usando o crédito gratuito.

Q2: Por que o Gemini 3.5 Flash não possui o sufixo “preview”?

Este é o resultado da nova estratégia de lançamento de modelos do Google para a série 3.5. O 3.5 Flash foi lançado diretamente como GA (Disponibilidade Geral), com o ID de modelo gemini-3.5-flash e a versão interna 3.5-flash-05-2026. Isso significa que ele passou por avaliações de segurança completas e possui SLA de nível de produção. Diferente do Gemini 3.1 Pro Preview, você pode integrá-lo ao seu código de produção sem medo de descontinuação.

Q3: Quantas requisições do Gemini 3.5 Flash posso fazer com US$ 0,05?

Com o preço de US$ 1,50 por 1M de tokens de entrada e US$ 9 por 1M de tokens de saída, US$ 0,05 cobrem cerca de 30 mil tokens de entrada e 1.500 tokens de saída, o que equivale a 30-50 chamadas de conversação de tamanho médio. Se você ativar o prompt caching, a parte cacheada é cobrada a US$ 0,15 / 1M, estendendo ainda mais o seu crédito gratuito.

Q4: O Gemini 3.5 Flash suporta entrada de vídeo e áudio?

Sim. As modalidades de entrada do Gemini 3.5 Flash incluem texto, imagem, áudio e vídeo (saída apenas em texto). Lembre-se de que vídeo e áudio são contabilizados como tokens na entrada. A interface da APIYI (apiyi.com) já expõe esses parâmetros, permitindo que você reutilize seu código multimodal existente do Gemini 3.x.

Resumo: O Gemini 3.5 Flash é a atualização de modelo mais valiosa para avaliar em maio

Voltando ao fato mais contraintuitivo mencionado no início: o Gemini 3.5 Flash superou a geração anterior, o Gemini 3.1 Pro, em tarefas de agentes e codificação, custando apenas 75% do preço do Pro. Além disso, sua base de conhecimento foi atualizada para janeiro de 2026 e, segundo estimativas oficiais, sua velocidade de saída é quatro vezes superior à de outros modelos de ponta da mesma categoria. Para equipes que operam agentes, chamadas de ferramentas, RAG de documentos longos e fluxos de trabalho de automação empresarial, esta é a atualização de modelo do Google mais importante para avaliar imediatamente no primeiro semestre de 2026.

O Gemini 3.5 Flash já está disponível na plataforma APIYI (apiyi.com). Novos usuários recebem um crédito gratuito de 0,05 dólares ao se registrarem, permitindo realizar testes de integração sem custo algum. Recomendamos priorizar sua implementação na camada de orquestração de ferramentas de fluxos de trabalho de agentes, utilizando a interface compatível com OpenAI da APIYI (apiyi.com) para uma integração direta. Isso permite aproveitar as atualizações de modelo de primeira mão do Google, mantendo a flexibilidade para rotear entre modelos como Claude Opus 4.7, GPT-5.5 Instant, Gemini 3.1 Pro, entre outros.

Autor: Equipe técnica da APIYI · apiyi.com
Data de publicação: 20 de maio de 2026
Referências: Google AI for Developers, LLM-Stats, Artificial Analysis, Simon Willison Blog, Interesting Engineering, 9to5Google

Gemini 3.5 Flash API disponível no APIYI: teste gratuito + 4x mais velocidade e análise completa de 8 grandes dados de avaliação

O que é o Gemini 3.5 Flash: O posicionamento central da versão oficial do Google

Visão geral dos preços e da janela de contexto do Gemini 3.5 Flash

Principais testes de referência do Gemini 3.5 Flash: Comparação real com o Gemini 3.1 Pro

Análise de impacto do Gemini 3.5 Flash: O que significa para os desenvolvedores

Impacto direto para desenvolvedores de agentes

Impacto em aplicações de RAG com contexto longo

Impacto nas estratégias de roteamento de múltiplos modelos

Integração e teste gratuito do Gemini 3.5 Flash na APIYI

Exemplo de invocação simples

Três passos para a integração

Perguntas Frequentes (FAQ) sobre o Gemini 3.5 Flash

Resumo: O Gemini 3.5 Flash é a atualização de modelo mais valiosa para avaliar em maio

掌握 Seedance 2.0 API 视频生成的 5 个核心能力：从文生视频到多模态创作完整指南

Análise profunda do Claude Mythos Preview: As 5 principais capacidades do Modelo de Linguagem Grande mais poderoso da Anthropic

gemini-3.1-flash-image-preview lançado no AI Studio: Guia completo de acesso por apenas $0,03 por imagem

5 métodos para resolver o problema de limite do Google AI Studio – Guia Completo 2026

O que é Claude Mythos? Análise completa do vazamento do modelo de IA mais poderoso da Anthropic: nível Capybara, 6 capacidades principais e perspectiva de acesso à API

Entenda as razões do atraso da API Seedance 2.0 e 3 soluções alternativas de acesso (Atualizado em fevereiro de 2026)

O que é o Gemini 3.5 Flash: O posicionamento central da versão oficial do Google

Visão geral dos preços e da janela de contexto do Gemini 3.5 Flash

Principais testes de referência do Gemini 3.5 Flash: Comparação real com o Gemini 3.1 Pro

Análise de impacto do Gemini 3.5 Flash: O que significa para os desenvolvedores

Impacto direto para desenvolvedores de agentes

Impacto em aplicações de RAG com contexto longo

Impacto nas estratégias de roteamento de múltiplos modelos

Integração e teste gratuito do Gemini 3.5 Flash na APIYI

Exemplo de invocação simples

Três passos para a integração

Perguntas Frequentes (FAQ) sobre o Gemini 3.5 Flash

Resumo: O Gemini 3.5 Flash é a atualização de modelo mais valiosa para avaliar em maio

Similar Posts