Gemini 3.5 Flash API disponible sur APIYI : essai gratuit + vitesse multipliée par 4, analyse complète de 8 données d’évaluation

Le 19 mai 2026, lors de la conférence Google I/O 2026, Google a officiellement lancé Gemini 3.5 Flash. Il s'agit du premier modèle public de la gamme Gemini 3.5. Son identifiant API est directement gemini-3.5-flash, sans suffixe "preview", ce qui signifie qu'il est déjà en état GA (disponibilité générale). Le jour même, la plateforme APIYI (apiyi.com) a finalisé son intégration. Les développeurs peuvent désormais invoquer Gemini 3.5 Flash via des interfaces compatibles OpenAI pour l'intégrer à leurs propres produits. Les nouveaux utilisateurs reçoivent un crédit gratuit de 0,05 $ dès leur inscription, permettant de tester l'intégration sans aucun coût.

Ce qui a le plus surpris les développeurs internationaux avec Gemini 3.5 Flash, c'est le phénomène "Flash dépasse Pro" : sur plusieurs benchmarks d'agents et de codage comme Terminal-Bench 2.1, MCP Atlas, Finance Agent v2 et GDPval-AA, il obtient des scores supérieurs au fleuron de la génération précédente, Gemini 3.1 Pro. De plus, la vitesse de sortie est annoncée par Google comme étant environ 4 fois plus rapide que les modèles de pointe de même catégorie. Pour les équipes gérant des agents de codage, des flux de travail d'invocation d'outils ou le traitement de longs documents, c'est la mise à jour de modèle la plus importante à évaluer en mai. Nous vous recommandons d'utiliser le crédit gratuit d'APIYI (apiyi.com) pour tester vos propres tâches réelles avant de décider de basculer votre production vers la version 3.5.

Qu'est-ce que Gemini 3.5 Flash : Le positionnement clé de la version officielle de Google

Gemini 3.5 Flash est la première version légère phare de la famille Gemini 3.5 publiée par Google DeepMind. Elle est positionnée comme un "Agentic Flash" : tout en conservant les caractéristiques de faible latence et de haut débit de la série Flash, elle intègre les capacités d'orchestration d'outils et de raisonnement en plusieurs étapes, auparavant réservées aux modèles Pro. Lors de la conférence, Google a souligné que 3.5 Flash est actuellement leur modèle d'orchestration d'agents le plus performant, déployé simultanément dans les applications Gemini, le mode IA de Google Search, Google Antigravity, Google AI Studio et le cloud d'entreprise.

Cette version apporte quatre informations officielles cruciales. Premièrement, l'ID du modèle n'a pas de suffixe "preview" (version interne 3.5-flash-05-2026), ce qui signifie qu'il est disponible directement en tant que GA. Deuxièmement, le "Dynamic Thinking" (réflexion dynamique) est activé par défaut : le modèle détermine automatiquement si une question nécessite une chaîne de réflexion, sans que le développeur ait à gérer manuellement le budget de réflexion. Troisièmement, les capacités d'outils sont complètes par défaut : l'invocation de fonctions (function calling), la sortie structurée, la recherche comme outil (Search-as-a-Tool) et l'exécution de code sont toutes disponibles pour une intégration directe dans des agents complexes. Quatrièmement, la date limite des connaissances est fixée à janvier 2026, ce qui en fait l'une des bases de connaissances les plus récentes parmi les modèles fermés actuels.

Le tableau ci-dessous résume les spécifications principales de Gemini 3.5 Flash. Toutes les données proviennent de la documentation officielle de Google AI for Developers et des tests indépendants de LLM-Stats et Artificial Analysis.

Paramètre	Valeur pour Gemini 3.5 Flash	Remarques
Date de sortie	19 mai 2026	Conférence Google I/O 2026
ID du modèle	`gemini-3.5-flash`	Version officielle, sans suffixe preview
Version interne	`3.5-flash-05-2026`	Identique à Google AI Studio
Positionnement	Agentic Flash · Orchestration d'outils + Codage	Dépasse 3.1 Pro sur plusieurs tests d'agents
Fenêtre de contexte	1 048 576 tokens en entrée / 65 536 en sortie	Soit 1M / 64K
Modalités d'entrée	Texte + Image + Audio + Vidéo	Sortie texte uniquement
Réflexion dynamique	Activée par défaut	Aucune configuration manuelle requise
Capacités d'outils	Function calling / Sortie structurée / Search-as-a-Tool / Exécution de code	Pile d'outils d'agent complète
Connaissances	Jusqu'en janvier 2026	Même génération que GPT-5.5, Claude Opus 4.7
Accès API	Compatible OpenAI / Interface native Gemini	APIYI (apiyi.com) prend en charge les deux

🎯 Conseil d'intégration : Le changement majeur de Gemini 3.5 Flash est de faire de la combinaison "modèle léger + invocation d'outils" une capacité par défaut. Par conséquent, la méthode la plus rentable n'est pas un remplacement ponctuel, mais de l'utiliser comme "couche d'orchestration d'outils" dans vos flux de travail d'agents. Nous vous suggérons d'utiliser l'interface unifiée de la plateforme APIYI (apiyi.com) avec le crédit gratuit de 0,05 $ pour tester vos flux de travail existants (GPT-5.5 Instant / Claude Haiku 4.5 / Gemini 3.1 Flash) en basculant vers gemini-3.5-flash pour une série de tests de régression avant de passer en production.

Aperçu des tarifs et de la fenêtre de contexte de Gemini 3.5 Flash

La tarification de Gemini 3.5 Flash est un autre point de controverse majeur lors de ce lancement. Google a fait passer les prix de la gamme Flash de 0,50 $ / 4 $ pour la version 3 Flash Preview à 1,50 $ / 9 $ pour la 3.5 Flash, se rapprochant ainsi du tarif de 2 $ / 12 $ du Gemini 3.1 Pro. Simon Willison, dans la communauté anglophone, suggère que Google "teste la tolérance aux prix des clients API", ce qui signifie également que l'objectif de la 3.5 Flash n'est pas d'être moins chère, mais d'offrir l'intelligence de la gamme Pro au coût d'une gamme Flash.

Le tableau ci-dessous compare la tarification officielle de Gemini 3.5 Flash avec les modèles dominants de la même catégorie pour vous aider à déterminer si elle est rentable pour vos charges de travail. Tous les prix sont indiqués par million de jetons (tokens).

Modèle	Prix entrée	Prix sortie	Entrée cache hit	Fenêtre de contexte
Gemini 3.5 Flash	1,50 $	9,00 $	0,15 $	1M / 64K sortie
Gemini 3.1 Pro	2,00 $	12,00 $	0,20 $	1M / 64K sortie
Gemini 3.1 Flash-Lite	0,25 $	1,50 $	0,025 $	1M / 64K sortie
GPT-5.5 (modèle principal)	5,00 $	30,00 $	0,50 $	400K entrée
Claude Opus 4.7 (1M)	15,00 $	75,00 $	1,50 $	1M entrée

Notez trois points de comparaison clés. Premièrement, par rapport au Gemini 3.1 Pro du même fabricant, Gemini 3.5 Flash est 25 % moins cher, tout en étant plus performant dans les tests de codage et d'Agent ; c'est donc une opportunité claire de "montée en gamme à prix réduit" pour les utilisateurs Pro. Deuxièmement, comparé au GPT-5.5, le prix par jeton de Gemini 3.5 Flash est inférieur à un tiers, avec un score de seulement 5 points de moins sur l'Artificial Analysis Intelligence Index, ce qui en fait un choix idéal comme modèle principal pour les conversations et les Agents sensibles aux coûts. Troisièmement, par rapport à Claude Opus 4.7, l'intelligence globale de Gemini 3.5 Flash n'est inférieure que de 2 points, mais le coût total par million de jetons est inférieur à un dixième, permettant de réaliser d'importantes économies sur les scénarios à contexte extrêmement long.

💡 Conseil d'optimisation tarifaire : Gemini 3.5 Flash propose un tarif d'entrée avec cache hit à 0,15 $ / 1M, idéal pour les longs system prompt et les scénarios RAG sur documents volumineux. Nous vous recommandons d'activer le prompt caching sur la plateforme APIYI apiyi.com pour réutiliser au maximum les instructions fixes, les extraits de bases de connaissances et l'historique des longues conversations, ce qui peut réduire le coût d'entrée de 1M de jetons au niveau du 3.1 Flash-Lite.

Benchmarks clés de Gemini 3.5 Flash : Comparaison réelle avec Gemini 3.1 Pro

L'une des données les plus contre-intuitives du lancement de Gemini 3.5 Flash est que "Flash surpasse Pro". La fiche technique officielle de Google et les tests indépendants de LLM-Stats le confirment : sur des tâches telles que les Agents, l'orchestration d'outils, le codage et l'analyse financière, les scores de la 3.5 Flash sont effectivement supérieurs à ceux du Gemini 3.1 Pro ; elle n'est légèrement inférieure au 3.1 Pro que dans le raisonnement académique pur (Humanity's Last Exam) et le raisonnement abstrait (ARC-AGI-2).

Le tableau ci-dessous résume les comparaisons de référence clés entre Gemini 3.5 Flash et Gemini 3.1 Pro, basées sur des données publiques officielles et tierces.

Benchmark	Gemini 3.5 Flash	Gemini 3.1 Pro	Écart	Capacité évaluée
Terminal-Bench 2.1	76,2 %	70,3 %	+5,9	Agent de codage terminal
MCP Atlas	83,6 %	78,2 %	+5,4	Appel d'outils MCP
Finance Agent v2	57,9 %	43,0 %	+14,9	Agent de documents financiers
GDPval-AA (Elo)	1656	1314	+342	Agent généraliste
CharXiv Reasoning	84,2 %	—	—	Raisonnement sur graphiques
Humanity's Last Exam	40,2 %	44,4 %	-4,2	Raisonnement académique pur
ARC-AGI-2	72,1 %	77,1 %	-5,0	Raisonnement abstrait
Vitesse de sortie	~ 284 jetons/s	Plus lent	—	Réponse en temps réel

Ces données envoient trois signaux clairs. Premièrement, le "dépassement" de Gemini 3.5 Flash se concentre sur les tâches d'appel d'outils et d'Agents ; l'écart de +14,9 sur Finance Agent v2 et de +342 Elo sur GDPval-AA est considérable. Deuxièmement, les connaissances statiques pures et le raisonnement abstrait restent les points forts des modèles Pro ; si votre charge de travail est orientée vers les concours de mathématiques, le raisonnement académique ou les problèmes de logique à longue chaîne, Gemini 3.5 Flash n'est pas forcément la solution optimale. Troisièmement, Google a en fait utilisé le modèle Flash pour effectuer une "redistribution des rôles dans la généalogie des modèles". Selon des informations provenant de l'étranger, Gemini 3.5 Pro devrait être publié le mois prochain, ce qui repoussera encore plus loin le plafond de la gamme Pro.

Il convient de souligner l'Artificial Analysis Intelligence Index (indice d'intelligence globale). Gemini 3.5 Flash obtient 55 points sur cet indice synthétique inter-benchmarks, à seulement 2 points de Claude Opus 4.7 et 5 points de GPT-5.5. Compte tenu du fait que le prix d'entrée de la 3.5 Flash est dix fois inférieur à celui de Claude Opus 4.7 et moins d'un tiers de celui de GPT-5.5, c'est l'un des modèles "proches du premier rang" les plus rentables actuellement. Nous vous suggérons de l'utiliser comme modèle d'Agent par défaut sur la plateforme APIYI apiyi.com, afin de réduire considérablement la charge opérationnelle liée à la répartition entre différents fournisseurs.

Analyse d'impact de Gemini 3.5 Flash : ce que cela signifie pour les développeurs

Cette sortie ne se résume pas à un simple ajout dans la liste des modèles disponibles. Google propose ici un hybride "Flash + Agent" capable de rivaliser avec les performances globales de GPT-5.5 et Claude Opus 4.7. Cela va redéfinir plusieurs flux de travail critiques pour les 1 à 2 trimestres à venir.

Impact direct sur les développeurs d'agents

Les équipes travaillant sur les agents sont les premiers bénéficiaires de Gemini 3.5 Flash. D'après les benchmarks, les améliorations simultanées sur Terminal-Bench 2.1 et MCP Atlas signifient que les goulots d'étranglement classiques, comme l'invocation d'outils en plusieurs étapes et la récupération après erreur, sont en nette amélioration. Le score de +14.9 sur Finance Agent v2 montre également des progrès significatifs dans le traitement de documents structurés. Des entreprises internationales comme Shopify, Macquarie Bank, Salesforce, Ramp, Xero et Databricks figurent déjà parmi les premiers partenaires de Google, couvrant des domaines tels que l'analyse de données, les documents financiers, l'automatisation d'entreprise, l'OCR de factures, les flux fiscaux et la surveillance de jeux de données. Si votre produit intègre un flux de type "lecture de document → invocation d'outil → sortie structurée", Gemini 3.5 Flash est un candidat à évaluer sans attendre.

Impact sur les applications RAG à longue fenêtre de contexte

Gemini 3.5 Flash conserve sa fenêtre de 1M d'entrées et 64K de sorties. Avec un coût de mise en cache des entrées à 0,15 $ / 1M de tokens, il rend le "RAG à très longue fenêtre de contexte" économiquement viable pour les SaaS grand public. À titre de référence : un préfixe de base de connaissances fixe de 500 000 tokens + une question utilisateur de 50 000 tokens coûte moins de 0,10 $ par inférence une fois la mise en cache activée, ce qui est bien inférieur aux coûts engendrés par le découpage du même contexte pour GPT-5.5 ou Claude Opus 4.7. Nous vous recommandons d'unifier vos chaînes RAG à longue fenêtre sur gemini-3.5-flash via APIYI (apiyi.com), où les stratégies de mise en cache peuvent directement réutiliser les implémentations existantes de l'interface Gemini.

Impact sur les stratégies de routage multi-modèles

Avec l'arrivée de Gemini 3.5 Flash, les stratégies de routage multi-modèles courantes doivent être repensées. La répartition traditionnelle "GPT pour le dialogue, Claude pour le code, Gemini pour le multimodal" est devenue obsolète, car Gemini 3.5 Flash est désormais compétitif sur ces trois fronts : agents de codage, invocation d'outils et entrées multimodales. Nous suggérons d'adopter gemini-3.5-flash comme nouveau "modèle de couche d'outils universel", tout en conservant GPT-5.5 Instant, Claude Opus 4.7 et Gemini 3.1 Pro comme renforts pour des tâches spécifiques. Grâce à l'interface unifiée d'APIYI (apiyi.com), vous pouvez effectuer ces changements de routage de modèles sans aucun coût technique.

Intégration et essai gratuit de Gemini 3.5 Flash sur APIYI

L'intégration de Gemini 3.5 Flash sur la plateforme APIYI (apiyi.com) est entièrement compatible avec OpenAI, ce qui signifie que les développeurs n'ont pas besoin de reconstruire leur logique d'authentification ou de routage. Les nouveaux utilisateurs reçoivent un crédit d'essai de 0,05 $ dès leur inscription, suffisant pour exécuter les exemples officiels et effectuer un test de régression complet de votre flux de travail Agent.

Exemple d'invocation minimaliste

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Vous êtes un ingénieur en orchestration d'agents."},
        {"role": "user", "content": "Veuillez planifier une chaîne d'outils pour extraire les tickets (issues) de GitHub et générer un rapport hebdomadaire."},
    ],
)
print(response.choices[0].message.content)

Voir l’invocation complète avec appel de fonction (function calling)

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "fetch_github_issues",
            "description": "Extraire la liste des tickets d'un dépôt spécifié",
            "parameters": {
                "type": "object",
                "properties": {
                    "repo": {"type": "string", "description": "propriétaire/dépôt"},
                    "state": {"type": "string", "enum": ["open", "closed", "all"]},
                },
                "required": ["repo"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "Aide-moi à consulter les nouveaux tickets ouverts cette semaine sur le dépôt anthropics/anthropic-cookbook"},
    ],
    tools=tools,
    tool_choice="auto",
)
print(response.choices[0].message)

💡 Conseil d'essai : Avec une tarification de 1,50 $ / 9 $ pour Gemini 3.5 Flash, le crédit de 0,05 $ permet environ 30 000 à 40 000 jetons en entrée ou 5 000 jetons en sortie. C'est largement suffisant pour tester vos invites (prompts) existantes sur APIYI. Nous vous recommandons d'utiliser ce crédit gratuit pour tester des tâches réelles plutôt que de simples exemples officiels, afin de mieux évaluer si le modèle "Flash surpasse Pro" dans votre cas d'usage.

Trois étapes pour l'intégration

Créez un compte sur APIYI (apiyi.com) et validez votre profil pour recevoir le crédit gratuit de 0,05 $.
Générez une clé API dans le tableau de bord, modifiez le base_url du SDK OpenAI en https://api.apiyi.com/v1 et définissez le champ model sur gemini-3.5-flash.
Réutilisez directement vos invites actuelles de GPT-5.5 Instant ou Gemini 3.1 Pro Preview pour comparer la qualité des réponses, la latence et la consommation de jetons.

FAQ sur Gemini 3.5 Flash

Q1 : Qui est le plus performant entre Gemini 3.5 Flash et Gemini 3.1 Pro Preview ?

Cela dépend du scénario. Pour les tâches d'agent et de codage (Terminal-Bench 2.1, MCP Atlas, Finance Agent v2, GDPval-AA), Gemini 3.5 Flash surpasse Gemini 3.1 Pro. En revanche, pour le raisonnement académique pur (Humanity's Last Exam) et le raisonnement abstrait (ARC-AGI-2), il est légèrement en retrait. Conclusion : les équipes travaillant sur des agents, des appels d'outils, du code ou du RAG sur documents longs devraient privilégier Gemini 3.5 Flash. Celles axées sur le raisonnement statique peuvent conserver la version 3.1 Pro. Vous pouvez effectuer un test comparatif sur APIYI avec votre crédit gratuit.

Q2 : Pourquoi Gemini 3.5 Flash n’a-t-il plus le suffixe « preview » ?

C'est le résultat de la nouvelle stratégie de publication de Google pour la série 3.5. Gemini 3.5 Flash est directement disponible en version GA (General Availability) sous l'identifiant gemini-3.5-flash (version interne 3.5-flash-05-2026). Il a passé les évaluations de sécurité et offre un SLA de niveau production. Contrairement à la version 3.1 Pro Preview, vous pouvez l'intégrer en toute confiance dans votre code de production sans craindre une suppression ou un changement soudain.

Q3 : Combien de requêtes Gemini 3.5 Flash puis-je effectuer avec 0,05 $ ?

Avec une tarification de 1,50 $ / 1M de jetons en entrée et 9 $ / 1M en sortie, 0,05 $ couvrent environ 30 000 jetons d'entrée et 1 500 jetons de sortie, soit environ 30 à 50 appels de conversation de longueur moyenne. Si vous activez la mise en cache des invites (prompt caching), les parties mises en cache sont facturées à 0,15 $ / 1M, ce qui prolonge encore davantage votre crédit gratuit.

Q4 : Gemini 3.5 Flash prend-il en charge les entrées vidéo et audio ?

Oui. Les modalités d'entrée de Gemini 3.5 Flash incluent le texte, l'image, l'audio et la vidéo (la sortie est uniquement textuelle). Notez que la vidéo et l'audio sont comptabilisés en jetons selon leur mode de traitement. L'interface d'APIYI expose déjà ces paramètres multimodaux, vous permettant de réutiliser votre code d'invocation existant pour Gemini 3.x.

Résumé : Gemini 3.5 Flash est la mise à jour de modèle la plus pertinente à évaluer en mai

Revenons sur ce fait contre-intuitif : le Gemini 3.5 Flash surpasse la génération précédente, Gemini 3.1 Pro, sur les tâches d'agent et de codage, tout en coûtant 25 % de moins que la version Pro. Avec une base de connaissances mise à jour jusqu'en janvier 2026 et une vitesse de génération annoncée comme étant 4 fois supérieure à celle des modèles de pointe de sa catégorie, c'est la mise à jour de modèle Google la plus intéressante à évaluer dès maintenant pour les équipes travaillant sur des agents, l'invocation d'outils, le RAG sur documents longs ou les flux de travail automatisés en entreprise.

Gemini 3.5 Flash est désormais disponible sur la plateforme APIYI (apiyi.com). Les nouveaux utilisateurs reçoivent un crédit gratuit de 0,05 $ à l'inscription, permettant de tester l'intégration sans aucun coût. Nous recommandons de l'intégrer en priorité dans la couche de planification d'outils de vos flux de travail d'agent. Grâce à l'interface compatible OpenAI d'APIYI (apiyi.com), vous pouvez non seulement bénéficier des dernières mises à jour de Google, mais aussi router vos requêtes de manière flexible entre différents modèles comme Claude Opus 4.7, GPT-5.5 Instant ou Gemini 3.1 Pro.

Auteur : Équipe technique APIYI · apiyi.com
Date de publication : 20 mai 2026
Références : Google AI for Developers, LLM-Stats, Artificial Analysis, Simon Willison Blog, Interesting Engineering, 9to5Google

Gemini 3.5 Flash API disponible sur APIYI : essai gratuit + vitesse multipliée par 4, analyse complète de 8 données d’évaluation

Qu'est-ce que Gemini 3.5 Flash : Le positionnement clé de la version officielle de Google

Aperçu des tarifs et de la fenêtre de contexte de Gemini 3.5 Flash

Benchmarks clés de Gemini 3.5 Flash : Comparaison réelle avec Gemini 3.1 Pro

Analyse d'impact de Gemini 3.5 Flash : ce que cela signifie pour les développeurs

Impact direct sur les développeurs d'agents

Impact sur les applications RAG à longue fenêtre de contexte

Impact sur les stratégies de routage multi-modèles

Intégration et essai gratuit de Gemini 3.5 Flash sur APIYI

Exemple d'invocation minimaliste

Trois étapes pour l'intégration

FAQ sur Gemini 3.5 Flash

Résumé : Gemini 3.5 Flash est la mise à jour de modèle la plus pertinente à évaluer en mai

Analyse du lancement de Gemini 3.1 Pro Preview : 3 améliorations clés et guide d’accès à l’API

掌握 Seedance 2.0 API 视频生成的 5 个核心能力：从文生视频到多模态创作完整指南

Guide complet du Mode Rapide Claude 4.6 : 3 façons de l’activer et l’utilisation correcte de l’accélération 6x

Interprétation de la garantie SLA de Nano Banana Pro : APIYI lance le premier plan de compensation en cas d’échec de génération d’images, récupérez vos coûts perdus en 3 étapes

5 méthodes pour résoudre les limites de débit d’AI Studio Gemini 3 Pro – Le guide complet 2026

OpenAI acquiert Astral : quel avenir pour les outils Python uv et ruff, utilisés par des millions d’utilisateurs

Qu'est-ce que Gemini 3.5 Flash : Le positionnement clé de la version officielle de Google

Aperçu des tarifs et de la fenêtre de contexte de Gemini 3.5 Flash

Benchmarks clés de Gemini 3.5 Flash : Comparaison réelle avec Gemini 3.1 Pro

Analyse d'impact de Gemini 3.5 Flash : ce que cela signifie pour les développeurs

Impact direct sur les développeurs d'agents

Impact sur les applications RAG à longue fenêtre de contexte

Impact sur les stratégies de routage multi-modèles

Intégration et essai gratuit de Gemini 3.5 Flash sur APIYI

Exemple d'invocation minimaliste

Trois étapes pour l'intégration

FAQ sur Gemini 3.5 Flash

Résumé : Gemini 3.5 Flash est la mise à jour de modèle la plus pertinente à évaluer en mai

Publications similaires