|

Gemini 3.5 Flash API 上线 API易:免费试用 + 4x 速度 8 大测评数据完整解读

2026 年 5 月 19 日,Google 在 I/O 2026 大会上正式发布 Gemini 3.5 Flash,这是 Gemini 3.5 系列的首个公开模型,API ID 直接采用 gemini-3.5-flash,没有 preview 后缀,意味着它已经是 GA(正式可用)状态而不是预览版。同一天,API易(apiyi.com)平台同步完成接入,开发者可以通过 OpenAI 兼容接口直接调用 Gemini 3.5 Flash 部署到自家产品,新用户注册即赠送 0.05 美金免费额度,可以零成本完成接入测试。

gemini-3-5-flash-api-launch-on-apiyi 图示

Gemini 3.5 Flash 最让外网开发者震惊的是这一次的"Flash 反超 Pro"现象:它在 Terminal-Bench 2.1、MCP Atlas、Finance Agent v2、GDPval-AA 等多项 Agent 与编码基准上,实测得分高于上一代旗舰 Gemini 3.1 Pro,而输出速度官方称是同档前沿模型的约 4 倍。对于运行编码 Agent、工具调用工作流、长文档处理的团队,这是 5 月最值得立刻评估的一次模型升级。我们建议先通过 API易 apiyi.com 的免费额度跑一遍你自己的真实任务,再决定是否把生产线上的默认 Flash 切换到 3.5 版本。

Gemini 3.5 Flash 是什么:Google 正式版的核心定位

Gemini 3.5 Flash 是 Google DeepMind 在 Gemini 3.5 家族中率先发布的轻量旗舰版本,定位于"Agentic Flash":在保留 Flash 系列低延迟、高吞吐特性的同时,把上一代 Pro 模型才有的工具编排与多步推理能力下放到 Flash 档。Google 在发布会上强调,3.5 Flash 是它们目前最强的 Agent 编排模型,被同步部署到 Gemini 应用、Google Search 的 AI Mode、Google Antigravity、Google AI Studio 以及企业云端。

这次发布有四个最关键的官方信息点。第一,模型 ID 没有 preview 后缀,内部版本号是 3.5-flash-05-2026,意味着它直接以 GA 形态对外提供,不再走预览模型的灰度通道。第二,Dynamic Thinking(动态思考)默认开启,模型会自动判断当前问题是否需要展开思考链路,不再要求开发者手动切换 thinking budget。第三,工具能力默认齐全,function calling、结构化输出、Search-as-a-Tool、Code Execution 全部可用,适合直接接入复杂 Agent。第四,知识截止时间推到 2026 年 1 月,是目前主流闭源模型里最新的知识库之一。

下表汇总了 Gemini 3.5 Flash 的核心规格,所有数据来源于 Google AI for Developers 官方文档与 LLM-Stats、Artificial Analysis 的英文实测数据。

参数项 Gemini 3.5 Flash 取值 备注
发布日期 2026 年 5 月 19 日 Google I/O 2026 主题演讲
模型 ID gemini-3.5-flash 正式版,无 preview 后缀
内部版本号 3.5-flash-05-2026 与 Google AI Studio 一致
主打定位 Agentic Flash · 工具编排 + 编码 Flash 反超 3.1 Pro 多项 Agent 测评
上下文窗口 1,048,576 输入 token / 65,536 输出 token 即 1M / 64K
输入模态 文本 + 图像 + 音频 + 视频 输出仅文本
动态思考 默认开启 无需手动配置 thinking budget
工具能力 function calling / 结构化输出 / Search-as-a-Tool / Code Execution 完整 Agent 工具栈
知识截止 2026 年 1 月 与 GPT-5.5、Claude Opus 4.7 同一时代
API 接入 OpenAI 兼容 / Gemini 原生接口 API易 apiyi.com 同时支持两种调用方式

🎯 接入建议:Gemini 3.5 Flash 的最大变化是把"轻量模型 + 工具调用"做成默认能力,因此最高性价比的接入方式不是单点替换,而是把它放在 Agent 工作流的"工具调度层"。我们建议通过 API易 apiyi.com 平台的统一接口拿到 0.05 美金免费额度,先把现有的 GPT-5.5 Instant / Claude Haiku 4.5 / Gemini 3.1 Flash 工作流直接切到 gemini-3.5-flash 跑一轮回归测试,再决定是否进入生产。

Gemini 3.5 Flash 价格与上下文窗口规格速览

Gemini 3.5 Flash 的定价是这次发布的另一个核心争议点。Google 把 Flash 系列的价格从 3 Flash Preview 的 $0.50 / $4 一路抬到 3.5 Flash 的 $1.50 / $9,接近 Gemini 3.1 Pro 的 $2 / $12 价位。Simon Willison 在英文社区的解读认为,这是 Google 在"测试 API 客户的价格容忍度",同时也意味着 3.5 Flash 的目标不是更便宜,而是用 Flash 档的成本提供 Pro 档的智能。

下表把 Gemini 3.5 Flash 的官方定价与同档主流模型放在一起对比,帮助你判断它在你的工作负载上是否划算。所有价格均为每 100 万 token 美金计价。

模型 输入价格 输出价格 缓存命中输入 上下文窗口
Gemini 3.5 Flash $1.50 $9.00 $0.15 1M / 64K 输出
Gemini 3.1 Pro $2.00 $12.00 $0.20 1M / 64K 输出
Gemini 3.1 Flash-Lite $0.25 $1.50 $0.025 1M / 64K 输出
GPT-5.5(主模型) $5.00 $30.00 $0.50 400K 输入
Claude Opus 4.7(1M) $15.00 $75.00 $1.50 1M 输入

注意三个关键比较点。一是相比同厂的 Gemini 3.1 Pro,Gemini 3.5 Flash 价格便宜 25%,但在编码与 Agent 测评里反而更强,因此对 Pro 用户来说是一次明确的"降价升级"机会。二是相比 GPT-5.5,Gemini 3.5 Flash 单 token 价格不到三分之一,在 Artificial Analysis Intelligence Index 上得分仅差 5 分,适合作为成本敏感的对话与 Agent 主模型。三是相比 Claude Opus 4.7,Gemini 3.5 Flash 综合智能仅低 2 分,但每百万 token 总成本不到十分之一,极端长上下文场景能省下大量预算。

💡 价格优化建议:Gemini 3.5 Flash 提供了 $0.15 / 1M 的缓存命中输入价,适合长 system prompt 与长文档 RAG 场景。我们建议在 API易 apiyi.com 平台开启 prompt caching,把固定指令、知识库片段、长会话历史尽量复用,可以把 1M token 输入成本进一步压到与 3.1 Flash-Lite 同级。

Gemini 3.5 Flash 关键基准测试:实测对比 Gemini 3.1 Pro

Gemini 3.5 Flash 发布最反直觉的一组数据,就是"Flash 反超 Pro"。Google 官方 model card 与 LLM-Stats 的英文实测都验证了这一点:在 Agent、工具编排、编码、金融分析等任务上,3.5 Flash 的得分实际上高于 Gemini 3.1 Pro;只有在纯学术推理(Humanity's Last Exam)与抽象推理(ARC-AGI-2)上略低于 3.1 Pro。

下表汇总了 Gemini 3.5 Flash 与 Gemini 3.1 Pro 的关键基准对比,数据全部取自 Google 官方与第三方公开评测。

基准测试 Gemini 3.5 Flash Gemini 3.1 Pro 差距 主要考察能力
Terminal-Bench 2.1 76.2% 70.3% +5.9 终端编码 Agent
MCP Atlas 83.6% 78.2% +5.4 MCP 工具调用
Finance Agent v2 57.9% 43.0% +14.9 金融文档 Agent
GDPval-AA(Elo) 1656 1314 +342 通用 Agent 综合
CharXiv Reasoning 84.2% 图表推理
Humanity's Last Exam 40.2% 44.4% -4.2 纯学术推理
ARC-AGI-2 72.1% 77.1% -5.0 抽象模式推理
输出速度 约 284 token/s 较慢 实时响应

gemini-3-5-flash-api-launch-on-apiyi 图示

这组数据传递三个明确信号。首先,Gemini 3.5 Flash 的"反超"集中在工具调用与 Agent 任务上,Finance Agent v2 的 +14.9 与 GDPval-AA 的 +342 Elo 是非常可观的跨度;其次,纯静态知识与抽象推理仍然是 Pro 模型的强项,如果你的负载偏向数学竞赛、学术推理、长链条逻辑题,Gemini 3.5 Flash 不一定是最优解;第三,Google 这次实际上是用 Flash 模型完成了"模型谱系再分工",未来 Gemini 3.5 Pro 据外网消息将在下个月发布,会进一步拉开 Pro 档的天花板。

值得单独强调的是 Artificial Analysis Intelligence Index(综合智能指数)。Gemini 3.5 Flash 在这项跨基准合成指数上得到 55 分,与 Claude Opus 4.7 仅差 2 分、与 GPT-5.5 仅差 5 分。考虑到 3.5 Flash 的输入价格只有 Claude Opus 4.7 的十分之一、GPT-5.5 的三分之一不到,这是当前性价比最高的"接近第一梯队"模型之一。我们建议把它当作 API易 apiyi.com 平台上的默认 Agent 模型试用,大量减少跨厂商分流的运维负担。

Gemini 3.5 Flash 影响分析:对开发者意味着什么

这次发布的影响不只是又多一个模型可选,而是 Google 在"Flash + Agent"路线上拿出了一个能够对标 GPT-5.5、Claude Opus 4.7 的综合体。它会重塑接下来 1-2 个季度的几个关键工作流。

gemini-3-5-flash-api-launch-on-apiyi 图示

对 Agent 开发者的直接影响

Agent 团队是 Gemini 3.5 Flash 最直接的受益者。从基准看,Terminal-Bench 2.1 与 MCP Atlas 的双双提升意味着"多步骤工具调用 + 错误恢复"这一类传统瓶颈得到改善;Finance Agent v2 的 +14.9 则说明它在结构化文档处理上有明显进步。Shopify、Macquarie Bank、Salesforce、Ramp、Xero、Databricks 等海外企业已经被 Google 列为首批合作客户,场景覆盖数据分析、财务文档、企业自动化、发票 OCR、税务工作流、数据集监控。如果你的产品里有"读文档 → 调工具 → 输出结构化结果"的工作流,Gemini 3.5 Flash 几乎是必须立即评估的候选。

对长上下文 RAG 应用的影响

Gemini 3.5 Flash 仍然保留 1M 输入 + 64K 输出的窗口,加上 $0.15 / 1M 的缓存命中输入价,实际上把"百万级长上下文 RAG"的成本拉到了消费级 SaaS 可承受的水平。一个常见参考是:50 万 token 的固定知识库前缀 + 5 万 token 的用户问题,缓存命中后单次推理输入成本不到 0.1 美金,远低于把同样上下文拆给 GPT-5.5 或 Claude Opus 4.7 的开销。建议在 API易 apiyi.com 把长上下文 RAG 链路统一接到 gemini-3.5-flash,缓存策略可以直接复用现有的 Gemini 接口实现。

对多模型路由策略的影响

Gemini 3.5 Flash 上线之后,主流多模型路由策略需要重新设计。过去常见的"GPT 走对话、Claude 走代码、Gemini 走多模态"分工被打破了,因为 Gemini 3.5 Flash 在编码 Agent、工具调用、多模态输入三件事上同时具备竞争力。我们建议先把 gemini-3.5-flash 作为新的"通用工具层模型",再保留 GPT-5.5 Instant、Claude Opus 4.7、Gemini 3.1 Pro 作为特定任务的补强,通过 API易 apiyi.com 的统一接口可以零成本完成模型路由切换。

Gemini 3.5 Flash 在 API易 的接入方式与免费试用

Gemini 3.5 Flash 在 API易 apiyi.com 平台上的接入与 OpenAI 完全兼容,开发者无需重新搭建鉴权或路由逻辑。新用户注册即赠送 0.05 美金试用额度,可用于完整跑通官方示例并完成一次完整的 Agent 工作流回归测试。

极简调用示例

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "你是一名 Agent 编排工程师。"},
        {"role": "user", "content": "请规划一个从 GitHub 拉取 issue 并生成周报的工具链。"},
    ],
)
print(response.choices[0].message.content)
查看带 function calling 的完整调用
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "fetch_github_issues",
            "description": "拉取指定仓库的 issue 列表",
            "parameters": {
                "type": "object",
                "properties": {
                    "repo": {"type": "string", "description": "owner/repo"},
                    "state": {"type": "string", "enum": ["open", "closed", "all"]},
                },
                "required": ["repo"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "帮我看下 anthropics/anthropic-cookbook 仓库本周新开的 issue"},
    ],
    tools=tools,
    tool_choice="auto",
)
print(response.choices[0].message)

💡 试用建议:0.05 美金额度按 Gemini 3.5 Flash 的 $1.50 / $9 定价,大约可以跑 3-4 万 token 输入或 5000 token 输出,足够把现有 Prompt 在 API易 apiyi.com 上完整回放一遍。我们建议优先用免费额度跑一组真实任务,而不是只测官方示例,这样能更准确判断在你业务上是否真的"Flash 反超 Pro"。

三步完成接入

  1. 在 API易 apiyi.com 注册账号,完成新用户验证后即可领取 0.05 美金免费额度。
  2. 在控制台生成 API Key,把 OpenAI SDK 的 base_url 改为 https://api.apiyi.com/v1,model 字段填入 gemini-3.5-flash
  3. 把现有 GPT-5.5 Instant 或 Gemini 3.1 Pro Preview 的真实 Prompt 直接复用,逐项对比响应质量、延迟与 token 消耗。

Gemini 3.5 Flash 常见问题 FAQ

Q1:Gemini 3.5 Flash 与 Gemini 3.1 Pro Preview 到底谁更强?

要分场景看。在 Terminal-Bench 2.1、MCP Atlas、Finance Agent v2、GDPval-AA 等 Agent 与编码任务上,Gemini 3.5 Flash 实测高于 Gemini 3.1 Pro;但在 Humanity's Last Exam(纯学术推理)和 ARC-AGI-2(抽象推理)上略低于 3.1 Pro。结论是:做 Agent、工具调用、代码、长文档 RAG 的团队应优先选择 Gemini 3.5 Flash;以纯静态推理或学术评测为主要目标的团队仍可保留 3.1 Pro。可以直接在 API易 apiyi.com 用免费额度做一次回归对比。

Q2:Gemini 3.5 Flash 为什么不再带 preview 后缀?

这是 Google 在 3.5 系列上调整模型发布策略的结果。3.5 Flash 直接以 GA(正式可用)形态对外,模型 ID 是 gemini-3.5-flash,内部版本 3.5-flash-05-2026,意味着已通过完整的安全评估并具备生产级 SLA。这与上一代 Gemini 3.1 Pro Preview 的灰度发布路径不同,开发者可以放心把它写入生产代码,无需担心 preview 被随时切换或下线。

Q3:0.05 美金试用额度可以跑多少 Gemini 3.5 Flash 请求?

按 $1.50 / 1M 输入与 $9 / 1M 输出计价,0.05 美金大约可以覆盖 3 万 token 输入加 1500 token 输出,也就是相当于 30-50 次中等长度的对话调用,足够把现有 Prompt 在 API易 apiyi.com 上跑一遍真实任务。如果开启 prompt caching,缓存命中部分按 $0.15 / 1M 计价,免费额度还能进一步延长。

Q4:Gemini 3.5 Flash 支持视频和音频输入吗?

支持。Gemini 3.5 Flash 的输入模态包含文本、图像、音频与视频,输出仅文本。需要注意视频与音频会按 token 化方式计入输入费用,API易 apiyi.com 的接入接口已经完整暴露这些模态参数,可以直接复用现有 Gemini 3.x 的多模态调用代码。

总结:Gemini 3.5 Flash 是 5 月最值得评估的模型升级

回到开头那个最反直觉的事实:Gemini 3.5 Flash 在 Agent 与编码任务上反超了上一代 Gemini 3.1 Pro,而价格只有 Pro 的 75%、知识截止时间更新到 2026 年 1 月、输出速度据官方测算是同档前沿模型的 4 倍。对运行 Agent、工具调用、长文档 RAG、企业自动化工作流的团队而言,这是 2026 年上半年最值得立即评估的一次 Google 模型升级。

Gemini 3.5 Flash 现已在 API易(apiyi.com)平台上线,新用户注册即赠送 0.05 美金免费额度,可以零成本完成接入测试。我们建议优先把它放在 Agent 工作流的工具调度层,通过 API易 apiyi.com 的 OpenAI 兼容接口直接接入,既能享受 Google 第一手的模型升级,又能在 Claude Opus 4.7、GPT-5.5 Instant、Gemini 3.1 Pro 等模型之间灵活路由。


作者:API易 技术团队 · apiyi.com
发布时间:2026 年 5 月 20 日
参考资料:Google AI for Developers、LLM-Stats、Artificial Analysis、Simon Willison Blog、Interesting Engineering、9to5Google

类似文章