Gemini 3.5 Flash 正式发布:API 定价 $1.50/M,性价比之王来了
Gemini 3.5 Flash 于 Google I/O 2026 正式 GA,定价 $1.50 输入 / $9 输出每百万 tokens,76.2% Terminal-Bench 2.1 超越 Gemini 3.1 Pro。本文深度解析定价、基准测试与新 Interactions API。
1. 核心定位:Gemini 3.5 Flash GA 正式发布
2026 年 5 月 19 日,Google I/O 2026 大会首日,Gemini 3.5 Flash 正式发布 GA 版本。这是 Gemini 3.5 系列的首款模型,定位为「史上最强 Flash」,专为代码编写与 Agent 任务优化。
核心参数一览:
| 指标 | 数值 |
|---|---|
| GA 日期 | 2026-05-19 |
| 输入定价 | $1.50 / 1M tokens |
| 输出定价 | $9.00 / 1M tokens |
| 上下文窗口 | 1M tokens |
| 速度 | 比肩型前沿模型的 4 倍 |
Gemini 3.5 Flash 已上线:Gemini APP、Google AI Studio、Antigravity、Gemini API,以及 Search 中的 AI Mode。
2. API 定价详解
Gemini 3.5 Flash 的定价极具竞争力:
| 模型 | 输入 ($/1M) | 输出 ($/1M) | 上下文 |
|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 1M |
| Gemini 3.1 Flash | $0.70 | $1.00 | 1M |
| GPT-4o mini | $0.15 | $0.60 | 128K |
| Claude 3.5 Haiku | $0.80 | $4.00 | 200K |
注:以上为官方公布价格,实际价格可能因用量阶梯、促销等因素有所不同。
定价分析: Gemini 3.5 Flash 的输出定价($9/1M)高于前代 Gemini 3.1 Flash,但性能提升显著——Terminal-Bench 2.1 从未公开的分数跃升至 76.2%。对于需要高吞吐量 Agent 场景(如自动化流程、代码生成),$9 的输出成本换取 4 倍速度提升,实际性价比更高。
3. 基准测试解读
Gemini 3.5 Flash 在多项关键基准上刷新了 Flash 系列纪录:
Terminal-Bench 2.1
得分:76.2%,超越 Gemini 3.1 Pro。这是衡量 LLM 作为 CLI 助手能力的核心基准,涵盖文件操作、Git 任务、系统配置等真实开发场景。76.2% 意味着该模型已具备处理复杂、多步骤终端任务的能力。
其他关键基准
| 基准 | 得分 | 说明 |
|---|---|---|
| MCP Atlas | 83.6% | 模型上下文协议任务处理 |
| CharXiv Reasoning | 84.2% | 长程推理与学术文档理解 |
| SWE-bench Verified | ~78%(厂商披露) | 软件工程真实 GitHub Issue 解决率 |
速度优势
Google 官方表示,Gemini 3.5 Flash 的推理速度是「可比的 frontier models」的 4 倍。对于需要低延迟响应的 Agent 场景(如实时辅助编程、自动化测试生成),这一优势尤为关键。
注意事项
Gemini 3.5 Flash 不具备 computer use 能力,即无法直接控制鼠标/键盘进行 GUI 操作。如果你需要自动化浏览器或桌面应用,请关注下月发布的 Gemini 3.5 Pro(现场引发现场倒嘘,暗示仍有提升空间)。
4. 代码示例
Python(使用 google-genai SDK)
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.5-flash-0520",
contents="解释一下什么是 MCP (Model Context Protocol),并给出一个 Python 实现示例。",
config=types.GenerateContentConfig(
temperature=0.7,
max_output_tokens=2048,
)
)
print(response.text)
Node.js(使用 @google/generative-ai)
const { GoogleGenerativeAI } = require('@google/generative-ai');
const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);
async function main() {
const model = genAI.getGenerativeModel({ model: 'gemini-3.5-flash-0520' });
const result = await model.generateContent({
contents: [{ role: 'user', parts: [{ text: '用 Python 写一个快速排序' }] }],
generationConfig: {
temperature: 0.3,
maxOutputTokens: 1024,
},
});
console.log(result.response.text());
}
main();
5. Interactions API 解读(Beta)
Gemini 3.5 Flash 还带来了全新的 Interactions API(Beta),这是本次发布中最值得关注的新特性之一。
核心定位
Interactions API 解决了一个长期痛点:服务端历史管理。传统方案中,开发者需要在客户端维护完整的对话历史,并在每次请求时发送全部上下文——这对长对话和高并发场景是巨大的资源浪费。
工作原理
客户端 服务端
| |
|-- create interaction --------->| 创建交互会话
|<-- interaction_id -------------| 返回会话 ID
|
|-- add turn -------------------->| 添加对话轮次
|<-- model response -------------| 返回模型回复
|
|-- add turn -------------------->| 继续对话(无需携带历史)
|<-- model response -------------| 服务端自动维护历史
与 OpenAI Responses API 的对比
| 特性 | Gemini Interactions API | OpenAI Responses API |
|---|---|---|
| 会话管理 | 服务端 | 服务端 |
| API 类型 | Beta | 正式版 |
| 多模态支持 | 是 | 是 |
| 上下文窗口 | 1M | 128K |
| 状态管理 | interaction_id | response_id |
使用示例
# 创建交互会话
interaction = client.interactions.create(
model="gemini-3.5-flash-0520",
system_instruction="你是一个专业的 Python 后端开发助手。"
)
interaction_id = interaction.id
# 添加对话轮次(服务端维护历史,无需重复发送)
response = client.interactions.add_turn(
interaction_id=interaction_id,
user_message="如何用 FastAPI 实现 JWT 认证?"
)
print(response.model_response)
6. 开发者建议
适合场景
- 代码生成与辅助编程:Terminal-Bench 76.2%、SWE-bench ~78%,已接近专业开发者水平。
- 高吞吐量 Agent 流程:4 倍速度优势 + 1M 上下文,适合自动化多步骤任务。
- 长程推理与文档分析:CharXiv Reasoning 84.2%,长文档理解能力出色。
- 需要服务端会话管理的应用:Interactions API 简化了状态管理。
不适合场景
- 需要 GUI 自动化(computer use):请等待未来版本或考虑 Claude。
- 超低成本规模化调用:GPT-4o mini 的输入成本仍更低,适合简单任务。
行动建议
- 立即测试:Gemini 3.5 Flash 已全面上线,可在 Google AI Studio 免费体验。
- 关注 Pro 版本:Gemini 3.5 Pro 将于 6 月发布,预计将带来更强大的综合能力。
- 集成到 CI/CD:利用其速度优势,将代码审查、测试生成等任务自动化。
更多 AI API 评测与开发者指南,关注 NixAPI Blog。