Gemini 3.5 Flash 正式发布 $1.50/M 定价分析 | NixAPI

Gemini 3.5 Flash 于 Google I/O 2026 正式 GA，定价 $1.50 输入 / $9 输出每百万 tokens，76.2% Terminal-Bench 2.1 超越 Gemini 3.1 Pro。本文深度解析定价、基准测试与新 Interactions API。

1. 核心定位：Gemini 3.5 Flash GA 正式发布

2026 年 5 月 19 日，Google I/O 2026 大会首日，Gemini 3.5 Flash 正式发布 GA 版本。这是 Gemini 3.5 系列的首款模型，定位为「史上最强 Flash」，专为代码编写与 Agent 任务优化。

核心参数一览：

指标	数值
GA 日期	2026-05-19
输入定价	$1.50 / 1M tokens
输出定价	$9.00 / 1M tokens
上下文窗口	1M tokens
速度	比肩型前沿模型的 4 倍

Gemini 3.5 Flash 已上线：Gemini APP、Google AI Studio、Antigravity、Gemini API，以及 Search 中的 AI Mode。

2. API 定价详解

Gemini 3.5 Flash 的定价极具竞争力：

模型	输入 ($/1M)	输出 ($/1M)	上下文
Gemini 3.5 Flash	$1.50	$9.00	1M
Gemini 3.1 Flash	$0.70	$1.00	1M
GPT-4o mini	$0.15	$0.60	128K
Claude 3.5 Haiku	$0.80	$4.00	200K

注：以上为官方公布价格，实际价格可能因用量阶梯、促销等因素有所不同。

定价分析： Gemini 3.5 Flash 的输出定价（$9/1M）高于前代 Gemini 3.1 Flash，但性能提升显著——Terminal-Bench 2.1 从未公开的分数跃升至 76.2%。对于需要高吞吐量 Agent 场景（如自动化流程、代码生成），$9 的输出成本换取 4 倍速度提升，实际性价比更高。

3. 基准测试解读

Gemini 3.5 Flash 在多项关键基准上刷新了 Flash 系列纪录：

Terminal-Bench 2.1

得分：76.2%，超越 Gemini 3.1 Pro。这是衡量 LLM 作为 CLI 助手能力的核心基准，涵盖文件操作、Git 任务、系统配置等真实开发场景。76.2% 意味着该模型已具备处理复杂、多步骤终端任务的能力。

其他关键基准

基准	得分	说明
MCP Atlas	83.6%	模型上下文协议任务处理
CharXiv Reasoning	84.2%	长程推理与学术文档理解
SWE-bench Verified	~78%（厂商披露）	软件工程真实 GitHub Issue 解决率

速度优势

Google 官方表示，Gemini 3.5 Flash 的推理速度是「可比的 frontier models」的 4 倍。对于需要低延迟响应的 Agent 场景（如实时辅助编程、自动化测试生成），这一优势尤为关键。

注意事项

Gemini 3.5 Flash 不具备 computer use 能力，即无法直接控制鼠标/键盘进行 GUI 操作。如果你需要自动化浏览器或桌面应用，请关注下月发布的 Gemini 3.5 Pro（现场引发现场倒嘘，暗示仍有提升空间）。

4. 代码示例

Python（使用 google-genai SDK）

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemini-3.5-flash-0520",
    contents="解释一下什么是 MCP (Model Context Protocol)，并给出一个 Python 实现示例。",
    config=types.GenerateContentConfig(
        temperature=0.7,
        max_output_tokens=2048,
    )
)

print(response.text)

Node.js（使用 @google/generative-ai）

const { GoogleGenerativeAI } = require('@google/generative-ai');

const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);

async function main() {
  const model = genAI.getGenerativeModel({ model: 'gemini-3.5-flash-0520' });

  const result = await model.generateContent({
    contents: [{ role: 'user', parts: [{ text: '用 Python 写一个快速排序' }] }],
    generationConfig: {
      temperature: 0.3,
      maxOutputTokens: 1024,
    },
  });

  console.log(result.response.text());
}

main();

5. Interactions API 解读（Beta）

Gemini 3.5 Flash 还带来了全新的 Interactions API（Beta），这是本次发布中最值得关注的新特性之一。

核心定位

Interactions API 解决了一个长期痛点：服务端历史管理。传统方案中，开发者需要在客户端维护完整的对话历史，并在每次请求时发送全部上下文——这对长对话和高并发场景是巨大的资源浪费。

工作原理

客户端                          服务端
  |                               |
  |-- create interaction --------->|  创建交互会话
  |<-- interaction_id -------------|  返回会话 ID
  |
  |-- add turn -------------------->|  添加对话轮次
  |<-- model response -------------|  返回模型回复
  |
  |-- add turn -------------------->|  继续对话（无需携带历史）
  |<-- model response -------------|  服务端自动维护历史

与 OpenAI Responses API 的对比

特性	Gemini Interactions API	OpenAI Responses API
会话管理	服务端	服务端
API 类型	Beta	正式版
多模态支持	是	是
上下文窗口	1M	128K
状态管理	interaction_id	response_id

使用示例

# 创建交互会话
interaction = client.interactions.create(
    model="gemini-3.5-flash-0520",
    system_instruction="你是一个专业的 Python 后端开发助手。"
)
interaction_id = interaction.id

# 添加对话轮次（服务端维护历史，无需重复发送）
response = client.interactions.add_turn(
    interaction_id=interaction_id,
    user_message="如何用 FastAPI 实现 JWT 认证？"
)
print(response.model_response)

6. 开发者建议

适合场景

代码生成与辅助编程：Terminal-Bench 76.2%、SWE-bench ~78%，已接近专业开发者水平。
高吞吐量 Agent 流程：4 倍速度优势 + 1M 上下文，适合自动化多步骤任务。
长程推理与文档分析：CharXiv Reasoning 84.2%，长文档理解能力出色。
需要服务端会话管理的应用：Interactions API 简化了状态管理。

不适合场景

需要 GUI 自动化（computer use）：请等待未来版本或考虑 Claude。
超低成本规模化调用：GPT-4o mini 的输入成本仍更低，适合简单任务。

行动建议

立即测试：Gemini 3.5 Flash 已全面上线，可在 Google AI Studio 免费体验。
关注 Pro 版本：Gemini 3.5 Pro 将于 6 月发布，预计将带来更强大的综合能力。
集成到 CI/CD：利用其速度优势，将代码审查、测试生成等任务自动化。

更多 AI API 评测与开发者指南，关注 NixAPI Blog。

Gemini 3.5 Flash 正式发布：API 定价 $1.50/M，性价比之王来了