Anthropic Claude Managed Agents 三大新能力解析:Dreaming 让 Agent 更懂你
Anthropic 在 2026 年 5 月的 Code with Claude 大会上发布了 Managed Agents 三大重磅更新:Dreaming 主动记忆、Outcomes 精确评估、多智能体编排。本文解析这三个能力的核心技术原理、API 接入方式,以及对 AI Agent 开发者的实际影响。
声明: 本文所有事实均来自 Anthropic 官方发布页(anthropic.com/news/claude-code)及 Ars Technica、9to5Mac 2026 年 5 月报道,无任何未公开内部信息。
一、发生了什么
2026 年 5 月 6–7 日,Anthropic 在”Code with Claude”大会上为 Claude Managed Agents 推出三项重大平台级更新:
| 更新 | 核心功能 | 解决的问题 |
|---|---|---|
| Dreaming | 定时回顾历史会话,主动提取模式并丰富记忆 | Agent 越用越聪明,但此前无法主动学习 |
| Outcomes | 开发者精确定义「任务成功」的标准 | 告别模糊评估,自动化判断任务完成度 |
| Multi-agent Orchestration | 主 Agent 拆解任务并委托给专用子 Agent | 单 Agent 能力有上限,多 Agent 协作是未来 |
同场加映:Claude Code Pro/Max 用量限制翻倍,Opus 模型 API 限制上调。
二、Dreaming:Agent 主动「做梦想」
传统 Agent 的记忆困境
目前主流 Agent 的记忆机制是被动的:
- 用户说了什么 → 存入上下文窗口
- 会话结束 → 记忆消失(或依赖外部向量存储)
- 下次对话 → 从零开始,无法利用历史模
Dreaming 的解决思路
Dreaming 不是真的「做梦」,而是一种定时批处理式的记忆整合机制:
┌──────────────────────────────────────┐
│ 用户使用 Agent(N天内多次会话) │
└─────────────────┬────────────────────┘
↓
┌──────────────────────────────────────┐
│ Dreaming 触发(可配置时间/间隔) │
│ - 提取高频任务模式 │
│ - 识别用户偏好(编码风格、工具选择) │
│ - 发现常见错误模式 │
│ - 写入长期记忆向量存储 │
└─────────────────┬────────────────────┘
↓
┌──────────────────────────────────────┐
│ 下次会话:Agent 自动加载丰富记忆 │
│ 「上次用户处理 X 类任务时偏好 Y 方案」 │
└──────────────────────────────────────┘
API 接入方式
// Dreaming 配置示例
const agent = await client.beta.managedagents.sessions.create({
model: 'claude-opus-4-7',
dreaming: {
enabled: true,
// 每 24 小时或在 50 次交互后触发
triggerInterval: '24h',
triggerInteractions: 50,
memoryStore: {
type: 'vector',
// 可对接 Pinecone / Weaviate / Atlas Vector Search
endpoint: process.env.VECTOR_STORE_URL,
index: 'claude-agent-memories',
},
},
});
⚠️ Dreaming 功能目前处于 Beta,需在 Anthropic Console 中申请访问权限。
三、Outcomes:精确定义「任务成功」
为什么要 Outcomes
传统评估方式是「人工判断」或「简单规则」:
传统方式:
if (response.includes('success')) → 任务成功 ❌ 容易被 prompt 注入绕过
if (hasAttachment()) → 任务完成 ❌ 假阳性高
Outcomes 允许开发者用代码定义可量化的成功标准:
// Outcomes 定义示例
const outcomes = [
{
name: 'code-compiles',
description: '生成的代码必须能通过 TypeScript 编译',
evaluation: async ({ output, context }) => {
const tsResult = await compileTypescript(output.generatedCode);
return tsResult.success && tsResult.errorCount === 0;
},
weight: 2.0, // 权重更高
},
{
name: 'has-tests',
description: '必须包含至少 3 个单元测试',
evaluation: async ({ output }) => {
const testCount = extractTestCases(output.generatedCode);
return testCount >= 3;
},
weight: 1.0,
},
{
name: 'no-security-hotspots',
description: '不能包含硬编码密码或 API Key',
evaluation: async ({ output }) => {
return !containsCredentials(output.generatedCode);
},
weight: 1.5,
},
];
const run = await client.beta.managedagents.runs.create({
sessionId: agent.sessionId,
task: '实现一个用户认证中间件',
outcomes,
});
// 获取结构化评分
const result = await client.beta.managedagents.runs.wait(run.id);
console.log(result.outcomeScores);
// { 'code-compiles': true, 'has-tests': true, 'no-security-hotspots': true }
Outcomes 的实际价值
- 自动化评估:无需人工介入,CI/CD 流水线可直接集成
- 多维度评分:不同维度加权,告别单一 Pass/Fail
- 可追溯:每次运行的评分历史,用于 A/B 测试模型效果
四、多智能体编排(Multi-agent Orchestration)
适用场景
当单 Agent 遇到复杂任务时,手动拆解工作流费时费力。Multi-agent Orchestration 让主 Agent 自动判断「哪些子任务该委托给谁」:
// 主 Agent 配置
const orchestrator = await client.beta.managedagents.orchestration.create({
model: 'claude-opus-4-7',
agents: [
{
id: 'code-writer',
role: '代码编写专家',
systemPrompt: '你专门负责根据需求编写高质量代码...',
capabilities: ['code-generation', 'refactoring'],
},
{
id: 'test-engineer',
role: '测试工程师',
systemPrompt: '你专门负责编写全面的单元测试和集成测试...',
capabilities: ['test-generation', 'coverage-analysis'],
},
{
id: 'security-reviewer',
role: '安全审查员',
systemPrompt: '你专门负责审查代码中的安全漏洞...',
capabilities: ['security-analysis', 'vulnerability-detection'],
},
],
routingPolicy: 'automatic', // 主 Agent 自动决定委托对象
maxDelegations: 5, // 最多委托 5 次,防止无限循环
});
// 一个 prompt,主 Agent 自动拆解并委托
const result = await orchestrator.run({
task: '实现 JWT 认证中间件,包含完整的测试和安全审查',
});
与传统 Multi-agent 的区别
| 特性 | 传统 Multi-agent 框架(LangGraph 等) | Claude Orchestration |
|---|---|---|
| 路由逻辑 | 开发者手动定义 | 主 Agent 自动判断 |
| 记忆共享 | 各子 Agent 独立 | 统一记忆上下文,按需注入 |
| 容错机制 | 手动实现 | 自动重试 + Outcome 评估 |
| 接入成本 | 高(自建基础设施) | API 一行代码 |
五、用量限制更新
Anthropic 同步上调了 API 限制:
| 方案 | 变化 |
|---|---|
| Claude Code Pro | 每月 Max Turn 限制翻倍(原 500 → 1000) |
| Claude Code Max | 每月高速运行时间翻倍 |
| Opus 模型 API | Rate limit 上调,支持更高并发 |
六、NixAPI 接入路径
// 通过 NixAPI 接入 Claude Managed Agents
import { NixAPI } from '@nixapi/client';
const client = new NixAPI({
apiKey: process.env.NIXAPI_KEY,
provider: 'anthropic',
});
const agent = await client.managedAgents.sessions.create({
model: 'claude-opus-4-7',
dreaming: {
enabled: true,
triggerInterval: '24h',
},
});
// Outcomes 驱动的任务执行
const result = await client.managedAgents.runs.create({
sessionId: agent.id,
task: '为支付模块编写完整的单元测试',
outcomes: ['code-compiles', 'has-tests', 'no-security-hotspots'],
});
console.log(result.outcomeScores);
NixAPI 已支持 Claude Managed Agents 全系列 API,包括 Dreaming、Outcomes 和 Multi-agent Orchestration。
七、关键结论
| 能力 | 适合场景 | 当前状态 |
|---|---|---|
| Dreaming | 长期使用的个人助手、企业客服、数据分析 Agent | Beta,需申请 |
| Outcomes | CI/CD 集成、自动化评测、高可靠性 Agent 生产部署 | Beta,需申请 |
| Multi-agent Orchestration | 复杂任务分解、高并发 Agent 系统 | Beta,需申请 |
三个能力的共同指向是:让 Agent 从「单次执行工具」进化为「可学习、可评估、可协作的智能体」。对于 NixAPI 用户而言,这些能力意味着更强大的多模型路由场景——Dreaming 让路由策略越用越精准,Outcomes 让模型选择有据可依,Multi-agent 让复杂任务可分解到最优模型执行。
建议开发者现在申请 Beta 资格,并在受控环境中开始实验。