Anthropic Claude Managed Agents 三大新能力解析:Dreaming 让 Agent 更懂你

Anthropic 在 2026 年 5 月的 Code with Claude 大会上发布了 Managed Agents 三大重磅更新:Dreaming 主动记忆、Outcomes 精确评估、多智能体编排。本文解析这三个能力的核心技术原理、API 接入方式,以及对 AI Agent 开发者的实际影响。

NixAPI Team 2026年5月8日 约17 分钟阅读
Anthropic Claude Managed Agents 三大新能力解析

声明: 本文所有事实均来自 Anthropic 官方发布页(anthropic.com/news/claude-code)及 Ars Technica、9to5Mac 2026 年 5 月报道,无任何未公开内部信息。


一、发生了什么

2026 年 5 月 6–7 日,Anthropic 在”Code with Claude”大会上为 Claude Managed Agents 推出三项重大平台级更新:

更新核心功能解决的问题
Dreaming定时回顾历史会话,主动提取模式并丰富记忆Agent 越用越聪明,但此前无法主动学习
Outcomes开发者精确定义「任务成功」的标准告别模糊评估,自动化判断任务完成度
Multi-agent Orchestration主 Agent 拆解任务并委托给专用子 Agent单 Agent 能力有上限,多 Agent 协作是未来

同场加映:Claude Code Pro/Max 用量限制翻倍,Opus 模型 API 限制上调。


二、Dreaming:Agent 主动「做梦想」

传统 Agent 的记忆困境

目前主流 Agent 的记忆机制是被动的:

  • 用户说了什么 → 存入上下文窗口
  • 会话结束 → 记忆消失(或依赖外部向量存储)
  • 下次对话 → 从零开始,无法利用历史模

Dreaming 的解决思路

Dreaming 不是真的「做梦」,而是一种定时批处理式的记忆整合机制

┌──────────────────────────────────────┐
│  用户使用 Agent(N天内多次会话)        │
└─────────────────┬────────────────────┘

┌──────────────────────────────────────┐
│  Dreaming 触发(可配置时间/间隔)       │
│  - 提取高频任务模式                   │
│  - 识别用户偏好(编码风格、工具选择)    │
│  - 发现常见错误模式                  │
│  - 写入长期记忆向量存储               │
└─────────────────┬────────────────────┘

┌──────────────────────────────────────┐
│  下次会话:Agent 自动加载丰富记忆       │
│  「上次用户处理 X 类任务时偏好 Y 方案」   │
└──────────────────────────────────────┘

API 接入方式

// Dreaming 配置示例
const agent = await client.beta.managedagents.sessions.create({
  model: 'claude-opus-4-7',
  dreaming: {
    enabled: true,
    // 每 24 小时或在 50 次交互后触发
    triggerInterval: '24h',
    triggerInteractions: 50,
    memoryStore: {
      type: 'vector',
      // 可对接 Pinecone / Weaviate / Atlas Vector Search
      endpoint: process.env.VECTOR_STORE_URL,
      index: 'claude-agent-memories',
    },
  },
});

⚠️ Dreaming 功能目前处于 Beta,需在 Anthropic Console 中申请访问权限。


三、Outcomes:精确定义「任务成功」

为什么要 Outcomes

传统评估方式是「人工判断」或「简单规则」:

传统方式:
if (response.includes('success')) → 任务成功  ❌ 容易被 prompt 注入绕过
if (hasAttachment()) → 任务完成  ❌ 假阳性高

Outcomes 允许开发者用代码定义可量化的成功标准

// Outcomes 定义示例
const outcomes = [
  {
    name: 'code-compiles',
    description: '生成的代码必须能通过 TypeScript 编译',
    evaluation: async ({ output, context }) => {
      const tsResult = await compileTypescript(output.generatedCode);
      return tsResult.success && tsResult.errorCount === 0;
    },
    weight: 2.0, // 权重更高
  },
  {
    name: 'has-tests',
    description: '必须包含至少 3 个单元测试',
    evaluation: async ({ output }) => {
      const testCount = extractTestCases(output.generatedCode);
      return testCount >= 3;
    },
    weight: 1.0,
  },
  {
    name: 'no-security-hotspots',
    description: '不能包含硬编码密码或 API Key',
    evaluation: async ({ output }) => {
      return !containsCredentials(output.generatedCode);
    },
    weight: 1.5,
  },
];

const run = await client.beta.managedagents.runs.create({
  sessionId: agent.sessionId,
  task: '实现一个用户认证中间件',
  outcomes,
});

// 获取结构化评分
const result = await client.beta.managedagents.runs.wait(run.id);
console.log(result.outcomeScores);
// { 'code-compiles': true, 'has-tests': true, 'no-security-hotspots': true }

Outcomes 的实际价值

  • 自动化评估:无需人工介入,CI/CD 流水线可直接集成
  • 多维度评分:不同维度加权,告别单一 Pass/Fail
  • 可追溯:每次运行的评分历史,用于 A/B 测试模型效果

四、多智能体编排(Multi-agent Orchestration)

适用场景

当单 Agent 遇到复杂任务时,手动拆解工作流费时费力。Multi-agent Orchestration 让主 Agent 自动判断「哪些子任务该委托给谁」:

// 主 Agent 配置
const orchestrator = await client.beta.managedagents.orchestration.create({
  model: 'claude-opus-4-7',
  agents: [
    {
      id: 'code-writer',
      role: '代码编写专家',
      systemPrompt: '你专门负责根据需求编写高质量代码...',
      capabilities: ['code-generation', 'refactoring'],
    },
    {
      id: 'test-engineer',
      role: '测试工程师',
      systemPrompt: '你专门负责编写全面的单元测试和集成测试...',
      capabilities: ['test-generation', 'coverage-analysis'],
    },
    {
      id: 'security-reviewer',
      role: '安全审查员',
      systemPrompt: '你专门负责审查代码中的安全漏洞...',
      capabilities: ['security-analysis', 'vulnerability-detection'],
    },
  ],
  routingPolicy: 'automatic', // 主 Agent 自动决定委托对象
  maxDelegations: 5,         // 最多委托 5 次,防止无限循环
});

// 一个 prompt,主 Agent 自动拆解并委托
const result = await orchestrator.run({
  task: '实现 JWT 认证中间件,包含完整的测试和安全审查',
});

与传统 Multi-agent 的区别

特性传统 Multi-agent 框架(LangGraph 等)Claude Orchestration
路由逻辑开发者手动定义主 Agent 自动判断
记忆共享各子 Agent 独立统一记忆上下文,按需注入
容错机制手动实现自动重试 + Outcome 评估
接入成本高(自建基础设施)API 一行代码

五、用量限制更新

Anthropic 同步上调了 API 限制:

方案变化
Claude Code Pro每月 Max Turn 限制翻倍(原 500 → 1000)
Claude Code Max每月高速运行时间翻倍
Opus 模型 APIRate limit 上调,支持更高并发

六、NixAPI 接入路径

// 通过 NixAPI 接入 Claude Managed Agents
import { NixAPI } from '@nixapi/client';

const client = new NixAPI({
  apiKey: process.env.NIXAPI_KEY,
  provider: 'anthropic',
});

const agent = await client.managedAgents.sessions.create({
  model: 'claude-opus-4-7',
  dreaming: {
    enabled: true,
    triggerInterval: '24h',
  },
});

// Outcomes 驱动的任务执行
const result = await client.managedAgents.runs.create({
  sessionId: agent.id,
  task: '为支付模块编写完整的单元测试',
  outcomes: ['code-compiles', 'has-tests', 'no-security-hotspots'],
});

console.log(result.outcomeScores);

NixAPI 已支持 Claude Managed Agents 全系列 API,包括 Dreaming、Outcomes 和 Multi-agent Orchestration。


七、关键结论

能力适合场景当前状态
Dreaming长期使用的个人助手、企业客服、数据分析 AgentBeta,需申请
OutcomesCI/CD 集成、自动化评测、高可靠性 Agent 生产部署Beta,需申请
Multi-agent Orchestration复杂任务分解、高并发 Agent 系统Beta,需申请

三个能力的共同指向是:让 Agent 从「单次执行工具」进化为「可学习、可评估、可协作的智能体」。对于 NixAPI 用户而言,这些能力意味着更强大的多模型路由场景——Dreaming 让路由策略越用越精准,Outcomes 让模型选择有据可依,Multi-agent 让复杂任务可分解到最优模型执行。

建议开发者现在申请 Beta 资格,并在受控环境中开始实验。

立即体验 NixAPI

稳定可靠的大语言模型 API 中转,支持 OpenAI、Claude、Gemini、DeepSeek、Qwen、Grok,充值 ¥0.8 = $1

免费注册