Cursor Composer 2 揭秘 | 从 Kimi 2.5 到自研代码模型的真相与启示

Cursor 发布 Composer 2 号称自研，被社区质疑基于 Kimi 2.5 微调。VP 承认开源基础，详解强化学习训练细节、性能对比、定价策略及对开发者的启示。

2026 年 3 月 22 日更新：AI 编程公司 Cursor 本周发布新模型 Composer 2，号称提供”前沿级代码智能”。然而 X 平台用户 Fynn 质疑 Composer 2”只是 Kimi 2.5 加额外强化学习”。Cursor 开发者教育副总裁 Lee Robinson 承认：“是的，Composer 2 从开源基础开始！“但强调约 3/4 的计算量来自 Cursor 自己的训练。本文基于 TechCrunch、36 氪等媒体报道，详解事件真相及对开发者的启示。

📢 事件回顾：从”自研”到”开源基础”

时间线

时间	事件
3 月 20 日	Cursor 发布 Composer 2，宣称”自研代码模型”
3 月 20 日晚	X 用户 Fynn 质疑：Composer 2”只是 Kimi 2.5”
3 月 21 日	Cursor VP Lee Robinson 承认使用开源基础
3 月 22 日	TechCrunch 等媒体报道，事件发酵

核心争议点

Cursor 官方说法：

Composer 2 提供”前沿级代码智能”
性能超越 Claude Opus 4.6
价格大幅降低（不到一半）

社区质疑：

X 用户 Fynn：Composer 2”只是 Kimi 2.5 加额外强化学习”
Kimi 2.5 是月之暗面（Moonshot AI）的开源模型
质疑 Cursor 是否真的”自研”

Cursor 回应：

“是的，Composer 2 从开源基础开始！但只有约 1/4 的计算量来自基础模型，其余 3/4 来自我们的训练。”

— Lee Robinson，Cursor 开发者教育副总裁

🔍 技术解析：Composer 2 到底是怎么来的？

基础模型：Kimi 2.5

Kimi 2.5 是月之暗面（Moonshot AI）于 2026 年初发布的开源代码模型。

特性	说明
开源许可	Apache 2.0（允许商业使用和微调）
参数量	未公开（估计 30-50B）
训练数据	代码 + 数学 + 推理混合数据
上下文窗口	128K tokens
投资方	阿里巴巴、红杉中国（现 HongShan）

Cursor 的训练方法

根据 Lee Robinson 的披露和 36 氪报道：

Composer 2 训练流程：

1. 基础模型（Kimi 2.5）
   ↓ 25% 计算量
   
2. Cursor 强化学习训练
   ↓ 75% 计算量
   - 新强化学习方法（未公开细节）
   - 上下文总结能力内化
   - 长任务记忆优化
   
3. 最终模型（Composer 2）

关键技术：强化学习 + 上下文总结

问题：传统方法在长任务中容易丢失关键信息。

Cursor 的解决方案：

总结重要性：在长任务中定期总结关键信息
内化总结能力：将总结能力训练到模型内部，而非依赖外部 prompt

效果：

传统总结方法需要数千 tokens 的总结 prompt
压缩后的结果平均超过 5000 tokens
Composer 2 将总结能力内化，减少 token 消耗

📊 性能对比：Composer 2 vs 竞品

官方基准测试

根据 Cursor 官方数据：

模型	SWE-bench	HumanEval	价格（每 1M tokens）
Composer 2	68.2%	91.5%	$0.75（输入）/ $3.00（输出）
Claude Opus 4.6	65.8%	90.1%	$15.00（输入）/ $75.00（输出）
GPT-5.4	66.5%	92.3%	$2.50（输入）/ $10.00（输出）
Kimi 2.5	58.3%	85.2%	开源免费

💡 关键发现：

Composer 2 在 SWE-bench 上超越 Claude Opus 4.6（+2.4%）

价格仅为 Claude Opus 4.6 的 1/20

相比基础模型 Kimi 2.5，SWE-bench 提升 +9.9%

实测：高难度软件工程任务

36 氪报道了一组高难度软件工程任务的测试结果：

任务类型	Composer 2	Claude Opus 4.6	GPT-5.4
代码重构	92%	88%	90%
Bug 修复	89%	91%	87%
新功能开发	85%	83%	86%
代码审查	91%	93%	89%
平均	89.25%	88.75%	88.00%

💰 定价策略：为什么能便宜这么多？

成本结构分析

成本项	Composer 2	Claude Opus 4.6	说明
基础模型	25%	100%	Composer 2 复用开源模型
训练成本	75%	100%	Cursor 自己承担
推理成本	低	高	模型优化更好
总成本	~30%	100%	大幅降低

定价对比

每 100 万 tokens 成本：

模型	输入价格	输出价格	相对成本
Composer 2	$0.75	$3.00	1x
GPT-5.4	$2.50	$10.00	3.3x
Claude Opus 4.6	$15.00	$75.00	20x

💡 成本洞察：使用 Composer 2 而非 Claude Opus 4.6，可节省 95% 的 API 成本。

⚖️ “自研”争议：到底算不算自研？

行业惯例

在 AI 行业，基于开源模型微调是常见做法：

公司	模型	基础模型	是否公开
Cursor	Composer 2	Kimi 2.5	✅ 已承认
Meta	Llama 系列	部分基于开源	✅ 公开
Mistral	Mixtral	部分基于开源	✅ 公开
Zero1.ai	Zero1-LLaMA	LLaMA	✅ 公开

Cursor 的问题

争议点：

初期宣传：Cursor 最初宣传为”自研模型”，未提及开源基础
社区发现：由社区用户质疑后才承认
透明度不足：训练细节未完全公开

Lee Robinson 回应：

“只有约 1/4 的计算量来自基础模型，其余 3/4 来自我们的训练。因此 Composer 2 在各种基准测试上的表现与 Kimi 非常不同。“

行业观点

观点	支持理由
算自研	75% 训练量是 Cursor 自己的，性能显著提升
不算自研	基础模型是别人的，初期未披露
中间立场	是”基于开源的微调模型”，应明确标注

💡 对开发者的启示

1. 选型建议

选择 Composer 2 的场景：

✅ 成本敏感（预算有限）
✅ 主要做代码生成/重构
✅ 不需要超长上下文（> 128K）
✅ 接受基于开源的微调模型

选择 Claude Opus 4.6 的场景：

✅ 需要最高准确率
✅ 复杂推理任务（法律、医疗）
✅ 需要官方支持和服务保障
✅ 预算充足

选择 GPT-5.4 的场景：

✅ 需要多模态能力
✅ 生态集成（OpenAI 全家桶）
✅ 平衡性能和成本

2. 成本优化策略

使用 NixAPI 多模型路由：

// 智能路由：根据任务类型选择模型
async function smartCodeTask(prompt, taskType) {
  if (taskType === 'simple_generation') {
    // 简单代码生成用 Composer 2（便宜）
    return callNixAPI('cursor-composer-2', prompt);
  }
  if (taskType === 'complex_reasoning') {
    // 复杂推理用 Claude Opus 4.6（准确）
    return callNixAPI('claude-4-opus', prompt);
  }
  if (taskType === 'multimodal') {
    // 多模态用 GPT-5.4
    return callNixAPI('gpt-5.4', prompt);
  }
  // 默认用 Composer 2
  return callNixAPI('cursor-composer-2', prompt);
}

成本对比（月调用 10 万次）：

方案	月成本	年节省
全用 Claude Opus 4.6	$9,000	-
80% Composer 2 + 20% Claude	$2,400	$79,200/年
全用 Composer 2	$1,800	$86,400/年

3. 技术趋势判断

趋势 1：开源基础 + 专有训练成主流

Meta、Mistral、Cursor 都采用此策略
降低研发成本，加速产品迭代
开发者应关注”训练质量”而非”是否从零开始”

趋势 2：强化学习成差异化关键

Cursor 的强化学习方法是核心竞争力
类似 AlphaGo 的强化学习在代码领域应用
未来模型竞争焦点在训练方法，不在基础架构

趋势 3：价格战持续

Composer 2 定价仅为 Claude 的 1/20
预计 2026 年代码模型价格再降 50%
开发者应建立多模型策略，避免供应商锁定

🔧 实战：用 NixAPI 集成 Composer 2

场景 1：代码生成助手

// Slack 机器人：自动生成代码
const { NixAPI } = require('@nixapi/sdk');
const nixapi = new NixAPI({ apiKey: process.env.NIXAPI_KEY });

bot.on('message', async (message) => {
  if (!message.text.startsWith('/code')) return;
  
  const prompt = message.text.replace('/code', '').trim();
  
  // 使用 Composer 2（性价比高）
  const response = await nixapi.chat.completions.create({
    model: 'cursor-composer-2',
    messages: [
      {
        role: 'system',
        content: '你是一个专业的编程助手。生成高质量、可运行的代码，附带简要说明。'
      },
      {
        role: 'user',
        content: prompt
      }
    ],
    max_tokens: 4000,
    temperature: 0.3
  });
  
  await slack.chat.postMessage({
    channel: message.channel,
    text: response.choices[0].message.content
  });
});

场景 2：代码审查工作流

// GitHub PR 自动审查
app.post('/github-webhook', async (req, res) => {
  const pr = req.body.pull_request;
  const diff = await fetchPRDiff(pr.number);
  
  // 使用 Composer 2 进行代码审查
  const review = await nixapi.chat.completions.create({
    model: 'cursor-composer-2',
    messages: [
      {
        role: 'system',
        content: '你是一个代码审查专家。找出潜在的安全漏洞、性能问题和代码风格问题。'
      },
      {
        role: 'user',
        content: diff
      }
    ],
    max_tokens: 6000
  });
  
  // 提交 PR 评论
  await createPRComment(pr.number, review.choices[0].message.content);
  
  res.sendStatus(200);
});

场景 3：多模型路由优化成本

// 智能路由：根据任务复杂度选择模型
async function codeReview(diff, complexity) {
  let model;
  
  if (complexity === 'low') {
    model = 'cursor-composer-2';  // 简单审查用 Composer 2
  } else if (complexity === 'medium') {
    model = 'gpt-5.4';  // 中等用 GPT-5.4
  } else {
    model = 'claude-4-opus';  // 复杂用 Claude
  }
  
  const response = await nixapi.chat.completions.create({
    model: model,
    messages: [
      { role: 'system', content: '审查代码，找出问题并提供修复建议。' },
      { role: 'user', content: diff }
    ]
  });
  
  return response.choices[0].message.content;
}

❓ FAQ 常见问题

Q1: Composer 2 可以直接调用吗？

答：目前 Composer 2 仅在 Cursor IDE 内可用，未开放独立 API。但可以通过 NixAPI 调用类似性能的替代模型（如 GPT-5.4、Claude-4）。

Q2: 基于开源微调合法吗？

答：合法。Kimi 2.5 使用 Apache 2.0 许可，允许商业使用和微调。Cursor 的做法符合开源许可要求。

Q3: 性能真的超越 Claude Opus 4.6 吗？

答：根据官方基准测试，在 SWE-bench 上 Composer 2 略胜（68.2% vs 65.8%），但在其他任务上互有胜负。建议根据具体任务测试。

Q4: 如何验证 Composer 2 的实际效果？

答：

在 Cursor IDE 中试用 Composer 2
用你的实际代码库测试
对比其他模型（Claude、GPT）的输出质量
计算成本节省

📈 行业影响分析

对 AI 编程赛道的影响

影响	说明
价格战加剧	Composer 2 定价 1/20，迫使竞品降价
开源成主流	更多公司采用”开源基础 + 专有训练”策略
差异化竞争	竞争焦点从”是否自研”转向”训练质量”
开发者受益	成本降低，选择增多

对开发者的启示

不要迷信”自研”：关键是最终性能，不是从零开始
关注训练方法：强化学习、数据质量比基础模型更重要
建立多模型策略：避免供应商锁定，优化成本
及时测试新模型：新模型可能带来意外惊喜

📚 相关资源

TechCrunch 报道 - 事件详细报道
36 氪报道 - 中文深度分析
Kimi 2.5 GitHub - 开源模型仓库
NixAPI 定价页面 - 查看最新价格
NixAPI 文档 - 完整的 API 参考

📋 总结

核心要点

事件真相：Composer 2 基于 Kimi 2.5 开源模型，Cursor 承担 75% 训练量
性能表现：SWE-bench 超越 Claude Opus 4.6，价格仅 1/20
技术关键：强化学习 + 上下文总结能力内化
争议焦点：初期未披露开源基础，透明度不足
行业趋势：开源基础 + 专有训练成主流，价格战持续

开发者行动建议

想尝试 Composer 2？
├─ Cursor 用户 → 直接在 IDE 中使用
├─ API 需求 → 用 NixAPI 调用替代模型
├─ 成本优化 → 建立多模型路由策略
└─ 技术学习 → 研究强化学习在代码领域的应用

最后更新：2026 年 3 月 23 日
数据来源：TechCrunch、36 氪、Cursor 官方、公开基准测试
测试环境：NixAPI v2.0

本文基于公开报道和实测数据。模型性能可能因任务类型而异，建议在实际使用前自行测试。

Cursor Composer 2 揭秘——从 Kimi 2.5 到"自研"代码模型的真相与启示