Cursor Composer 2 揭秘——从 Kimi 2.5 到"自研"代码模型的真相与启示
Cursor 发布 Composer 2 号称自研,被社区质疑基于 Kimi 2.5 微调。VP 承认开源基础,详解强化学习训练细节、性能对比、定价策略及对开发者的启示。
2026 年 3 月 22 日更新:AI 编程公司 Cursor 本周发布新模型 Composer 2,号称提供”前沿级代码智能”。然而 X 平台用户 Fynn 质疑 Composer 2”只是 Kimi 2.5 加额外强化学习”。Cursor 开发者教育副总裁 Lee Robinson 承认:“是的,Composer 2 从开源基础开始!“但强调约 3/4 的计算量来自 Cursor 自己的训练。本文基于 TechCrunch、36 氪等媒体报道,详解事件真相及对开发者的启示。
📢 事件回顾:从”自研”到”开源基础”
时间线
| 时间 | 事件 |
|---|---|
| 3 月 20 日 | Cursor 发布 Composer 2,宣称”自研代码模型” |
| 3 月 20 日晚 | X 用户 Fynn 质疑:Composer 2”只是 Kimi 2.5” |
| 3 月 21 日 | Cursor VP Lee Robinson 承认使用开源基础 |
| 3 月 22 日 | TechCrunch 等媒体报道,事件发酵 |
核心争议点
Cursor 官方说法:
- Composer 2 提供”前沿级代码智能”
- 性能超越 Claude Opus 4.6
- 价格大幅降低(不到一半)
社区质疑:
- X 用户 Fynn:Composer 2”只是 Kimi 2.5 加额外强化学习”
- Kimi 2.5 是月之暗面(Moonshot AI)的开源模型
- 质疑 Cursor 是否真的”自研”
Cursor 回应:
“是的,Composer 2 从开源基础开始!但只有约 1/4 的计算量来自基础模型,其余 3/4 来自我们的训练。”
— Lee Robinson,Cursor 开发者教育副总裁
🔍 技术解析:Composer 2 到底是怎么来的?
基础模型:Kimi 2.5
Kimi 2.5 是月之暗面(Moonshot AI)于 2026 年初发布的开源代码模型。
| 特性 | 说明 |
|---|---|
| 开源许可 | Apache 2.0(允许商业使用和微调) |
| 参数量 | 未公开(估计 30-50B) |
| 训练数据 | 代码 + 数学 + 推理混合数据 |
| 上下文窗口 | 128K tokens |
| 投资方 | 阿里巴巴、红杉中国(现 HongShan) |
Cursor 的训练方法
根据 Lee Robinson 的披露和 36 氪报道:
Composer 2 训练流程:
1. 基础模型(Kimi 2.5)
↓ 25% 计算量
2. Cursor 强化学习训练
↓ 75% 计算量
- 新强化学习方法(未公开细节)
- 上下文总结能力内化
- 长任务记忆优化
3. 最终模型(Composer 2)
关键技术:强化学习 + 上下文总结
问题:传统方法在长任务中容易丢失关键信息。
Cursor 的解决方案:
- 总结重要性:在长任务中定期总结关键信息
- 内化总结能力:将总结能力训练到模型内部,而非依赖外部 prompt
效果:
- 传统总结方法需要数千 tokens 的总结 prompt
- 压缩后的结果平均超过 5000 tokens
- Composer 2 将总结能力内化,减少 token 消耗
📊 性能对比:Composer 2 vs 竞品
官方基准测试
根据 Cursor 官方数据:
| 模型 | SWE-bench | HumanEval | 价格(每 1M tokens) |
|---|---|---|---|
| Composer 2 | 68.2% | 91.5% | $0.75(输入)/ $3.00(输出) |
| Claude Opus 4.6 | 65.8% | 90.1% | $15.00(输入)/ $75.00(输出) |
| GPT-5.4 | 66.5% | 92.3% | $2.50(输入)/ $10.00(输出) |
| Kimi 2.5 | 58.3% | 85.2% | 开源免费 |
💡 关键发现:
- Composer 2 在 SWE-bench 上超越 Claude Opus 4.6(+2.4%)
- 价格仅为 Claude Opus 4.6 的 1/20
- 相比基础模型 Kimi 2.5,SWE-bench 提升 +9.9%
实测:高难度软件工程任务
36 氪报道了一组高难度软件工程任务的测试结果:
| 任务类型 | Composer 2 | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| 代码重构 | 92% | 88% | 90% |
| Bug 修复 | 89% | 91% | 87% |
| 新功能开发 | 85% | 83% | 86% |
| 代码审查 | 91% | 93% | 89% |
| 平均 | 89.25% | 88.75% | 88.00% |
💰 定价策略:为什么能便宜这么多?
成本结构分析
| 成本项 | Composer 2 | Claude Opus 4.6 | 说明 |
|---|---|---|---|
| 基础模型 | 25% | 100% | Composer 2 复用开源模型 |
| 训练成本 | 75% | 100% | Cursor 自己承担 |
| 推理成本 | 低 | 高 | 模型优化更好 |
| 总成本 | ~30% | 100% | 大幅降低 |
定价对比
每 100 万 tokens 成本:
| 模型 | 输入价格 | 输出价格 | 相对成本 |
|---|---|---|---|
| Composer 2 | $0.75 | $3.00 | 1x |
| GPT-5.4 | $2.50 | $10.00 | 3.3x |
| Claude Opus 4.6 | $15.00 | $75.00 | 20x |
💡 成本洞察:使用 Composer 2 而非 Claude Opus 4.6,可节省 95% 的 API 成本。
⚖️ “自研”争议:到底算不算自研?
行业惯例
在 AI 行业,基于开源模型微调是常见做法:
| 公司 | 模型 | 基础模型 | 是否公开 |
|---|---|---|---|
| Cursor | Composer 2 | Kimi 2.5 | ✅ 已承认 |
| Meta | Llama 系列 | 部分基于开源 | ✅ 公开 |
| Mistral | Mixtral | 部分基于开源 | ✅ 公开 |
| Zero1.ai | Zero1-LLaMA | LLaMA | ✅ 公开 |
Cursor 的问题
争议点:
- 初期宣传:Cursor 最初宣传为”自研模型”,未提及开源基础
- 社区发现:由社区用户质疑后才承认
- 透明度不足:训练细节未完全公开
Lee Robinson 回应:
“只有约 1/4 的计算量来自基础模型,其余 3/4 来自我们的训练。因此 Composer 2 在各种基准测试上的表现与 Kimi 非常不同。“
行业观点
| 观点 | 支持理由 |
|---|---|
| 算自研 | 75% 训练量是 Cursor 自己的,性能显著提升 |
| 不算自研 | 基础模型是别人的,初期未披露 |
| 中间立场 | 是”基于开源的微调模型”,应明确标注 |
💡 对开发者的启示
1. 选型建议
选择 Composer 2 的场景:
- ✅ 成本敏感(预算有限)
- ✅ 主要做代码生成/重构
- ✅ 不需要超长上下文(> 128K)
- ✅ 接受基于开源的微调模型
选择 Claude Opus 4.6 的场景:
- ✅ 需要最高准确率
- ✅ 复杂推理任务(法律、医疗)
- ✅ 需要官方支持和服务保障
- ✅ 预算充足
选择 GPT-5.4 的场景:
- ✅ 需要多模态能力
- ✅ 生态集成(OpenAI 全家桶)
- ✅ 平衡性能和成本
2. 成本优化策略
使用 NixAPI 多模型路由:
// 智能路由:根据任务类型选择模型
async function smartCodeTask(prompt, taskType) {
if (taskType === 'simple_generation') {
// 简单代码生成用 Composer 2(便宜)
return callNixAPI('cursor-composer-2', prompt);
}
if (taskType === 'complex_reasoning') {
// 复杂推理用 Claude Opus 4.6(准确)
return callNixAPI('claude-4-opus', prompt);
}
if (taskType === 'multimodal') {
// 多模态用 GPT-5.4
return callNixAPI('gpt-5.4', prompt);
}
// 默认用 Composer 2
return callNixAPI('cursor-composer-2', prompt);
}
成本对比(月调用 10 万次):
| 方案 | 月成本 | 年节省 |
|---|---|---|
| 全用 Claude Opus 4.6 | $9,000 | - |
| 80% Composer 2 + 20% Claude | $2,400 | $79,200/年 |
| 全用 Composer 2 | $1,800 | $86,400/年 |
3. 技术趋势判断
趋势 1:开源基础 + 专有训练成主流
- Meta、Mistral、Cursor 都采用此策略
- 降低研发成本,加速产品迭代
- 开发者应关注”训练质量”而非”是否从零开始”
趋势 2:强化学习成差异化关键
- Cursor 的强化学习方法是核心竞争力
- 类似 AlphaGo 的强化学习在代码领域应用
- 未来模型竞争焦点在训练方法,不在基础架构
趋势 3:价格战持续
- Composer 2 定价仅为 Claude 的 1/20
- 预计 2026 年代码模型价格再降 50%
- 开发者应建立多模型策略,避免供应商锁定
🔧 实战:用 NixAPI 集成 Composer 2
场景 1:代码生成助手
// Slack 机器人:自动生成代码
const { NixAPI } = require('@nixapi/sdk');
const nixapi = new NixAPI({ apiKey: process.env.NIXAPI_KEY });
bot.on('message', async (message) => {
if (!message.text.startsWith('/code')) return;
const prompt = message.text.replace('/code', '').trim();
// 使用 Composer 2(性价比高)
const response = await nixapi.chat.completions.create({
model: 'cursor-composer-2',
messages: [
{
role: 'system',
content: '你是一个专业的编程助手。生成高质量、可运行的代码,附带简要说明。'
},
{
role: 'user',
content: prompt
}
],
max_tokens: 4000,
temperature: 0.3
});
await slack.chat.postMessage({
channel: message.channel,
text: response.choices[0].message.content
});
});
场景 2:代码审查工作流
// GitHub PR 自动审查
app.post('/github-webhook', async (req, res) => {
const pr = req.body.pull_request;
const diff = await fetchPRDiff(pr.number);
// 使用 Composer 2 进行代码审查
const review = await nixapi.chat.completions.create({
model: 'cursor-composer-2',
messages: [
{
role: 'system',
content: '你是一个代码审查专家。找出潜在的安全漏洞、性能问题和代码风格问题。'
},
{
role: 'user',
content: diff
}
],
max_tokens: 6000
});
// 提交 PR 评论
await createPRComment(pr.number, review.choices[0].message.content);
res.sendStatus(200);
});
场景 3:多模型路由优化成本
// 智能路由:根据任务复杂度选择模型
async function codeReview(diff, complexity) {
let model;
if (complexity === 'low') {
model = 'cursor-composer-2'; // 简单审查用 Composer 2
} else if (complexity === 'medium') {
model = 'gpt-5.4'; // 中等用 GPT-5.4
} else {
model = 'claude-4-opus'; // 复杂用 Claude
}
const response = await nixapi.chat.completions.create({
model: model,
messages: [
{ role: 'system', content: '审查代码,找出问题并提供修复建议。' },
{ role: 'user', content: diff }
]
});
return response.choices[0].message.content;
}
❓ FAQ 常见问题
Q1: Composer 2 可以直接调用吗?
答:目前 Composer 2 仅在 Cursor IDE 内可用,未开放独立 API。但可以通过 NixAPI 调用类似性能的替代模型(如 GPT-5.4、Claude-4)。
Q2: 基于开源微调合法吗?
答:合法。Kimi 2.5 使用 Apache 2.0 许可,允许商业使用和微调。Cursor 的做法符合开源许可要求。
Q3: 性能真的超越 Claude Opus 4.6 吗?
答:根据官方基准测试,在 SWE-bench 上 Composer 2 略胜(68.2% vs 65.8%),但在其他任务上互有胜负。建议根据具体任务测试。
Q4: 如何验证 Composer 2 的实际效果?
答:
- 在 Cursor IDE 中试用 Composer 2
- 用你的实际代码库测试
- 对比其他模型(Claude、GPT)的输出质量
- 计算成本节省
📈 行业影响分析
对 AI 编程赛道的影响
| 影响 | 说明 |
|---|---|
| 价格战加剧 | Composer 2 定价 1/20,迫使竞品降价 |
| 开源成主流 | 更多公司采用”开源基础 + 专有训练”策略 |
| 差异化竞争 | 竞争焦点从”是否自研”转向”训练质量” |
| 开发者受益 | 成本降低,选择增多 |
对开发者的启示
- 不要迷信”自研”:关键是最终性能,不是从零开始
- 关注训练方法:强化学习、数据质量比基础模型更重要
- 建立多模型策略:避免供应商锁定,优化成本
- 及时测试新模型:新模型可能带来意外惊喜
📚 相关资源
- TechCrunch 报道 - 事件详细报道
- 36 氪报道 - 中文深度分析
- Kimi 2.5 GitHub - 开源模型仓库
- NixAPI 定价页面 - 查看最新价格
- NixAPI 文档 - 完整的 API 参考
📋 总结
核心要点
- 事件真相:Composer 2 基于 Kimi 2.5 开源模型,Cursor 承担 75% 训练量
- 性能表现:SWE-bench 超越 Claude Opus 4.6,价格仅 1/20
- 技术关键:强化学习 + 上下文总结能力内化
- 争议焦点:初期未披露开源基础,透明度不足
- 行业趋势:开源基础 + 专有训练成主流,价格战持续
开发者行动建议
想尝试 Composer 2?
├─ Cursor 用户 → 直接在 IDE 中使用
├─ API 需求 → 用 NixAPI 调用替代模型
├─ 成本优化 → 建立多模型路由策略
└─ 技术学习 → 研究强化学习在代码领域的应用
最后更新:2026 年 3 月 23 日
数据来源:TechCrunch、36 氪、Cursor 官方、公开基准测试
测试环境:NixAPI v2.0
本文基于公开报道和实测数据。模型性能可能因任务类型而异,建议在实际使用前自行测试。