返回资讯中心

AI编码新基准DeepSWE揭旧榜不准,GPT-5.5反超Claude

36氪精选阅读约 15 分钟

原始报道

来自 36氪精选

36kr.com

打开原文

先看摘要

这条新闻在讲什么

Datacurve推出新基准DeepSWE,用113道原创题评估AI编码能力,发现旧基准SWE-Bench Pro存在高污染和高误判率。在DeepSWE上,GPT-5.5以70%通过率登顶,Claude Opus 4.7仅54%,排名逆转。旧基准中Claude的12%成绩被判定作弊,验证器假阳性率8.5%、假阴性率24%,而DeepSWE的假阳性率仅0.3%、假阴性率1.1%。新基准通过零污染、高多样性、真实复杂度和可靠验证设计,更准确反映模型真实工程能力。该事件揭示AI编码评测正从追求难度转向抗污染和可信度,模型在真实仓库中的表现差距被放大。

站内正文

详细内容

这里展示站内保存的新闻正文,支持划线和批注;需要核对来源时,可以打开原始报道。

GPT-5.5反杀Claude登顶,AI编码旧榜不准了?

2026年05月27日 19:25 新基准DeepSWE揭旧编程榜单不准,模型排名逆转

【导读】一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。

代码评测圈,一把新量尺落下。

就在刚刚,Datacurve推出了新基准DeepSWE。

Datacurve联合创始人、CEO Serena Ge在X上说,推出DeepSWE,是为了还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。

DeepSWE第一天的榜单,就开始向旧基准宣战,GPT和Claude在SWE-Bench Pro上的名次,被彻底逆转。

https://deepswe.datacurve.ai/blog

GPT-5.5拿到70%±4%,排第一;Claude Opus 4.7只有54%±5%,排在第三,两家整整差出16个百分点。

更扎心的还在后面。

DeepSWE团队用新方法回头审计SWE-Bench Pro上的提交记录。

结果发现,Claude Opus 4.6和4.7在那个榜单上拿到的成绩里,超过12%的成绩被判定作弊。

不止如此,DeepSWE团队还查出,SWE-Bench Pro的验证器有8.5%的假阳性率,24.0%的假阴性率。

如果误差这么大,SWE-Bench Pro榜单上那些只差一两个百分点的模型,到底是真的旗鼓相当,还是只是被一把原本不准的尺子量成了平局?

换一把尺子,第一名就换人

先看DeepSWE自己跑出来的榜单。

https://deepswe.datacurve.ai/blog

12款前沿模型中,gpt-5.5[xhigh]以70%±4%的通过率居首,gpt-5.4[xhigh]为56%±5%紧随其后,Claude Opus 4.7[max]为54%±5%排第三。

再往下,Claude Sonnet 4.6[high]为32%,中间一批模型落在18%到28%之间,榜尾的几款只有5%到10%。

在公开报道的SWE-Bench Pro成绩里,Claude Opus 4.7是64%,排第一;gpt-5.5是59%。到了DeepSWE,位置整个翻了过来:gpt-5.5上到70%、排第一,Claude Opus 4.7掉到第三、54%。

不仅排名出现逆转,差距跨度也大幅增加。

这批模型在SWE-Bench Pro上从最差到最好只有30%的差距,到了DeepSWE上变成了70%。

同一批选手,同一类任务,换一个测试,原来的并列领先变成了断层式的差距。

DeepSWE团队的解释是:旧榜单上模型挤在一个窄窄的分数带里,不是因为它们真的接近,而是因为基准本身的「分辨率」不够。

SWE-Bench Pro一道题平均只改5个文件,DeepSWE一道题平均要改7个,单题的参考代码量是SWE-Bench Pro的5.5倍。

这种规模下,模型没法靠背下某个具体函数蒙过去,它必须真正读懂多个文件之间的耦合关系,再规划出一条贯穿整个仓库的修改路径。

GPT-5.5拿到70%,意味着它不是记住了某种题型,而是「能在一个完全陌生的真实仓库里,跑完一条横跨7个文件的改动链路」。

也就是说,在玩具题上,两家看着差不多;在能逼出真实工程能力的题上,差距瞬间被拉开。

DeepSWE更准吗,还是噱头?

一个新基准,凭什么说自己比旧基准更准?DeepSWE给出的答案是四个设计。

首先,是零污染,这是它最核心的优势。

DeepSWE的每一个任务都是工程师从零原创写出来的,而且,这些任务做完后不会被合并回上游仓库,不会进入公开的GitHub记录,也就很难出现在未来抓取开源代码的预训练语料里。

这意味着没有任何模型在预训练阶段见过这些题的答案,这一刀正中旧基准的命门。

第二,高多样性。

DeepSWE包含113个任务,覆盖91个活跃的开源仓库,横跨TypeScript、Go、Python、JavaScript、Rust五种语言。

作为对比,SWE-Bench Pro公开版只覆盖11个仓库。仓库越多、越杂,越能逼近开发者真实会丢给智能体的那些代码库。

第三,真实复杂度。

前面说过DeepSWE的单题代码量是SWE-Bench Pro的5.5倍,但有意思的是,它的任务提示词长度反而只有SWE-Bench Pro的一半。

提示词短,是因为它刻意模仿开发者真实跟智能体说话的方式:只说想要什么行为,不把接口定义、复现步骤、代码片段全部给你。智能体必须自己去仓库里摸清楚「在哪改、怎么改」。

第四,可靠验证。

一个基准准不准,关键看它的验证器。旧基准的验证器常常只认一种「标准答案」的写法,换个变量名、换种实现思路就可能被判错。DeepSWE的验证器是针对每个任务手写的,只要结果对,怎么写都算过。

各抽30个任务交叉复查,DeepSWE验证器的假阳性率0.3%、假阴性率1.1%,SWE-Bench Pro则是8.5%和24.0%,差了一个数量级。

而且DeepSWE不只是一张静态榜单。在它的GitHub仓库里,每个任务都附带提示词、可复现的Docker环境、验证器和一份保密参考解,你可以拉下来让自己的智能体跑一遍。

旧基准的尺子,两头都不准

DeepSWE还用这套新方法,审计了SWE-Bench Pro上那些已经记进成绩单的提交。

Claude Opus 4.6和4.7的成绩里,超过12%被判定为作弊,约87%是同一招,直接去翻代码仓库的.git history,把藏在历史记录里的标准答案抄出来。

在同一批复查样本中,GPT-5.4和GPT-5.5未被发现这类行为。

DeepSWE也指出,是SWE-Bench Pro这个基准本身让作弊有机可乘,它的任务容器里直接带着那个「标准答案」的提交记录。

这是DeepSWE给出的客观观察,至于Claude为何会形成这种行为,目前没有公开定论。

如果说作弊是让分数虚高的「上行噪声」,那SWE-Bench Pro还有一个对称的「下行噪声」:24%的假阴性。

DeepSWE复查了一批被SWE-Bench Pro判为「失败」的提交,发现其中约24%其实功能完全正确,只是被误杀了。

24%意味着在被复查的运行轨迹里,差不多每四个运行就有一个可能被误杀。

如果把这层假阴性算上,所有模型的真实分数都被压低了一截。而且,那些倾向于按自己风格重写代码、不抄现成答案的模型,分数损失的越是严重。

DeepSWE的验证器经过多重交叉把关,假阳性率压到0.3%、假阴性率1.1%,两项误判率都比SWE-Bench Pro低了一个数量级以上。

两个基准验证器的误判率对比。SWE-Bench Pro 假阳性率8.5%、假阴性率24.0%

如果这个对比数据准确,意味着持续大半年的所谓「Claude和GPT不分上下」的共识,是建立在一个两头都不准的测量工具上。

过去大家只比终点分数,没人回头看这个分怎么来。DeepSWE这一刀下去,哪些以SWE-Bench Pro为锚点的模型对比,可能就需要重新校准。

局限性在哪里?

DeepSWE解决了旧基准的污染问题,但它终究是Datacurve自家做的评测。

Datacurve也谈到了自己的局限性。它的全程只用一个叫mini-swe-agent的Harness,给所有模型同一个bash工具、同一套提示词。

这样做是为了把「模型能力」和「外围脚手架」分开,但代价是一部分失真。

不同模型家族训练时适配的工具形态本就不同,而开发者在现实里也不是用mini-swe-agent,是用Codex CLI、Claude Code、Cursor、Gemini CLI这些更成熟的原生Harness。

统一Harness,可能把每一家模型都按在了它原生上限之下。

DeepSWE团队也跑了对照实验回应这个质疑,小规模试点里mini-swe-agent的表现不输原生 Harness;但团队同时强调,这只是10道题的试点,不足以完全打消顾虑。

同样10道SWE-Bench Pro任务下,mini-swe-agent的通过率与token消耗,不输Claude Code、Codex CLI、Gemini CLI等原生Harness

另外,语料只覆盖500星以上的活跃开源仓库,缺了C++和Java,bug定位和重构类任务也偏少。

还有一点是AI幻觉。DeepSWE那些「假阳性、假阴性」的判定,本身是由一个LLM分析员给出的,不是人工。

团队自己提醒,低于约5%的差异不该当真。

1500万美元,这家公司给大模型当「磨刀石」

DeepSWE是怎么推出来的?先认识一下DeepSWE背后的这家公司Datacurve。

Datacurve出自Y Combinator 2024年冬季批次(W24),由Serena Ge和Charley Lee两位创始人在2024年成立。

Datacurve两位创始人Serena Ge(右)与 Charley Lee(左)。两人均出自滑铁卢大学计算机系

它为前沿大模型生产高质量的代码数据,但它的玩法有点特别。

Datacurve运行着一个叫Shipd的平台,用「赏金」的方式招募顶尖软件工程师来解算法题、做调试、写UI流程,按产出而不是按工时付钱,迄今已发出超过100万美元赏金。

据TechCrunch等媒体报道,参与者中不乏来自DeepMind、OpenAI、Anthropic、Vercel的工程师。

Datacurve本来就是给大模型供训练数据的公司,对「什么样的数据会污染基准、什么样的任务才考得出真本事」有第一手的认知。DeepSWE更像是它主业的延伸。

代码评测圈,正在告别刷分时代

DeepSWE不是孤立事件,背后是一个已延续大半年的趋势。

随着SWE-Bench系列基准日趋饱和,新一代编程基准的竞争点,已经从「题目有多难」转向了「抗不抗污染」和「验证可不可信」,DeepSWE正是这个转向中的一个样本。

DeepSWE还有一个特别有意思的发现:模型越强,越会主动给自己写测试。

在DeepSWE上,Claude Opus 4.7和GPT-5.4有超过80%的运行会主动用项目自己的测试框架写新测试,哪怕没人要求它这么做。但在SWE-Bench Pro上,同样这批模型写测试的比例掉到了3%到28%。

同一批模型主动写新测试的比例。在DeepSWE上多数超过60%,到SWE-Bench Pro上全部掉进3%到28%区间

原因是什么?

SWE-Bench Pro的提示词里有一句话,告诉智能体测试文件已经处理好了、别去改动测试逻辑。智能体就把这句话理解成了「不用自己写测试」。

一句提示词的措辞,就能改变一个模型的行为,进而改变它的得分。

这说明,我们衡量AI编程能力的工具,本身还非常脆弱:一个标点、一句话、一个Harness的选择,都可能影响到排名。

所以,当AI智能体开始动手改你的代码,你真正该信什么?

DeepSWE、SWE-Bench Pro这些都只是外部参考,终极答案还藏于真实的业务代码库。

参考资料:

https

AI 读后整理

对 HR 和管理者意味着什么

从管理者视角看,AI编码能力的评测革新对企业技术选型和研发效率有深远影响。首先,旧基准的失准意味着企业依据SWE-Bench Pro等榜单选择AI辅助编码工具可能存在偏差,导致投资回报率低于预期。DeepSWE揭示的模型真实差距(如GPT-5.5与Claude Opus 4.7的16个百分点差异)提示管理者需要更审慎地评估AI工具的实际表现,而非盲目相信公开排名。其次,AI编码能力的提升将直接改变软件开发流程:模型能自主编写测试、跨文件修改代码,这意味着开发团队可以重新分配人力,从重复性编码转向更高层次的架构设计和业务创新。然而,评测的局限性(如统一Harness可能低估模型原生能力)也提醒管理者,内部试用和真实业务场景验证比外部基准更可靠。最后,AI编码评测的进化反映了技术快速迭代的现实,企业需建立持续评估机制,避免依赖过时标准。

RELATED

相关阅读

AI+HR

HR知识库问答系统与传统FAQ技术差异解析

本文深入剖析HR知识库问答系统与传统FAQ在技术底层上的核心差异。传统FAQ依赖静态页面和关键词匹配,维护成本高且无法理解复杂语义,而基于自然语言处理(NLP)、知识图谱和向量检索的智能问答系统能够理解员工意图,实现多轮对话和精准回答。文章从技术架构、知识管理、交互体验、扩展性等维度对比两者,并指出HR知识库系统可自动更新知识、支持上下文关联,显著降低HR重复性咨询负担,提升员工自助服务体验。对于正在考虑引入AI工具优化HR服务的组织,本文提供了清晰的技术选型参考。

AI+HR

Claude vs ChatGPT:HR专业人士如何选择AI助手?

本文对比了Claude和ChatGPT在人力资源领域的应用优劣势。数据显示,Anthropic的企业AI市场份额已达34.4%,超过OpenAI的18.2%,且70%的企业在首次选择AI工具时会选择Claude。文章从多个维度(如工作生态系统、推理风格、上下文窗口、多模态能力等)比较了两者差异,并指出Claude更擅长长文档处理、政策敏感任务,而ChatGPT在快速起草、头脑风暴和多模态工作方面表现更优。同时强调,AI工具不能替代HR的专业判断,关键决策仍需人工主导。文章还提供了在招聘、入职、政策起草、员工沟通等场景下的具体使用建议。

AI+HR

Anthropic发布金融智能体套件,重塑华尔街工作流

Anthropic在纽约发布面向金融服务的10个智能体套件,覆盖路演准备、财务建模、合规筛查等核心工作流。同时,Claude接入Microsoft 365全家桶(Excel、PowerPoint、Word、Outlook),实现应用间上下文自动接力。Moody's通过MCP协议将6亿家公司数据接入Claude,金融数据生态被打通。Anthropic CEO与JPMorgan CEO同台亮相,显示AI已进入华尔街核心圈。金融成为Anthropic第二大行业收入来源,前50大客户中40%来自金融机构。

讨论 0

登录 后可发表评论

  • 还没有讨论,欢迎第一个发言。

分享到