返回资讯中心

Harness Engineering:AI应用效率提升的关键

虎嗅阅读约 12 分钟

原始报道

来自 虎嗅

huxiu.com

打开原文

先看摘要

这条新闻在讲什么

Harness Engineering是AI圈新概念,核心是为大模型搭建外围控制系统,包括规则、检验机制、工具等,确保模型输出准确可靠。它强调从机制上避免重复犯错,而非临时纠正。该方法由HashiCorp联合创始人提出,迅速成为行业共识。研究显示,同一模型因Harness设计不同,性能差距可达6倍。未来AI核心竞争力将从模型本身转向Harness搭建水平,HR和管理者可借鉴此思路优化AI工具在招聘、培训等场景的应用。

站内正文

详细内容

这里展示站内保存的新闻正文,支持划线和批注;需要核对来源时,可以打开原始报道。

1. 把Harness翻译成人话

Harness英文原意指马具,AI圈用这个比喻:大模型是有力但不受控的“马”,Harness就是套在模型外的一整套控制系统,包括规则、检验机制、工具、资料、错误反馈回路。 核心逻辑:模型负责“会做”,Harness负责“做对”,更接地气的解释是:模型像聪明但不熟业务的实习生,Harness就是给他准备的员工手册+工作规范+自动检查清单+出错报警器。

2. Harness Engineering的一句话定义与判断标准

Harness Engineering是指,将AI犯过的错误,永久固化进AI的运行环境,从机制上避免相同错误再次发生,核心是“断病根”而非“治本次”。 它满足三个核心特点:针对反复发生的问题、通过修改环境规则工具解决、效果是永久机制性的。判断标准很简单:如果只是对话里重新提示重做,不是Harness;修改工作环境让它从此不犯,就是Harness

3. 你大概率早就在实践Harness

四个常见场景你一定熟悉:写ChatGPT自定义指令、Cursor项目规则文件,把固定要求写进启动环境,就是Harness。 给AI配置专属知识库、给AI输出加自动检查步骤,把资料喂入、检查环节做进运行管道,也是Harness。 更新智能体/专家顾问的模板,把单次教训固化进工作环境,属于完整形态的Harness。 把AI反复犯的格式错误要求永久写进系统提示词,从每次临场提醒升级为写进环境,就是最朴素的Harness实践。

4. Harness Engineering突然爆火的原因

这个词2026年2月由HashiCorp联合创始人Mitchell Hashimoto提出,短短两周就成为AI行业共同语言,爆火有三个核心原因: 第一,它统一命名了行业早就在做、但一直没有共同语言描述的动作,让从业者找到了共同表达。 第二,提示词优化的红利期已经过去,当前复杂AI应用的成败,核心取决于外围环境搭建水平。 第三,斯坦福和清华大学的联合研究证实:同一个模型,因Harness设计不同,性能差距最高可拉开到6倍,模型不变仅调整外围框架,性能就能从“几乎没用”提升到“接近人类水平”。

5. Harness爆火背后的行业变化

Harness的流行标志着AI行业重心转移:从“比谁的模型更强”转向“比谁的Harness搭得更好”。 未来大模型会逐渐成为廉价、同质化、可替换的公共资源,真正拉开差距的是围绕模型搭建的私有Harness,核心竞争力会从“拥有什么模型”变成“搭了什么样的工作环境”。 任何使用AI的人都可以实践:不需要会写代码、不懂模型原理也能做,只要记住:当AI两次犯同一个错,停下来从机制上解决问题,而不是再纠正一次,本质就是把“同样的坑别踩第二次”的经验,固化成AI能自动执行的规则。 2026-06-07 06:56

AI圈都在说的新词harness,没你想的那么神秘

本文来自微信公众号: 凯莉彭 ,作者:凯莉彭

如果你关注AI,那么你最近也许会老听到这么一个词:Harness Engineering。

打开推特、刷公众号,到处都是它。OpenAI发文章、Anthropic跟进、HashiCorp的创始人在博客里推、Martin Fowler在专栏里写。两个月之内,这个词从无人知晓变成了AI行业的核心词汇。

我看到的第一反应是:又一个我没跟上的概念。

老实说,我对这种感受已经有点免疫了。AI这两年特别擅长造词:Prompt Engineering(提示词工程)、Context Engineering(上下文工程)、Agent(智能体)、RAG(检索增强生成)、MCP……

每隔一段时间,就冒出来一个新名词,配着一句潜台词:"如果你不懂这个,你就落后了。"

研究完Harness Engineering之后,我想跟你说:

这个词没有那么神秘。事实上,你大概率早就在做这件事了,只是你不知道它叫这个名字。

今天这篇文章,就来详细聊聊这件事。

01

先把这个词

翻译成人话

Harness这个词,英文原意是马具,指的是给马套上的那一整套装备:缰绳、马鞍、嚼子、笼头。

马的特点是什么?有力气、跑得快。如果你放它自己跑,它会冲进邻居家的菜地、跑丢、撞墙。但套上马具之后,就可以让它精准地拉着马车走在你想走的路上。

把这个画面记住,因为AI圈现在就在用这个比喻。

行业里大家越来越喜欢用一个公式来描述现在的AI系统:

一个真正能干活的AI助手=模型本身+围绕模型搭建的整套控制系统

模型就是那匹"马"。比如GPT、Claude、Gemini,它们提供的是智力,是推理和生成的能力。

而Harness则是那身"马具",也就是套在模型外面的一整套东西。规则、检验机制、可用的工具、可查的资料、出错时的反馈回路。

它告诉AI什么可以做、什么不能做,让AI知道自己做得对不对,在AI出错时让它能自我纠正。

模型负责"会做",Harness负责"做对"。

模型负责"会做",

Harness负责"做对"。

@凯莉彭

打个更接地气的比方:模型像一个非常聪明、但完全不熟悉你公司情况的实习生。Harness就是你给这个实习生准备的"员工手册+工作规范+自动检查清单+出错就响的报警器"。

光有聪明的实习生没用,因为他不知道你们公司的规矩、不知道哪些事不能做、做错了也没人提醒他。你得给他套上一整套规则,他才能真正帮你把活干好。

02

一句话定义

铺垫完了,用一句话来定义一下:

Harness Engineering:你不在"让AI这一次做对"上花力气,而是在"让AI下一次、下下次、永远都不再做错这件事"上花力气。

或者用更精确一些:把AI犯过的某次错,永久写进它的运行环境里,让同样的错从机制上不可能再发生。

这个定义里有三个关键词,缺一不可。

一,它针对的是反复发生的问题,不是一次性的小失误。

二,解决方式是修改环境、规则、工具,不是重新跟AI说一遍。

三,效果是永久的、机制性的,不是这次说对了下次还得再说。

03

一个判断标准

你随时可以用

下次你跟AI互动时,如果它做错了某件事,试试多问自己一个问题:

"我是在治这次的病,还是在断这个病的根?"

治这次的病=在对话里重新解释、重新提示、让它重做一遍。这不是Harness。

断这个病的根=修改它的工作环境,让它从此不会再犯。这就是Harness。

讲到这里,我猜你已经隐隐有点感觉到了,这个动作我好像做过?

是的。下面这四个场景,你看看是不是似曾相识。

场景一:你给某个AI工具写过指令文件

你建过ChatGPT的自定义指令、Claude的用户偏好、或者Cursor的项目规则文件,里面写了"用中文回答""代码变量用英文""回答简洁不要废话""不准用emoji"……每次AI启动都先读一遍。从此它再也不会忘。

这就是Harness。你不是每次都临场提醒,而是把规则写进了它的工作环境。

场景二:你给AI配了专属知识库或者专属工作流程

你在某个AI工具里上传了一份公司文档、产品手册、风格指南,让它每次回答都基于这份资料。或者你在自动化工具里搭了个流程,让AI输出之后自动经过一个检查步骤再发给你。

这也是Harness。你不是每次都把资料贴一遍,不是每次都人工审一遍,而是把"喂资料"和"自动检查"做进了它的运行管道。

场景三:你写过skill,或者创建过”智能体“、”专家顾问“

这是Harness中最完整的一种形态。每一次模板更新,本质上就是在调整你的"马具"。把一次教训永久固化进AI的工作环境,让它下次不再犯。

场景四:你被AI坑过,然后做了点什么让它不再坑你

最朴素的版本是这样的:AI老是把你的中文引号改成方头括号「」,你在对话里说了三次"必须用弯引号",它没用。后来你直接把"所有引号必须是中文全角引号,禁止用其他形式的引号"写进系统提示词。

这也是Harness。从"每次提醒"升级到"写进环境",这就是Harness Engineering的核心动作。

所以你看,你不是不懂Harness,你只是不知道这个名字。

05

这个词为什么

突然就火了

时间线挺有意思的。

2026年2月,HashiCorp的联合创始人、Terraform的创造者Mitchell Hashimoto在他的个人博客发了一篇文章,叫《我的AI使用之旅》。

文章里他用了Harness Engineering这个词,描述他自己摸出来的一个工作习惯:只要AI犯一次错,他就花时间工程化一个解决方案,让它永远不会再犯同样的错。

不是每次报错就重新喂提示词、祈祷它这次做对,而是把这次错的教训永久写进环境里。

朴素吗?极其朴素。但这句话戳中了所有做AI应用的人的痛点。

两周之内,OpenAI、Anthropic、LangChain全都跟进发文。一个原本只在工程师私下用的小词,突然变成了行业共同语言。

它火得这么快,有三个原因。

第一,它命名了一件大家早就在做、但一直没有共同语言去描述的事。

你回想一下前面那四个场景,所有做AI工作流的人都在做这些动作,但过去没有一个统一的词来概括。现在这个词出来了,所有人都找到了语言。

第二,"写好提示词"这件事的红利期已经过去了。

过去两年大家都在卷"怎么把提示词写得更精妙",但现在最贵的AI应用已经不靠单次提示词决定成败了。

它们的成败完全取决于外围环境搭得好不好。编程助手、研究助手、能自主跑数小时的工作流……都是如此。

第三,有一个让人记得住的数字。

斯坦福和清华大学的联合研究发现:同一个模型,因为外围环境(也就是Harness)设计不同,性能差距能拉到6倍。

模型没变,只是脚手架变了,结果从"几乎没用"到"接近人类水平"。

6倍。全在模型外面。

06

这意味着什么

它意味着AI行业正在发生一次重心转移。

从"比谁的模型更强",转向"比谁的Harness搭得更好"。

过去你说"我用GPT-4/我用Claude"是一种身份。以后大家用的模型都差不多,价格越来越便宜、能力越来越接近、可替换性越来越强。

真正拉开差距的,是你给模型套的那身"马具"。

模型本身越来越像一个公共资源,谁都能用。但Harness是你私有的、能拉开差距的东西。

一个公司、一个团队、一个一人公司的核心竞争力,慢慢从"我用了什么模型"变成了"我围绕模型搭了什么样的工作环境"。

而这件事,任何一个用AI工作的人都可以开始做。不需要会写代码,不需要懂模型原理。你只需要做一件事:

下次AI犯了同样的错两次,可以停下来想一下,这个错该怎么解决掉,而不是再纠正一次?

Harness Engineering听起来是个新词,但它在做的事,其实是一句普通人的老话:

同样的坑,别让我踩第二次。

唯一的区别是,过去这句话是讲给自己听的,你自己学会经验、自己记住、下次自己留心。现在你要把这句话讲给AI听。

也就是说,你要把"经验"用一种AI能读懂、能自动应用的方式,写进它的工作环境里。

提示词工程教你怎么问。

Harness Engineering教你怎么让AI不用你每次都问。

AI时代最大的效率提升,

是让AI不再重复犯同样的错。

@凯莉彭

AI原生产品日报

频道: 前沿科技

凯莉彭创始人成长笔记认证作者 已在虎嗅发表 201 篇文章

本内容来源于网络 ,观点仅代表作者本人,不代表虎嗅立场。

如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。 正在改变与想要改变世界的人,都在 赞赏 关闭赞赏 开启赞赏

支持一下   修改

确定

AI 读后整理

对 HR 和管理者意味着什么

从管理者视角看,Harness Engineering揭示了AI应用从模型驱动转向系统集成的趋势。企业需关注如何构建私有Harness以提升AI工具在组织中的实际效能,例如在招聘中自动化筛选规则、在培训中固化反馈机制。这要求HR和技术团队协作,将常见错误转化为永久性规则,减少重复劳动。同时,Harness强调机制化纠错,可应用于绩效管理、员工服务等场景,提升整体效率。企业应投资于Harness建设,而非单纯追求模型升级,以形成差异化竞争力。

RELATED

相关阅读

AI+HR

AI跨越可靠性阈值,自我加速引发管理变革

Anthropic发出全球警告,认为AI正接近递归自我改进的临界点,呼吁暂停研究。OpenAI后训练团队负责人Yann Dubois在访谈中揭示,AI能力增长是连续的,但用户体验到‘有用性’的跳跃源于跨过‘可靠性阈值’。OpenAI在去年12月跨过此线后,AI开始自我加速,尤其在编程场景中,研究人员利用AI加速研发,形成正反馈回路。Dubois指出,AI构建更像‘手艺’而非科学,垂直领域的Harness(编排系统)已接近AGI,但持续学习仍是难题。对管理者而言,AI正从‘刷题选手’进化为‘职场打工人’,企业需重新思考人机协作、组织效率和员工技能转型。

行业动态

DeepSeek登美企软件趋势榜第一,AI成本成关键

据美国企业支出管理平台Ramp最新报告,DeepSeek登上其“软件趋势榜单”第一,成为该平台上增速最快的软件之一。报告显示,美国企业客户正在寻找OpenAI和Anthropic的低成本替代方案,一些公司愿意直接采用价格更低的中国大模型。Ramp首席经济学家指出,这反映了企业在AI支出上更加看重成本。此前,DeepSeek R1在2025年初曾引发全球关注,但B端采用率短暂冲高后回落。如今,随着美国AI成本居高不下,企业开始审视AI投资回报率,性价比成为关键。DeepSeek近期宣布API永久降价75%,进一步吸引全球客户。

AI+HR

Anthropic内鬼倒卖API,新模型Oceanus泄密

Anthropic最新巨量模型Oceanus(代号Mythos)在红队测试期间遭内部人员倒卖API访问权限,导致官方紧急叫停测试。该模型输出定价高达每百万Token 80美元,实测吞吐量达52 Token/s,引发行业关注。文章推测其背后采用MCTS+PRM架构、动态MoE和线性注意力机制等硬核技术,并可能内置自主沙箱环境。此次泄密事件暴露了AI公司在模型安全测试中的管理漏洞,可能影响未来红队测试的规模和审查流程。同时,Oceanus的发布进度可能被迫加快,与GPT-5.6等竞品形成正面竞争。

讨论 0

登录 后可发表评论

  • 还没有讨论,欢迎第一个发言。

分享到