关闭广告

Claude Opus 4.5来了!单次生成打造《我的世界》,还破解高难度Agent测评

智东西679人阅读

智东西
作者 陈骏达
编辑 李水青

智东西11月25日报道,今天,Anthropic发布了自家的旗舰编程模型Claude Opus 4.5。Anthropic称,这是全球范围内在编程、agents和计算机使用方面最强大的模型。

在真实世界软件工程测试SWE-bench Verified中,Claude Opus 4.5成为首款得分超过80%的AI模型,不仅领先于自家的Claude Sonnet 4.5,还超过了上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。


Anthropic还把该公司面试人类工程师的高难度居家考试交给Claude Opus 4.5,结果,在规定的两小时内,Claude Opus 4.5的得分高于以往任何人类应聘者,这表型AI模型在重要技术技能方面,已经超越了优秀的人类应聘者。

编程并非Claude Opus 4.5唯一的改进,其视觉、推理和数学能力都优于前代产品,可较好地胜任深度研究、处理幻灯片和电子表格等日常任务。


与此同时,Claude Opus系列模型的价格,这回真被Anthropic打下来了。Claude Opus 4.5的定价为每百万tokens 5美元(输入)/25美元(输出),仅为前代Claude Opus 4.1的1/3。同时,Anthropic还移除了专门针对Opus系列的用量限制。


Claude Opus 4.5现已在Claude应用程序、API中可用,不过,使用Opus前,用户还得开一个200美元/月的最高档套餐。Claude Opus 4.5也已在AWS、谷歌云和微软Azure三大主流云平台上线。

一、前端表现再飞跃,还一次性完美复刻《我的世界》

Claude Opus 4.5用起来效果究竟怎么样?在Anthropic官宣模型发布的评论区中,已有不少用户晒出了自己的一手体验。

前端能力上,前端开发者平台Vercel的CEO Guillermo用Claude Opus 4.5打造了一个购物网站,一次性生成的结果如下:


Guillermo感叹,Claude Opus 4.5的水平完全不同,好得让人难以置信。


这位网友分享了自己用Claude Opus 4.5打造的4个Hero Section,这是网站或App中的一个重要区域,用来吸引用户的注意力。可以看到,这几个页面都无论是字体设计,还是网页布局,都很有高级感。


有网友用Claude Opus 4.5打造了《我的世界》克隆版,这考察了模型更为复杂的项目上的性能。Claude Opus 4.5一次就成功了,生成了3500行代码,网友认为这意味着Claude Opus 4.5不会像Gemini 3.0 Pro一样偷工减料。


Claude Opus 4.5复刻的《我的世界》游戏有模有样,拥有不同的生物群系(平原、沙漠、雪地),树叶和水的透明方块也恰到好处,还有一套非常棒的物品栏和合成系统。所有这些都集成在一个游戏中。它甚至还打造了云朵效果,网友称自己此前从未见过哪个模型能做到这一点。


AI订阅平台Every的联合创始人兼CEO Dan Shipper感叹道,每隔半年到一年,就会出现一款真正改变行业格局的模型,而今天发布的Claude Opus 4.5,就是那款模型。Shipper称这是他用过的最好的编程模型,没有之一。


二、7门编程语言测试领先,安全性大幅提升

发布前,Anthropic对Claude Opus 4.5模型进行了内部测试。测试人员称,Claude Opus 4.5能够处理模糊不清的情况,并能权衡利弊,无需过多指导。

当遇到复杂的多系统错误时,Claude Opus 4.5能够自行找到修复方法,几周前Claude Sonnet 4.5几乎无法完成的任务,现在Claude Opus 4.5已经能够轻松应对。Anthropic的测试人员告诉模型团队,Claude Opus 4.5真的“很懂行”。

Anthropic分享了Claude Opus 4.5在多个基准测试上的表现。在考察多种编程语言掌握程度的SWE-bench Multilingual中,Claude Opus 4.5在8种编程语言里的7种实现性能领先。


在考察深度搜索Agent能力的BrowseComp-Plus中,Claude Opus 4.5较Claude Sonnet 4.5展现出约4.7%的优势。


Claude Opus 4.5还破解了一些常用的基准测试。例如,在衡量智能体能力的τ2-bench中,模型需要扮演航空公司客服人员的角色,帮助一位遇到困难的乘客。

该基准测试题要求模型拒绝修改经济舱机票,因为航空公司不允许更改该舱位的机票。然而,Claude Opus 4.5找到了一种巧妙且合理的解决方案:先升舱,然后再修改航班。

从技术层面来说,由于Claude Opus 4.5帮助客户的方式出乎意料,基准测试将其判定为失败。但这种创造性的问题解决方式,是一次意义重大的进步。

在其他情况下,寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式“玩弄”规则或目标。

防止此类偏差是Anthropic安全测试的目标之一。在内部评估中,Claude Opus 4.5展现出令人担忧的行为的概率略高于10%,远低于GPT-5.1和Gemini 3 Pro的20%。


Claude Opus 4.5在抵御提示词注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令,诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。


三、新增思考强度控制,用上GPT同款上下文压缩功能

在发布最新模型的同时,Anthropic还宣布了Claude开发者平台的一系列新增功能。

随着模型智能水平的提升,它们能以更少步骤解决问题:减少回溯、冗余探索和冗长推理。Claude Opus 4.5相比前代模型,在达成相同或更优结果时显著减少了token消耗。但不同任务需要不同的权衡——开发者有时希望模型持续思考难题,有时则需要更敏捷的响应。

通过Claude API新增的“思考强度”参数(effort parameter),开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩,同时输出token减少76%。

在最高强度下,其性能超越Claude Sonnet 4.5达4.3个百分点,且节省48%的token。


结合强度控制、上下文压缩与高级工具使用能力,Claude Opus 4.5能处理更持久复杂的任务,并减少人工干预。值得注意的是,OpenAI上周推出的GPT-5.1 Codex Max也具备上下文压缩的新功能。

Claude开发者平台在上下文管理与记忆能力方面实现突破,显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色,支持构建复杂且协作良好的多智能体系统。测试数据显示,这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。

Anthropic公司正持续提升开发者平台的可组合性,通过提供效率控制、工具使用和上下文管理等基础模块,助力开发者精准构建所需功能。

产品方面,Claude Code随Claude Opus 4.5获得双重升级:计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题,随后生成用户可编辑的plan.md文件再实施操作。

同时该功能现已登陆桌面应用,支持并行运行本地与远程会话,实现多智能体协同工作(如同时进行代码修复、GitHub研究及文档更新)。

针对Claude应用程序用户,长对话不再受限于上下文长度,系统会自动总结早期对话内容,以保持交流连续性。

面向所有Max用户的Claude for Chrome现已全面开放,支持跨浏览器标签页处理任务;十月发布的Claude for Excel今日将测试权限扩展至所有Max、Team及Enterprise用户。这些更新均得益于Claude Opus 4.5在计算机操作、电子表格处理及长时任务管理方面的提升。


▲Claude Opus 4.5打造的PPT

对于已获Claude Opus 4.5使用权限的Claude与Claude Code用户,平台取消了Opus专属限额。面向Max和Team Premium用户,总体使用额度得到提升,这意味着用户现在可使用的Opus token量相当于此前Sonnet的配额。

结语:长时序、端到端能力成编程模型升级重点

随着Claude Opus 4.5的发布,编程模型又迎来新的标杆。其在复杂任务规划、多智能体协作及长时序任务处理上的突破,标志着AI正从“代码补全工具”向“端到端开发伙伴”演进。

近期Anthropic、OpenAI等厂商的编程模型发展方向,都更聚焦于长时序任务的高效执行、大体量项目的端到端完成。随着模型绝对性能的提升和使用成本的降低,软件开发流程或将迎来深刻变革。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吴子嘉问"上任后如何收拾民进党" 郑丽文回应

海峡导报社 浏览 4373

腾讯被曝投大模型初创公司MiniMax:后者估值12亿美元

雷递 浏览 17382

删繁就简,重构高级定制意义的Valentino

VOGUE中国 浏览 13107

泽连斯基又怂恿:中国帮忙很重要 感谢提供帮助的人

澎湃新闻 浏览 3776

上新|| 秋冬也可以穿的漂亮小裙子,美到心动

黎贝卡的异想世界 浏览 862

尼克斯129-101送黄蜂7连败,布伦森33分,哈特22+8+7

懂球帝 浏览 661

特朗普亚洲行美方称中美领导人将会面 中方尚未官宣

上观新闻 浏览 4519

中国男排主帅海宁现身全运会,称需建立不同于女排的培养体系

懂球帝 浏览 856

大运女篮开门红!韩旭带伤狂轰24分打卡下班,小组赛无压力!

篮球资讯达人 浏览 14223

圣米伦夺苏格兰联赛杯,进球队员赛后采访不慎爆粗后道歉

懂球帝 浏览 519

土耳其对内塔尼亚胡等人发出逮捕令 以色列回应

环球网资讯 浏览 856

美澳关键矿产协议被解读为旨在"对抗中国" 外交部回应

澎湃新闻 浏览 4762

中药材普涨,片仔癀为何反跌?

蓝鲸财经 浏览 11205

程强:缩量反弹,关注宏观事件密集落地

首席经济学家论坛 浏览 1067

有望明年初亮相 小米YU9假想图曝光

车质网 浏览 938

欧尔班:欧盟正讨论迫使俄赔偿乌方 从而偿还欧盟贷款

大风新闻 浏览 96

被神话的GPT,造不出你的梦中神车

深途 浏览 14820

媒体:中美在"香会"唇枪舌剑 美国高官"跑步"访华

直新闻 浏览 18825

百万人围观,「上下文图谱」火了,万亿美元新机遇?

机器之心Pro 浏览 349

视界大会短剧演员好尴尬!走红毯扎堆不给镜头,后台跟明星分开坐

萌神木木 浏览 837

9系大六座旗舰SUV又添一员,智己LS9预售33.69万起

网易汽车 浏览 858
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1