关闭广告

强化AI编程能力迎战谷歌!OpenAI发布GPT-5.2-Codex,软件工程和网安一把抓

华尔街见闻官方468人阅读

在发布GPT-5.2系列模型一周后,OpenAI再次出手,美东时间18日周四推出基于GPT-5.2的新一代Codex模型GPT-5.2-Codex,号称最先进的智能体编码模型,聚焦专业软件工程和防御性网络安全,进一步巩固其在AI编程领域对谷歌Gemini的竞争优势。

OpenAI介绍,GPT-5.2-Codex在编码性能、网络安全能力和长周期任务处理上均实现突破。GPT-5.2-Codex在SWE-Bench Pro测试中准确率达到56.4%,在Terminal-Bench 2.0测试中达到64.0%,刷新两项基准测试纪录。该模型已于发布当天在所有Codex界面向付费ChatGPT用户开放,API用户接入正在推进中。

OpenAI特别强调GPT-5.2-Codex在网络安全方面的显著提升。CEO Sam Altman提到,本月早些时候,一名安全研究人员使用上一代模型GPT-5.1-Codex-Max就发现并负责任地披露了React中可能导致源代码暴露的漏洞。OpenAI方面认为,新模型尚未达到"高"级别网络安全能力,但公司正在为未来模型跨越这一门槛做准备。

OpenAI表示,GPT-5.2-Codex周四当天在所有Codex界面向付费ChatGPT用户发布,正在努力在未来几周内安全地为API用户启用访问。该司计划通过逐步推出、部署与保护措施相结合以及与安全社区密切合作的方式,在最大化防御影响的同时降低滥用风险。

本周四的发布延续了OpenAI在AI编程领域的进攻态势。

上周发布GPT-5.2时,OpenAI就援引编码初创公司的用户体验称,该模型拥有“最先进的智能体编码性能”,还披露GPT-5.2的Thinking版本在SWE编码能力测试中创下历史最高分,成为OpenAI首个性能达到或超过人类专家水平的模型。此举被视为对谷歌Gemini 3在编码和推理能力上获得好评的直接回应。

编码性能再升级,针对大规模实战场景优化

GPT-5.2-Codex是GPT-5.2的优化版本,专门针对Codex中的智能体编码进行了强化。OpenAI表示,新模型在三个关键领域实现改进:通过上下文压缩提升长周期工作能力,在重构和迁移等项目级任务上表现更强,以及在Windows环境中性能改善。

在基准测试中,GPT-5.2-Codex在SWE-Bench Pro测试中准确率达到56.4%,高于GPT-5.2的55.6%和GPT-5.1的50.8%。在Terminal-Bench 2.0测试中,GPT-5.2-Codex准确率为64.0%,GPT-5.2为62.2%,GPT-5.1为58.1%。SWE-Bench Pro要求模型在给定代码库中生成补丁以解决实际软件工程任务,Terminal-Bench 2.0则测试AI智能体在真实终端环境中完成编译代码、训练模型和设置服务器等任务的能力。


GPT-5.2-Codex在长上下文理解、可靠的工具调用、改进的真实性和原生压缩方面均有提升,使其成为长时间编码任务中更可靠的合作伙伴,同时在推理过程中保持token效率。更强的视觉性能使GPT-5.2-Codex能够更准确地解读屏幕截图、技术图表和用户界面,可以将设计稿快速转化为功能原型。


OpenAI表示,凭借这些改进,Codex能够在大型代码库中进行长时间工作,保持完整上下文,更可靠地完成大规模重构、代码迁移和功能构建等复杂任务,即使计划改变或尝试失败也不会失去追踪。

网络安全能力大幅跃升,为跨越"高"级别门槛做准备

网络安全成为GPT-5.2-Codex的另一个重点突破领域。OpenAI在核心网络安全评估中观察到,从GPT-5-Codex开始能力出现急剧跳跃,GPT-5.1-Codex-Max又实现一次大幅提升,如今GPT-5.2-Codex完成第三次跳跃。

在专业夺旗赛评估中,GPT-5.2-Codex展现出解决需要专业级网络安全技能的高级多步骤真实挑战的能力。据OpenAI的准备框架评估,GPT-5.2-Codex虽然尚未达到"高"级别网络安全能力,但该公司预计未来AI模型将继续沿着这一轨迹发展,正在按照每个新模型都可能达到"高"级别的标准进行规划和评估。

一个真实案例凸显了新模型的防御性网络安全潜力。12月11日,React团队公布了三个影响使用React服务器组件构建的应用程序的安全漏洞。Stripe旗下Privy公司首席安全工程师Andrew MacPherson在使用GPT-5.1-Codex-Max与Codex CLI研究另一个名为React2Shell的严重漏洞时,通过引导Codex执行标准防御性安全工作流程,意外发现了这些此前未知的漏洞并负责任地向React团队披露。

Altman在社交平台上披露:“上周,一名使用我们上一代(Codex)模型的安全研究人员发现并披露了React中可能导致源代码暴露的漏洞。我相信这些模型对网络安全将产生净收益,但随着它们的改进,我们正处于'真实影响阶段'。”


推出可信访问计划,为专业安全人员提供特殊权限

为平衡能力提升与安全风险,OpenAI针对网络安全能力的增强在模型层面和产品层面都增加了额外保护措施,包括针对有害任务和提示注入的专门安全训练、智能体沙箱以及可配置的网络访问。同时,公司正在进行仅限邀请的可信访问计划试点。

该计划最初仅向经过审查的安全专业人员和具有明确专业网络安全用例的组织开放。符合条件的参与者将获得使用OpenAI最强大模型进行防御性工作的权限,使其能够开展合法的双重用途工作,如漏洞研究或授权的红队测试,同时消除安全团队在模拟威胁行为者、分析恶意软件或压力测试关键基础设施时可能遇到的限制。

Altman在X上表示:"我们正在开始探索用于防御性网络安全工作的可信访问计划。"他还在另一条帖子中为Codex招聘打广告:"Codex变得极其出色,并将快速改进。如果你想帮助它在明年变得好100倍,团队正在招人。保证有疯狂的冒险,成功的可能性很大。"



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

医院人满为患 加沙患者焦急等待救治

国际在线 浏览 736

修杰楷承认逃兵役!曾花钱造出假病历,贾静雯回应称孩子受到惊吓

萌神木木 浏览 1052

中国天眼再升级!FAST将建成巨型综合孔径阵列

环球网资讯 浏览 100

《树影迷宫》给10位演员演技排个名

皮皮电影 浏览 825

刘强东朋友圈疑曝光,自嘲在老婆面前失去没自信

柠檬有娱乐 浏览 893

陈道明说的没错,不拍戏就消失的欧豪,已经走上了另外一条道路

豆哥记录 浏览 200

下阶段市场主线逐渐浮现 资金偏好或转向中大盘成长股

上海证券报 浏览 14059

“烟管裤”今年冬天爆火,怎么搭都时髦!

LinkFashion 浏览 469

华为鸿蒙全新MPV曝光!车长5米2,比腾势D9豪华,你看好吗?

网上车市 浏览 11102

红色通缉令下,戈恩从汽车领袖变身管理大师

帮宁工作室 浏览 436

佘诗曼四封视后、黄宗泽终结陪跑、李施嬅六度梦碎:TVB视帝视后,实力还是玄学?

仙女事件簿 浏览 268

有气质的40岁女人都喜欢低马尾和微卷发

成铭聊发型 浏览 14942

中方取消多场重要会议 李在明承诺:帮高市"搞定"中国

现代小青青慕慕 浏览 2533

拉波尔塔:姆巴佩的做法确实让我感到意外,无论输赢都要大度

懂球帝 浏览 142

OpenAI与亚马逊签署380亿美元算力采购协议,减少对微软依赖

IT之家 浏览 910

累坏了,库尼亚打进扳平球+中框1次,贡献解围2次拦截2次

懂球帝 浏览 281

娜扎《玉茗茶骨》解锁国风新体验

呱田里的猹 浏览 228

衣服完全没有必要越买越多!准备好这3款单品,百搭又舒适

静儿时尚达人 浏览 248

可折叠iPhone来了却可能买不到?分析师预警发布初期将严重缺货

环球网资讯 浏览 469

全新奥迪A6L实车:外观大变样轴距超3米,带智能辅助驾驶小蓝灯?

Nice好车 浏览 1205

郭碧婷带娃逛街被偶遇,身材走形无“女神范儿”

扒虾侃娱 浏览 19617
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1