首页财产ai正文 实测GPT5.5 : 最强模子不是嘴炮,它真能干活儿 GPT-5.5发布,其亮点是“为真实事情而设计”。比拟前代,机能晋升,定位从“回覆”转向“履行”,已经于部门用户中开放,安全系统同步进级。 2026-04-24 16:00 ·微信公家号:字母榜袁心玥 AI投资人解读· GPT-5.5于多使命测试中体现精彩,如GDPval测试患上分84.9%,高在同类模子能于真实电脑情况操作,履行多步调使命安全系统进级。其定位从“回覆”转向“履行”,效率晋升,完成一样使命利用token更少。 · 模子机能晋升可能吸引更多用户,增长利用成本行业竞争或者促使敌手加快立异。 总结:GPT-5.5机能凸起,定位改变使其更契合真实事情场景,具备投资潜力。但需存眷成本上升与竞争加重危害,建议联合市场需求与敌手环境综合评估。内容由AI天生,仅供参考
GPT-5.5,终究发布。
作为OpenAI当下最强的模子,此次更新的亮点是“为真实事情而设计”。

及已往的模子比拟,GPT-5.5能更快理解利用者真正想做的工作,也能本身负担更多履行历程,可以于线检索信息、阐发数据、天生文档及表格、操作软件,并于差别东西之间往返切换,直到把使命完成。
用户再也不需要邃密地拆解每一一步,可以直接给它一个杂乱、多步调的问题,让它本身计划路径、挪用东西、查抄成果,于不确定中继承推进。
有网友直接评价,这是今朝为止最靠近AGI的模子。
今朝,GPT-5.5已经经于ChatGPT及Codex中向Plus、Pro、团队版及企业版用户慢慢开放,GPT-5.5 Pro则面向Pro和以上用户。API版本还没有上线。
0一、模子机能
先来看看模子于基准测试中的患上分环境。

此中最值患上存眷的指标是GDPval,这个测试不是传统选择题,而是用44种真实职业使命来评估模子,好比阐发数据、写陈诉、做判定。
GPT-5.5的成就是84.9%,比拟GPT-5.4的83.0%,有必然的晋升,也高在Claude Opus 4.7 的80.3%及Gemini 3.1 Pro的67.3%。

第二个要害测试是OSWorld,用来权衡模子于真实电脑情况中的操作能力。GPT-5.5 到达78.7%,高在GPT-5.4的75.0%,晋升幅度不算夸张,但意义很年夜。
这项能力磨练了一个更实际的问题:模子不仅能告诉你怎么做,还有能不克不及直接替你去做,包括点击界面、切换东西、履行多步调操作。

还有有Tau2 Telecom,这是一个电信客服流程测试,GPT-5.5 于无需分外调优的环境下到达98.0%。这种使命更靠近企业里的真实事情,需要于繁杂、多步调、有上下文依靠的流程中完成。

于更细分的能力上,GPT-5.5的编程能力继承晋升,于Terminal-Bench 2.0上到达了82.7%,于SWE-Bench Pro上到达了58.6%。

于其他常识事情基准测试中,GPT-5.5的体现也很精彩:FinanceAgent患上分60.0%,内部投资银行建模使命患上分88.5%,OfficeQA Pro患上分54.1%。申明它于布局化阐发及数据处置惩罚上已经经相称成熟。
科研方面虽然分数晋升相对于暖和,但已经经呈现可以或许介入推理、验证甚至辅助发明新成果的案例,这一点更像能力界限的变化,而不是简朴的机能增加。
把这些跑分放于一路看,会发明此次模子的评价尺度正于发生变化:已往咱们经常使用MMLU、GPQA如许的指标看模子的常识及推理能力,但此刻更偏重在GDPval、OSWorld这种“使命级评估”。
比拟起问模子知不知道某项常识,此刻更注重它能不克不及完成一项完备事情。
这也对于应了GPT-5.5本次的更新重点。模子最先可以或许自立地构造步调:先获守信息,再做判定,须要时挪用东西,末了把成果收拾成可以直接利用的输出。
于编程上,它介入整个开发流程,而不只是天生代码;于常识事情中,它产出陈诉、模子及决议计划建议,而不只是提供谜底;于操作层面,它甚至可以直接进入电脑情况,把这些步调履行出来。
这一代模子更像一个可以协作的履行者,患上分只是外貌,更主要的是这些分数暗地里指向的一件事:GPT-5.5的定位,从“回覆”转向了“履行”。
趁便一提,按照ARC Prize官方验证,GPT-5.5于ARC-AGI-2基准测试中取患上最高85.0%的正确率,成了新的SOTA模子。

除了了能力自己,这一代模子还有有一个被重复夸大的点:效率。
OpenAI给出的数据是,于现实办事中,GPT-5.5的速率与GPT-5.4基本持平,但于完成一样Codex使命时利用的token较着更少。这一点对于API用户特别主要,由于它直接决议了真实利用成本。
于订价上,GPT-5.5 API为每一百万输入token 5美元、输出30美元,Pro版本更高。这个价格是GPT-5.4的两倍。
不外OpenAI的逻辑是:单价虽然晋升,但因为使命完成效率更高,总成本未必上升。

别的,安全系统也于同步进级:GPT-5.5是今朝防护最严酷的一代模子,于发布前履历了完备的安全评估流程,包括内部与外部红队测试,以和针对于收集安全、生物等高危害能力的专项验证,并联合了近200个真实利用场景举行调解。
0二、模子体现
作为一个擅长繁杂使命的模子,GPT-5.5的编码上风于Codex中体现尤为凸起,可以完成从实现及重构到调试、测试及验证等工程事情。
按照官方文档,它于真实工程上体现很好:于年夜型使命中可以或许连续连结上下文(不会只盯着一小段代码);于问题不明确时,可以或许推理出妨碍缘故原由;会用东西去验证本身的假定;能把修改真正“贯串”到整个代码库,而不是只改一处。
官方给出了一些比力繁杂的示例,例如把一张天体图片从头做成一个新的Web运用。
技能上要求用WebGL做3D衬着、用Vite搭项目,内容上要只管即便接入ArtemisII使命的真实数据,把轨道、飞行路径、天体位置这些信息真实地体现出来。

还有有让GPT-5.5联合Codex天生的3D地牢竞技场原型。
模子不仅搭建了游戏架构,还有写出了基在Three.js的前端实现,并笼罩了战斗体系、仇敌机制及界面反馈等要害模块;情况贴图及脚色对于话也由GPT天生。只有脚色模子及动画交给了第三方东西处置惩罚。

于编程能力以外,GPT-5.5的能力已经经延长到更广泛的常识事情,因为它更擅长理解真实用意,以是可以更天然地跑完备个常识事情的流程:从获守信息、捉住重点、挪用东西、查抄成果,到把原始质料收拾成真正有效的输出。
于Codex里,GPT-5.5于天生文档、表格及演示文稿方面,比GPT-5.4更强。OpenAI 内部已经经于真实事情中利用这些能力:今朝,公司内部跨越85%的员工每一周城市利用 Codex,笼罩软件工程、财政、流传、市场、数据科学及产物等多个团队。
例以下列演示,就是利用GPT-5.5天生财政建模。

除了了官方的繁杂demo,为了看清模子于“单次天生”层面的体现,咱们也做了一些更偏基础能力的测试。
起首是每一次都被拉出来的鹈鹕骑自行车,左侧是GPT-5.4的体现,右侧是GPT-5.5。
还有有六边形小球滚动,可以看模子的物理理解。
于审美上,咱们用一句话让GPT-5.5设计了一个高端品牌网站,效果以下。
prompt:Design a premium brand website with a strong identity, focusing on typography, spacing, and a cohesive visual style. Avoid generic layouts.Use Chinese.Can run entirely in a single HTML file.
接下来让它自由阐扬,创造一个Unity气势派头的繁杂SVG动画。
prompt:Create a complex svg animation that an engineer with a background in unity would appreciate.Can run entirely in a single HTML file.
编程能力以外,像于社媒上很火的洗车问题,我知道必定也会有人想问。

这种问题一般难以回覆的缘故原由是,模子其实不会默许车必然要开已往才能洗(可能有上门洗车的办事)。不外既然需要“理解用户真实用意”,我想这其实不是甚么答错的理由。
0三、模子定位
假如把GPT-5.5放于已往这一年的演进脉络里看,它并不是纯真地缭绕模子能力做晋升,而是于逐渐转变模子的利用方式。
这条线实在可以从GPT-4o最先算起。其时*的变化是把文本、图象及语音放进统一个模子里处置惩罚,多个能力被放于统一个体系中完成,模子的内部最先变患上同一。
GPT-5把这类“同一”延长到了利用层。模子再也不只是等候用户发问,然后给出一次性尽可能完备的回覆,它多了一层判定:这个问题需要多快的相应、多深的推理,要不要挪用东西。
后面的几个5系版本,基本都于把这件事做细。
于GPT-5.3这一阶段,编码能力及东西挪用被较着强化,模子最先更不变地完成多步调代码天生、调试及履行流程。它不只是写代码,还有会本身一步步改、修过错,末了给出一个能用的成果。与此同时,它用东西的方式也变患上更天然,再也不是天生一堆看不懂的挪用代码,而是直接把该挪用的东西给用上。
到了GPT-5.4,重点已经经转向computer use及事情流能力,模子可以于差别运用之间往返切换,好比查资料、收拾信息、再天生成果,一步步把工作做完。同时,相应速率、token使用率及长使命中的不变性也于连续优化:它的反映更快了,回覆更爽性,再也不动不动就写一年夜段推理历程,于持续做一件事的时辰,也更少呈现先后说纷歧致的环境。
这些调解放于一路,能看出一种变化:模子最先更像一个于后台连续运转的体系,而不是一次性的问答东西。
用户与模子之间的瓜葛也于发生变化,从一问一答,酿成把一件工作交给它,然后看它一步步往下做。
顺着这条路径看,GPT-5.5的位置就比力清晰了。它不只有机能上的晋升,还有于继承把模子往使命履行的标的目的推进。
OpenAI将这一次的进级称为“very strong model”、“为真实事情而设计的一类新智能”,夸大模子于连续运行时的效率及不变性,好比于更永劫间内完成一整套流程,用更少的计较支撑更多步调。
许多人会同时觉得它更快了,也更“短”了,素质上是模子最先自动节制本身的计较方式,把更多资源留给真正需要睁开的部门:单次回覆再也不一味寻求睁开,而是更切近使命自己的需求。
对于在需要持续操作的场景来讲,这类变化很是有价值。一样一件事可以用更少的token完成,不仅是体验上的晋升,也直接影响到终极的成本。
当模子最先承接完备流程,评价尺度也会随之转变。比起单次回覆的优劣,更主要的是它可否不变高效地把一件事做完。
究竟,更合适真实事情场景的模子,才是好用的模子。
【本文由投资界互助伙伴微信公家号:字母榜授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-金年金字招牌(jinnian)今年会今年会2024








