金年金字招牌(jinnian)今年会今年会2024-实测GPT5.5 : 最强模型不是嘴炮，它真能干活儿

　　首页财产ai正文实测GPT5.5 : 最强模子不是嘴炮，它真能干活儿 GPT-5.5发布，其亮点是“为真实事情而设计”。比拟前代，机能晋升，定位从“回覆”转向“履行”，已经于部门用户中开放，安全系统同步进级。 2026-04-24 16:00 ·微信公家号：字母榜袁心玥 AI投资人解读· GPT-5.5于多使命测试中体现精彩，如GDPval测试患上分84.9%，高在同类模子能于真实电脑情况操作，履行多步调使命安全系统进级。其定位从“回覆”转向“履行”，效率晋升，完成一样使命利用token更少。 · 模子机能晋升可能吸引更多用户，增长利用成本行业竞争或者促使敌手加快立异。总结：GPT-5.5机能凸起，定位改变使其更契合真实事情场景，具备投资潜力。但需存眷成本上升与竞争加重危害，建议联合市场需求与敌手环境综合评估。内容由AI天生，仅供参考

GPT-5.5，终究发布。

作为OpenAI当下最强的模子，此次更新的亮点是“为真实事情而设计”。

及已往的模子比拟，GPT-5.5能更快理解利用者真正想做的工作，也能本身负担更多履行历程，可以于线检索信息、阐发数据、天生文档及表格、操作软件，并于差别东西之间往返切换，直到把使命完成。

用户再也不需要邃密地拆解每一一步，可以直接给它一个杂乱、多步调的问题，让它本身计划路径、挪用东西、查抄成果，于不确定中继承推进。

有网友直接评价，这是今朝为止最靠近AGI的模子。

今朝，GPT-5.5已经经于ChatGPT及Codex中向Plus、Pro、团队版及企业版用户慢慢开放，GPT-5.5 Pro则面向Pro和以上用户。API版本还没有上线。

0一、模子机能

先来看看模子于基准测试中的患上分环境。

此中最值患上存眷的指标是GDPval，这个测试不是传统选择题，而是用44种真实职业使命来评估模子，好比阐发数据、写陈诉、做判定。

GPT-5.5的成就是84.9%，比拟GPT-5.4的83.0%，有必然的晋升，也高在Claude Opus 4.7 的80.3%及Gemini 3.1 Pro的67.3%。

第二个要害测试是OSWorld，用来权衡模子于真实电脑情况中的操作能力。GPT-5.5 到达78.7%，高在GPT-5.4的75.0%，晋升幅度不算夸张，但意义很年夜。

这项能力磨练了一个更实际的问题：模子不仅能告诉你怎么做，还有能不克不及直接替你去做，包括点击界面、切换东西、履行多步调操作。

还有有Tau2 Telecom，这是一个电信客服流程测试，GPT-5.5 于无需分外调优的环境下到达98.0%。这种使命更靠近企业里的真实事情，需要于繁杂、多步调、有上下文依靠的流程中完成。

于更细分的能力上，GPT-5.5的编程能力继承晋升，于Terminal-Bench 2.0上到达了82.7%，于SWE-Bench Pro上到达了58.6%。

于其他常识事情基准测试中，GPT-5.5的体现也很精彩：FinanceAgent患上分60.0%，内部投资银行建模使命患上分88.5%，OfficeQA Pro患上分54.1%。申明它于布局化阐发及数据处置惩罚上已经经相称成熟。

科研方面虽然分数晋升相对于暖和，但已经经呈现可以或许介入推理、验证甚至辅助发明新成果的案例，这一点更像能力界限的变化，而不是简朴的机能增加。

把这些跑分放于一路看，会发明此次模子的评价尺度正于发生变化：已往咱们经常使用MMLU、GPQA如许的指标看模子的常识及推理能力，但此刻更偏重在GDPval、OSWorld这种“使命级评估”。

比拟起问模子知不知道某项常识，此刻更注重它能不克不及完成一项完备事情。

这也对于应了GPT-5.5本次的更新重点。模子最先可以或许自立地构造步调：先获守信息，再做判定，须要时挪用东西，末了把成果收拾成可以直接利用的输出。

于编程上，它介入整个开发流程，而不只是天生代码；于常识事情中，它产出陈诉、模子及决议计划建议，而不只是提供谜底；于操作层面，它甚至可以直接进入电脑情况，把这些步调履行出来。

这一代模子更像一个可以协作的履行者，患上分只是外貌，更主要的是这些分数暗地里指向的一件事：GPT-5.5的定位，从“回覆”转向了“履行”。

趁便一提，按照ARC Prize官方验证，GPT-5.5于ARC-AGI-2基准测试中取患上最高85.0%的正确率，成了新的SOTA模子。

除了了能力自己，这一代模子还有有一个被重复夸大的点：效率。

OpenAI给出的数据是，于现实办事中，GPT-5.5的速率与GPT-5.4基本持平，但于完成一样Codex使命时利用的token较着更少。这一点对于API用户特别主要，由于它直接决议了真实利用成本。

于订价上，GPT-5.5 API为每一百万输入token 5美元、输出30美元，Pro版本更高。这个价格是GPT-5.4的两倍。

不外OpenAI的逻辑是：单价虽然晋升，但因为使命完成效率更高，总成本未必上升。

别的，安全系统也于同步进级：GPT-5.5是今朝防护最严酷的一代模子，于发布前履历了完备的安全评估流程，包括内部与外部红队测试，以和针对于收集安全、生物等高危害能力的专项验证，并联合了近200个真实利用场景举行调解。

0二、模子体现

作为一个擅长繁杂使命的模子，GPT-5.5的编码上风于Codex中体现尤为凸起，可以完成从实现及重构到调试、测试及验证等工程事情。

按照官方文档，它于真实工程上体现很好：于年夜型使命中可以或许连续连结上下文（不会只盯着一小段代码）；于问题不明确时，可以或许推理出妨碍缘故原由；会用东西去验证本身的假定；能把修改真正“贯串”到整个代码库，而不是只改一处。

官方给出了一些比力繁杂的示例，例如把一张天体图片从头做成一个新的Web运用。

技能上要求用WebGL做3D衬着、用Vite搭项目，内容上要只管即便接入ArtemisII使命的真实数据，把轨道、飞行路径、天体位置这些信息真实地体现出来。

还有有让GPT-5.5联合Codex天生的3D地牢竞技场原型。

模子不仅搭建了游戏架构，还有写出了基在Three.js的前端实现，并笼罩了战斗体系、仇敌机制及界面反馈等要害模块；情况贴图及脚色对于话也由GPT天生。只有脚色模子及动画交给了第三方东西处置惩罚。

于编程能力以外，GPT-5.5的能力已经经延长到更广泛的常识事情，因为它更擅长理解真实用意，以是可以更天然地跑完备个常识事情的流程：从获守信息、捉住重点、挪用东西、查抄成果，到把原始质料收拾成真正有效的输出。

于Codex里，GPT-5.5于天生文档、表格及演示文稿方面，比GPT-5.4更强。OpenAI 内部已经经于真实事情中利用这些能力：今朝，公司内部跨越85%的员工每一周城市利用 Codex，笼罩软件工程、财政、流传、市场、数据科学及产物等多个团队。

例以下列演示，就是利用GPT-5.5天生财政建模。

除了了官方的繁杂demo，为了看清模子于“单次天生”层面的体现，咱们也做了一些更偏基础能力的测试。

起首是每一次都被拉出来的鹈鹕骑自行车，左侧是GPT-5.4的体现，右侧是GPT-5.5。

还有有六边形小球滚动，可以看模子的物理理解。

于审美上，咱们用一句话让GPT-5.5设计了一个高端品牌网站，效果以下。

prompt：Design a premium brand website with a strong identity, focusing on typography, spacing, and a cohesive visual style. Avoid generic layouts.Use Chinese.Can run entirely in a single HTML file.

接下来让它自由阐扬，创造一个Unity气势派头的繁杂SVG动画。

prompt：Create a complex svg animation that an engineer with a background in unity would appreciate.Can run entirely in a single HTML file.

编程能力以外，像于社媒上很火的洗车问题，我知道必定也会有人想问。

这种问题一般难以回覆的缘故原由是，模子其实不会默许车必然要开已往才能洗（可能有上门洗车的办事）。不外既然需要“理解用户真实用意”，我想这其实不是甚么答错的理由。

0三、模子定位

假如把GPT-5.5放于已往这一年的演进脉络里看，它并不是纯真地缭绕模子能力做晋升，而是于逐渐转变模子的利用方式。

这条线实在可以从GPT-4o最先算起。其时*的变化是把文本、图象及语音放进统一个模子里处置惩罚，多个能力被放于统一个体系中完成，模子的内部最先变患上同一。

GPT-5把这类“同一”延长到了利用层。模子再也不只是等候用户发问，然后给出一次性尽可能完备的回覆，它多了一层判定：这个问题需要多快的相应、多深的推理，要不要挪用东西。

后面的几个5系版本，基本都于把这件事做细。

于GPT-5.3这一阶段，编码能力及东西挪用被较着强化，模子最先更不变地完成多步调代码天生、调试及履行流程。它不只是写代码，还有会本身一步步改、修过错，末了给出一个能用的成果。与此同时，它用东西的方式也变患上更天然，再也不是天生一堆看不懂的挪用代码，而是直接把该挪用的东西给用上。

到了GPT-5.4，重点已经经转向computer use及事情流能力，模子可以于差别运用之间往返切换，好比查资料、收拾信息、再天生成果，一步步把工作做完。同时，相应速率、token使用率及长使命中的不变性也于连续优化：它的反映更快了，回覆更爽性，再也不动不动就写一年夜段推理历程，于持续做一件事的时辰，也更少呈现先后说纷歧致的环境。

这些调解放于一路，能看出一种变化：模子最先更像一个于后台连续运转的体系，而不是一次性的问答东西。

用户与模子之间的瓜葛也于发生变化，从一问一答，酿成把一件工作交给它，然后看它一步步往下做。

顺着这条路径看，GPT-5.5的位置就比力清晰了。它不只有机能上的晋升，还有于继承把模子往使命履行的标的目的推进。

OpenAI将这一次的进级称为“very strong model”、“为真实事情而设计的一类新智能”，夸大模子于连续运行时的效率及不变性，好比于更永劫间内完成一整套流程，用更少的计较支撑更多步调。

许多人会同时觉得它更快了，也更“短”了，素质上是模子最先自动节制本身的计较方式，把更多资源留给真正需要睁开的部门：单次回覆再也不一味寻求睁开，而是更切近使命自己的需求。

对于在需要持续操作的场景来讲，这类变化很是有价值。一样一件事可以用更少的token完成，不仅是体验上的晋升，也直接影响到终极的成本。

当模子最先承接完备流程，评价尺度也会随之转变。比起单次回覆的优劣，更主要的是它可否不变高效地把一件事做完。

究竟，更合适真实事情场景的模子，才是好用的模子。

【本文由投资界互助伙伴微信公家号：字母榜授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-金年金字招牌(jinnian)今年会今年会2024