首页财产ai正文 突发!GPT-5.5深夜炸场,天选「牛马」,OpenAI悟了? 4月24日凌晨OpenAI发布GPT-5.5和GPT-5.5 Pro,以「真实事情场景」为导向,于多测试中刷高成就,其进级激发存眷,虽有局限但代表主要标的目的。 2026-04-24 16:35 ·微信公家号:雷科技雷科技AI硬件组 AI投资人解读· GPT-5.5专为真实事情打造,于切近现实的基准测试中体现精彩,能审核年夜量税表、处置惩罚繁杂代码事情,且输出更具一致性。 · 模子能力晋升但未从头界说上限,价格昂贵,对于使命界限依靠更强,智能体从观点走向实际仍需打磨。 总结:GPT-5.5于事情场景运用上有显著前进,具有投资潜力,但要存眷成本、能力通用性和打磨周期等危害,建议联合市场竞争态势综合评估。内容由AI天生,仅供参考
北京时间 4 月 24 日凌晨,OpenAI 忽然发布了 GPT-5.5,以和更高规格的 GPT-5.5 Pro。
这不是一次通例的小版本迭代。于 OpenAI 看来,GPT-5.5 不仅是他们最强的模子,更是新的智能模子,即专为真实事情及智能体使命打造的模子。
说白了,实在就是各家近来都于讲的「智能体模子」,模子的定位更可能是作为智能体的「智能引擎」。
以是不出不测,缭绕「谈天」的各项能力就没那末重点了,缭绕「事情」来说才是王道。而从纸面参数及 benchmark 看,GPT-5.5 简直延续了 OpenAI 已往半年的技能线路,更多以「真实事情场景」为导向,于一些取向更切近现实的基准测试中又刷了新高,好比:
- Terminal-Bench 2.0:82.7%(繁杂号令行使命)
- GDPval:84.9%(跨 44 种职业的常识事情)
- OSWorld-Verified:78.7%(真实电脑操作能力)
- Tau2-bench Telecom:98.0%(繁杂客服流程)
不外基准测试也就「图一乐」,即即是这些取向更靠近现实事情的测试,也很难逃过「高分低能」的问题。以是,GPT-5.5 真的就像 OpenAI 新闻稿开篇所言,会是咱们迈向 PC 事情新方式的下一步吗?
0一、从 AI Coding 到 AI 办公,GPT 也是当真干活了
按照 OpenAI 宣布的信息,GPT-5.5 Pro 仅撑持 Pro 和以上定阅用户,GPT-5.5 则撑持 Plus 和以上的定阅用户,将于今天正式上线 ChatGPT 以和 Codex。不外包括我于内,许多 Plus 还有未收到 GPT-5.5 的新模子推送,理论上应该采纳了分批推送的方式。
不外官方也展示了一些现实的利用案例,配合点是都不怎么「洁净」,更像咱们现实面对事情使命,也不是一步就能完成。而对于在现阶段重点推 Codex 的 OpenAI 来讲,Agentic Coding 必定是最主要的。
这一代 GPT-5.5 也于正式发布前被拿去做代码重构、跨文件 bug 修复、测试补全这些更靠近真实工程流程的事情。
外部开发者的实测也证明了 GPT-5.5 于代码事情长进步。MagicPath CEO Pietro Schirano 就用 GPT-5.5 将一个包罗数百个前端及重构变动的分支归并为一个一样有庞大变化的主分支,只花了 20 分钟就一次性解决了所有事情,「我真的觉得本身于及一个更高的聪明共事。」
不是说它一次就必定全对于,要害是它更易「走于准确的轨道上」,半途不消频仍拉回标的目的。
CodeRabbit 的评测里有一个细节颇有意思。他们没有夸大模子能写出多繁杂的代码,反而更多夸赞它于 code review 里更「克制」,更偏向在指出真正会影响上线的问题,而不是泛泛而谈。
同时 Cursor、Windsurf 团队的利用陈诉也都指出,GPT-5.5 于永劫使命、处置惩罚歧义方面都比 GPT-5.4 较着更好。
别的,OpenAI 的财政团队还有用它审核了 24771 份 K-1 税表、共计 71637 页文件,并称这套流程比上一年提早了两周完成。换个角度看,它实在展现了 GPT-5.5 于长流程里的不变性。而两万多份税表、七万多页文档,是一个极轻易堕落、需要连续校验的反复性事情。
已往模子于这类场景里*的问题,是半途漂移,或者者于细节上逐渐掉真。而不管是表格处置惩罚、陈诉天生,还有是多文档整合,GPT-5.5 的输出更有一致性,格局更不变,先后逻辑也更联贯。法令 AI 公司 Harvey 就夸大了 GPT-5.5 的推理布局、援用、排版这些细节更像一个及格的专业人士。
并且这种案例的价值还有不于范围,由于模子不仅于阐发数据,还有于构建流程、天生法则并接入现实营业体系,已经经很是靠近典型的常识事情流程。
可以说,此次 GPT-5.5 最焦点的进级就是现代社会缭绕计较机构建的事情场景。英伟达开创人兼 CEO 黄仁勋还有于一封全员信呼吁所有人利用基在 GPT-5.5 的 Codex,「让咱们跳到光速。接待来到人工智能时代。」
假如说 GPT-4 解决的是「答对于」,GPT-5.4 于解决处置惩罚更繁杂的问题及使命,到了 GPT-5.5,问题酿成了能不克不及更高效、不变地做好一件事。究竟,做完及做好彻底是两回事,中间也是一道「天堑」。
这也是为何 OpenAI 于这一代里不停夸大「智能体」这个词。
GPT-5.5 从模子层面改良了智能体最焦点的几个特性:理解方针、拆解步调、挪用东西、批改历程,并终极交付成果。能力上看,每一一项都不是全新能力,但被放到统一个体系里以后,体验最先发生变化。
外部反馈也基本印证了这一点。不管是开发者还有是企业用户,会商的核心都于变。从「答患上准禁绝」,酿成「要改频频」「能不克不及一次跑通」。这两个问题的不同,实在就是模子脚色的变化从辅助决议计划,酿成介入履行。
固然,这类变化还有远没有到「可以彻底罢休」的水平。多个第三方评测都提到了 GPT-5.5 对于使命界限的依靠更强。需求描写不清,它不会自动帮你补全,而是按现有信息履行。这类「听话」于某些场景是长处,于另外一些场景反而是限定。
但这偏偏申明,它正于变患上更像一个真实世界里的协作者。能力没有忽然超过一代,事情方式确凿变了。
0二、GPT-5.5 到底进级了甚么?
已往两年,年夜模子的进级路径很清楚:更强的推理、更长的上下文、更高的正确率。GPT-5.5 仍旧于做这些,但重点还有是变了,OpenAI 就夸大了模子更早理解使命、更少依靠提醒、更会利用东西,而且可以或许连续推进直到完成。
这句话实在也对于应的是已往一直存于、但始终没被完全解决的一些问题。
其一是理解问题,但不睬解使命。许多模子于繁杂场景里的体现是单步回覆很好,但一旦触及多步调流程,就会最先偏离,甚至需要用户不停批改。GPT-5.5 的变化,是它最先于一最先就成立使命布局,而不是等用户一步步喂。
其二是会用东西,但不会构造东西。从去年最先,东西挪用已经经成为年夜模子的主流能力,但年夜大都模子只是把东西当做外挂。GPT-5.5 于 Terminal-Bench 及 OSWorld 这种评测中的晋升,更主要的是它不只是挪用东西,而是把东西酿成事情流程的一部门。
其三则是现实的交付质量。已往模子的输出是「谜底」,此刻愈来愈多场景要求的是「成果」,并且是更好、更正确。GPT-5.5 的方针就是削减中止,让使命可以持续推进,直到形成一个可以直接利用的输出。
固然,GPT-5.5 更强了,但也没有强到「改写一切」。问题于在,这一轮竞争早就不是单点模子能力的比拼。
本年以来,一个变化已经经很是明确。不管是 OpenAI,还有是 Google、Anthropic,甚至包括海内的阿里、字节,都于把重点从「更强模子」转向「智能系统统」。模子只是底座,真实的竞争于在能不克不及把模子接入东西、接入数据、接入营业流程,让它真正介入事情。
行业里的要害词也从「推理能力」「上下文长度」,逐渐酿成了「agent(智能体)」「workflow(事情流)」「computer use(计较机利用)」。
OpenAI 本身的动作最典型。Codex 的从头被推到台前,也不是偶尔,它自然就是最合适承载智能体能力的进口。
但此刻还有有一个问题是,GPT-5.5 真的很贵。
前段时间 Claude Opus 4.7 的价格已经经劝退了许多,而 OpenAI 虽然夸大 GPT-5.5 险些是于不捐躯速率及 Token 用量的环境下实现了周全进级,延迟及 GPT-5.4 相称甚至更低,还有能用更少的 Token 于 Codex 上完成一样的使命,但现实 API 价格流出后,还有是让许多开发者心凉了半截:
输入 5 美元/百万 tokens、缓存输入 0.5 美元/百万 tokens、输出 30 美元/百万 tokens,直接于 GPT-5.4 的基础上翻了一番。
*模子还有是太贵了。只能期待一下传说风闻将于本周发布的 DeepSeek V4,但愿可以或许复刻 2025 年的古迹,经由过程此次的多模态进级把智能体模子也能打成白菜价。
0三、写于末了
从能力上看,它确凿更强了,但这类「更强」已经经很难再用一次发布就被感知到。没有那种一上手就较着差别的冷艳,更像是把已往几代模子的短板一点点补齐,把原本不不变之处变患上更靠得住。
但换个角度看,这反而是一个更主要的旌旗灯号。已往各人比的是谁更智慧,此刻最先比的是谁更不变、谁更能融入现实事情、谁能于繁杂流程里少堕落。
GPT-5.5 就落于这个阶段。它没有从头界说模子能力的上限,但于「把工作做完」这件事上往前走了一步。而当模子最先可以或许真正负担一部门事情时,真正被转变的就再也不只是效率,还有有新的事情方式,包括人与 AI 之间的分工瓜葛。
固然,这个历程还有远没有竣事。GPT-5.5 的成本仍旧高,能力也还有不敷通用,许多场景依然需要人类不停干涉干与。智能体这件事,从观点走向实际,还有要履历一段很长的打磨周期。
但标的目的已经经很清晰了。当模子最先进入流程,当东西、数据及体系逐渐缭绕它从头构造,当愈来愈多公司把它当做「事情的一部门」而不是「辅助东西」,这一轮变化就再也不只是技能进级。
【本文由投资界互助伙伴微信公家号:雷科技授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-金年金字招牌(jinnian)今年会今年会2024








