OpenAI GPT-5.5深夜上线:夺回AI王座,但价格翻倍引发争议

GPT-5.5王座加冕夺回AI性能第一,编程超越Claude Opus 4.7强势回归

一、GPT-5.5深夜发布:更聪明、更快、更会干活

就在今天凌晨,OpenAI正式发布GPT-5.5,官方给它的定位相当直接:迄今最聪明、最直觉、最适合真实工作的模型。

距离OpenAI上次发布GPT-5.4仅不到两个月时间,从网友的实测来看GPT-5.5已经有了不小的进步:更会说”人话”了、更快了、编程更强了。”OpenAI仍在创新”——这是行业里的普遍评价。

OpenAI发文表示,GPT-5.5是团队迄今为止最智能、最直观易用的模型,也是在计算机上完成工作的新方式的下一步,能更快地理解用户意图,并能承担更多工作。

这次GPT-5.5的一个突破是,在提升智能的同时,没有牺牲速度。通常情况下,规模更大、功能更强大的模型响应速度较慢,但GPT-5.5在实际应用中的延迟与GPT-5.4相当,同时智能水平却更高。

OpenAI联合创始人兼总裁Greg Brockman在媒体电话会上放出一个信号:GPT-5.5让公司离他们心心念念的”超级应用(Super App)”又近了一步。

如果你还记得,Sam Altman和Greg Brockman之前就多次提到过想把ChatGPT、Codex和AI浏览器揉成一个统一服务,专门给企业客户当”万能工具箱”。有趣的是,”超级应用”也是Elon Musk的执念——他早就想把X(原Twitter)搞成同样的东西。看来,这两个老同事在”大一统App”这个赛道上也要正面刚上了。

二、编程能力登顶:英伟达工程师直言”失去它就像断了一条手臂”

OpenAI将GPT-5.5定位为”迄今最强的代理编程模型”,一系列基准测试结果相当硬核:

  • Terminal-Bench 2.0(复杂命令行工作流):准确率82.7%,业内顶尖。
  • SWE-Bench Pro(真实GitHub问题解决):58.6%,一次性端到端解决的问题数超过以往任何模型。
  • Expert-SWE(OpenAI内部评估长期编码任务的基准,中位预估人类需要20小时):同样超越GPT-5.4。

更让人印象深刻的是,GPT-5.5在Codex环境中已经能承担从实现、重构到调试、测试、验证的全流程工程工作。有早期测试者反馈,它理解系统整体结构的能力明显变强:能判断为什么某功能失败、修复该落在哪里、以及代码库中还有哪些地方会受影响。

Every公司CEO Dan Shipper评价道:”这是我用过的第一个具备真正概念清晰度的编程模型。”

MagicPath的CEO Pietro Schirano也分享了一个案例:GPT-5.5只用了大约20分钟,就一次性将一个包含数百个前端和重构变更的分支合并到另一个同样变动巨大的主分支中。

英伟达一位提前使用该模型的工程师甚至说:”没了GPT-5.5,感觉就像断了一条手臂。”

这种OpenAI式的夸张修辞让人联想起CEO奥尔特曼曾自称观看GPT-5演示后”眩晕瘫倒”——但不管怎样,从实测反馈来看,GPT-5.5的编程能力确实有了质的飞跃。

三、性能榜单霸榜:夺回AI领域第一位

在第三方评测机构Artificial Analysis的综合智能指数榜单上,OpenAI凭借GPT-5.5系列拿下了第一名和第二名,前六中包揽了四席。

Artificial Analysis发帖认为:”GPT-5.5让OpenAI重回AI领域的第一位,打破了与Anthropic和谷歌的三方平局。”

然而,在光环之下,也需要指出OpenAI仍有自己的营销心思。例如,有网友发现,在基准测试榜单上,OpenAI没有呈现的几个数据仍然落后于Opus 4.7。

四、价格翻倍惹争议:Pro版百万输入30美元

革命性的体验伴随着高昂的价格。GPT-5.5的定价相比上一代整整翻了一倍。

官方表示,GPT-5.5标准定价为每百万输入tokens 5美元、输出30美元,对比之下,GPT-5.4这一数字分别是2.5美元和15美元。而GPT-5.5 Pro的定价更是高至每百万输入tokens 30美元、输出180美元。

对比竞争对手Anthropic的最强模型Opus 4.7,每百万输入tokens是5美元,输出25美元。GPT-5.5的输入价格和Opus 4.7持平,但输出贵了20%。

OpenAI在博客中表示,虽然单价高于GPT-5.4,但token效率的提升可以对冲价格差异,大多数用户的实际使用成本不会有明显增加。同样的Codex任务,GPT-5.5用的token比GPT-5.4明显更少。

不过,具体性价比如何还需要业界的反馈验证。毕竟,对于那些重度用户来说,价格翻倍仍然是一个不小的负担。

五、Anthropic的威胁:估值突破万亿美元

OpenAI密集发布产品的背后,是Anthropic带来的巨大压力。

据外媒报道,Anthropic在私募二级市场的估值已突破1万亿美元。作为参照,OpenAI今年3月末最新一轮融资的估值为8520亿美元。

与此同时,这个月初Anthropic宣布公司年化收入(ARR)已超过300亿美元(约合人民币2048亿元),而OpenAI最新的年化收入为250亿美元(约合人民币1706亿元)。

不过OpenAI在内部备忘录提到Anthropic年化营收存在大约80亿的水分,统一口径后Anthropic年化营收实际约为220亿美元,低于OpenAI。但即便如此,按照Anthropic目前的增长速度,超过OpenAI或许只是时间问题。

更让OpenAI紧张的是,就在其发布GPT-5.5前,Anthropic旗舰模型Claude被大量开发者反馈”降智”——推理能力断崖式下跌、幻觉频发。就在GPT-5.5发布后,Anthropic”巧合”地连夜发布报告,承认产品层调整导致Claude模型性能下降,并提及相关漏洞及限制已修复。

六、知识工作与科研:不止于码农

OpenAI首席研究官Mark Chen强调,GPT-5.5的进步远不止于编程。在知识工作领域,如生成文档、表格、幻灯片、运营研究、财务建模,它同样比前代更强。当与Codex的”计算机使用”能力结合时,GPT-5.5几乎可以像人一样”看到屏幕、点击、输入、导航”,在不同工具间精确切换。

据官方介绍,OpenAI内部已经在真实工作流中大规模使用。目前公司超过85%的员工每周都会用Codex,涵盖财务、公关、市场、数据科学等职能。

例如:

  • 公关团队用GPT-5.5分析了六个月的演讲请求数据,搭建了一个自动化Slack代理,低风险请求全自动处理,高风险请求再转人工。
  • 财务团队用它审核了24771份K-1税务表格,总计7万多页,比前一年快了整整两周。
  • 市场团队有人把每周业务报告生成自动化,每周省下5到10个小时。

在科学研究方面,GPT-5.5的表现同样令人眼前一亮。它在GeneBench(遗传学多阶段数据分析)和BixBench(生物信息学真实世界数据分析)上都取得了领先成绩。

更惊人的是,一个内部版本的GPT-5.5甚至帮助发现了关于拉姆齐数的新证明,这是组合数学中一个极为艰深的领域——该证明后来在Lean中得到了验证,成为GPT-5.5不仅能写代码、还能贡献原创数学论证的里程碑案例。

此外,杰克逊基因组医学实验室的免疫学教授Derya Unutmaz用GPT-5.5 Pro分析了一个62样本、近28000个基因的数据集,生成了一份详细的研究报告。他说:”这项工作原本需要我的团队花费数月。”

七、推理效率的秘密:模型帮模型”打工”

一个有趣的细节是,GPT-5.5在服务效率上的提升,居然也借用了模型自己的能力。

OpenAI透露,为了让GPT-5.5保持与GPT-5.4相同的延迟,他们重新设计了整个推理系统,并专门与NVIDIA GB200/GB300 NVL72系统进行了协同设计和训练。

其中一项关键优化是负载均衡和分区算法。过去,系统会将请求拆成固定数量的块来均衡负载,但这种方式不能适应所有流量模式。于是,他们让Codex分析了数周的生产流量,并编写了自定义启发式算法来优化分区和负载分配——这一改进直接将token生成速度提高了20%。

八、写在最后:重回牌桌,但能否坐稳?

GPT-5.5的发布是OpenAI对外界的一次公开喊话:OpenAI还在,而且仍然是最强的那个。

但Anthropic的威胁是真实的。估值突破万亿美元、年化收入直逼OpenAI、Claude在开发者中的口碑持续上升——这些都在提醒OpenAI,曾经的”AI一哥”正在被追赶。

对于用户来说,GPT-5.5的性能提升是实打实的利好。但价格翻倍的代价也不容忽视。当AI模型越来越强大,如何平衡性能与成本,将成为所有用户必须面对的问题。

无论如何,AI军备竞赛正在进入一个新阶段。在这个阶段,速度和效率可能比单纯的参数规模更重要。OpenAI显然深谙此道——GPT-5.5用更少的token达到更好的效果,这才是真正的进步。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注