
曾经常年堆放垃圾的小山,如今遍植樱花和绣球,待到春来,花开满山。而不远处的低碳花卉可持续种植基地,则通过对花卉种植废弃物的技术处理,将其转化为种植所需的资源,建立起了产业内部的循环链条,让花卉经济更加绿色、可持续。
大模子的竞争涓滴莫得冷却的迹象,OpenAI日前又甩出一个“王炸”——GPT-5.4。这是OpenAI初次将前沿推理、编码与智能体才气整合于单一模子,官方合计它是“现在面向专科使命推出的才气最强、成果最高的前沿模子之一”,标记着AI工夫从对话交互向自主智能体现实任务迈出要害一步。
GPT-5.4在两个维度上跳动明显:第一、起原才气,它是OpenAI首个具备原生打算机使用才气的通用模子,在桌面操控测试中初次超越了东谈主类平均水平;第二、它的“情商”有所进步,该模子在SimpleQA准确率上达到62.5%,较GPT-4o进步了24%,幻觉率下落了25%。
与电脑打交谈的白领使命,会被GPT-5.4颠覆吗?
AI白领超越东谈主类白领
GPT-5.4最具放浪性的编削在于其原生打算机使用才气。此前,岂论是ChatGPT Atlas如故AutoGPT类智能体,均接收外挂插件或寥寂智能体模式,并非模子原生功能。
OSWorld-Verified是现时最巨擘的“打算机使用”评测基准,它测试AI代理通过截图不雅察、鼠标键盘操作来完成任务,维持369个的确世界任务,心事文献解决、网页浏览、办公软件、多诓骗配合等场景。GPT-5.4在该评测中得回了75%的任务告捷率,初次高出72.4%的东谈主类平均水平。
在另一款评估器用GDPval上,GPT-5.4的露出雷同亮眼。GDPval是OpenAI于旧年9月推出的评估器用,其特有之处在于评测“明确任务下的录用质料”,而非轻便的问答才气。评分接收同奇迹群众盲评对比——将“模子录用端正”与“东谈主类群众录用端正”并排盲审,由同奇迹群众评判优劣。端正炫耀,GPT-5.4在83%的任务中露出便是或优于东谈主类群众,尤其在投行级电子表格建模、演示文稿生成和法律秘书等任务上,起先上风更为明显。
GPT-5.4带有“小龙虾”立场
“SeeDance2.0、OpenClaw、GPT-5.4……仿佛又回到了GPT-4刚发布时的那种嗅觉,驰盈策略每天皆有新变化,应接不暇。”上海东谈主工智能接洽院工夫中心主任林圆圆的一句打妙语,谈出了如今AI赛谈上“你追我赶”的近况,每支军队皆铆足了劲,一次更新就能引来业内方式变动。
恒盛智投行业的范式治愈还是披露。本年年头举行的清华大学AGI-Next峰会明确提议,大模子竞争已从“对话”阶段认真转向“智能体”阶段,现实才气不才半场竞争中至关病笃。本年2月,OpenAI 首席现实官山姆·奥特曼秘书OpenClaw首创东谈主彼得·斯坦伯格加入OpenAI,烦躁于于鼓吹下一代个东谈主智能体的研发。

诨名“小龙虾”的OpenClaw是当下最火爆的AI花样。3月1日,OpenClaw以24.5万颗星登顶GitHub榜首,超越了遥远占据榜首的Linux和React。奥特曼评价谈:“彼得是一位简直的天才,他对将来高度智能的智能体若何配合以劳动东谈主类有着好多令东谈主惊奇的构想。”
这一东谈主事变动对GPT-5.4的发布产生了径直影响。有诞生者不雅察到,GPT-5.4的多项中枢功能——原生电脑操控、100万token陡立文、器用搜索带来的47%token资本量入计出,碰巧踩中了OpenClaw的工夫痛点。
大模子进入各别化竞争期间
GPT-5.4虽然浩大,但浩大亦有界限。概括来看,它在专科使命场景,终点是金融分析、办公自动化、学问使命中展现了显赫的才气进步,但在编程才气上逾期于Claude Opus 4.6,在科学推理上逾期于Gemini 3.1 Pro,在医疗健康限制以致出现了小幅寥寂。另外,尽管GPT-5.4在OSWorld-Verified测试中确乎超越了东谈主类基准,但这仅仅在特定的369个任务上,且测试环境是可控的臆造机。在更复杂、更怒放的的确场景中,AI与东谈主类的露出差距可能天差地别。
淌若说三年前的大模子还在消亡条跑谈上竞争,那么如今,还是很难用消亡把标尺来斟酌“各怀绝技”的大模子了。正如一位业内东谈主士所言:“不再有‘最佳的AI’——想操控电脑、作念PPT、跑学问使命?选GPT-5.4。想写代码、跑智能体、作念复杂诞生?选Claude Opus 4.6。想要最强推理、图片视频鸠集、最大陡立文、最廉价钱?选Gemini 3.1 Pro。”
价钱亦然不得不商量的成分。GPT-5.4的输入价钱达到了30好意思元/百万tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍,特殊于对GPT-5.4 Pro说一句“嗨”,模子想考5分钟就可能花掉80好意思元。
林圆圆合计,大模子的竞争最终将归于算力。东谈主工智能大模子的快速发展对高性能算力提议空前需求,算力瞻望还有成百上千倍的增漫空间。本年寰宇两会提议在将在包括电网、算力网、新式通讯网等在内的“六张网”等重心限制参预高出7万亿元中金e配,这一布局意旨要紧。
大盛策略优益配红藤网配资贵丰配资天盛优配驰盈策略提示:文章来自网络,不代表本站观点。