“如果发布的是GPT-5,那OpenAI依然遥遥领先。如果是AI Search或者是语音助手,那就说明OpenAI没落了。”
一位AI大模型从业者告诉虎嗅,业内对OpenAI的期待太高,除非是GPT-5这样的颠覆式创新,否则很难满足观众的“胃口”。
虽然Sam Altman在OpenAI线上直播前,已经预告不会发布GPT-5(或GPT-4.5),但外界对OpenAI的期待早已是九牛拉不转了。
北京时间5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。
虽然GPT-4o的演示效果仍可称得上“炸裂”,
OpenAI的PR团队似乎也预料到了这种舆论走向。发布会现场以及会后Altman发布的博客中对此解释道:
“我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们。我非常自豪我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。
当我们创办 OpenAI 时,我们最初的想法是我们要创造人工智能并利用它为世界创造各种利益。相反,现在看起来我们将创造人工智能,然后其他人将使用它来创造各种令人惊奇的事物,让我们所有人都受益。”
在OpenAI发布会前夕,英伟达Embodied AI负责人Jim Fan在X上预测了OpenAI会发布的语音助手,并提出:
几乎所有的语音AI都会经历三个阶段:
1. 语音识别或“ASR”:音频->文本1,例如Whisper;
2. 计划下一步要说什么的 LLM:text1 -> text2;
3. 语音合成或“TTS”:text2 ->音频,例如ElevenLabs或VALL-E。

GPT-4o在响应速度方面,几乎解决了延迟问题。GPT-4o的响应音频输入的最短时长为232毫秒,平均响应时长320毫秒,几乎与人类相似。
GPT-4o不仅通过缩短延迟极大地提升了体验,还在GPT-4的基础上做了很多升级包括:
“这些局限性的突破都是创新。”
有业内专家认为,实际上OpenAI并未展示对于视觉多模态来说真正算是“突破”的功能。
这里我们按大模型行业的习惯,对比一下隔壁厂Anthropic的Claude 3。
Claude 3的技术文档中提到,“虽然Claude的图像理解能力是尖端的,但需要注意一些局限性”。
其中包括:
在GPT-4o网站发布的案例中,有一些与“空间推理”有相关的能力,但仍难算得上突破。
此外,从发布会现场演示中GPT-4o输出的内容很容易看出,其模型能力与GPT-4相差并不大。

GPT-4o跑分
虽然模型可以在对话中增加语气,甚至即兴演唱,但对话内容还是与GPT-4一样缺乏细节和创造力。
此外,发布会后。包括:照片转漫画风格;会议记录;图片合成;基于图片的3D内容生成;手写体、草稿生成;风格化的海报,以及连环画生成;艺术字体生成等。
OpenAI公布的GPT-4o使用政策是ChatGPT Plus用户比限制普通用户的流量限制高5倍。
GPT-4o对所有人免费,首先挑战的似乎是OpenAI自己的商业模型。
第三方市场分析平台Sensor Tower公布的数据显示,过去一个月中,ChatGPT在全球App Store中的下载量为700万,订阅收入1200万美元;全球Google Play市场的下载量为9000万,订阅收入300万美元。
目前,ChatGPT Plus在两个应用商店的订阅价格均为19.99美元。由订阅数据推断,ChatGPT Plus过去一个月中,通过应用商店付费的订阅用户数为75万。虽然ChatGPT Plus还有大量的直接付费用户,但从手机端的收入来看,每年进项才不到2亿美元,再翻几倍也很难撑起OpenAI近千亿的估值。
更何况GPT-4o主打体验好,如果你跟AI聊着聊着就断了,还要换账号重新聊,那你会不会愤然充值呢?
Sam Altman的最新博客中提到了“语言界面的可能性”,这也正是GPT-4o接下来可能要做的:挑战所有GUI(图形交互界面),以及想要在LUI(语音交互界面)上发力的人。
结合近期外媒透出的OpenAI与苹果合作的消息,可以猜测GPT-4o可能很快就要对所有AI PC、AI手机的厂商“抛橄榄枝”或是“掀桌子”。
GPT-4o很可能会卷到所有已知的App,甚至是SaaS行业。过去一年多时间里,市场上所有已经开发和正在开发的AI Agent都会面临威胁。
某位资源聚合类app产品经理曾对虎嗅表示,“我的操作流程就是产品的核心,如果操作流程被你ChatGPT优化了,那相当于我的App没价值了。”
厂商的下一步只能是压缩供应链、生态的利润空间,甚至是恶性价格战。
从目前的形式来看,其他厂商要在模型能力上打败OpenAI恐怕还需要一段时间。
产品要对标OpenAI,可能只有通过做更“便宜”的模型了。
一位工业AI大模型创始人告诉虎嗅,近期一直在忙着沟通战略合作、产品发布、客户交流资本交流,完全没有时间关注OpenAI这种发布。
OpenAI发布前,虎嗅也询问了多位来自各行各业的国内AI从业者,他们对OpenAI最新发布的预测与看法都很一致:
一位从业者表示,从国内目前的进度来看,要在短期内追上OpenAI不太现实。所以关心OpenAI发布了什么,最多也就是看看最新的技术方向。
目前国内公司在AI大模型研发方面,普遍比较关注工程化和垂直模型,这些比较务实、容易变现的方向。
在工程方面,近期蹿红的Deepseek就正在国内大模型行业中掀起Token的价格战。在垂直模型方面,多位业内人士告诉虎嗅,短期内小模型和垂直模型的研发,基本都不会受到OpenAI的裹挟。
一位模型专家对虎嗅表示,Sora就是个很好的例子,2024年2月OpenAI发布了视频模型Sora,实现了60秒的视频稳定输出。虽然看起来效果很好,但后续的实践几乎没有,落地速度也非常慢。
在Sora之前,国内很多在文生视频领域发力的公司和机构已经实现了15秒稳定视频生成,而Sora出来以后,一些公司的研发、融资、产品节奏都被打乱了,
所幸,这次GPT-4o与Sora大有不同。OpenAI CTO Muri Murati 表示,在接下来的几周内,我们将继续我们的迭代部署,为您提供所有功能。

***
害怕股票买高了?每天仅人民币2元出头,掌握美股多种估值,避免高买低卖。
以苹果公司为例,了解详情:https://cn.investing.com/pro/NASDAQGS:AAPL

用优惠码,价格再减10%,每天不到2元钱。