OpenAI发布新模型GPT-4o：丝滑如真人，免费开放使用

紫金财经5月14日消息 Open AI又放大招了！

继文生视频模型Sora之后，OpenAI再一次给外界带来惊喜。这一次，OpenAI向世人展现了强大且丝滑的语音对话等多模态能力。

北京时间5月14日凌晨，OpenAI在一则简短的视频介绍中发布了新一代AI模型GPT-4o，并将推出PC桌面版ChatGPT。

这款“全能的”大模型GPT-4o具备处理文本、音频和图像的能力。与前几代模型相比，它增加了语音功能，且运行速度更快。

“感觉就像电影里的人工智能。”发布会结束后，Open AI创始人在社交媒体X上发文称，“对我来说，与电脑对话从来都不是一件很自然的事，而现在却很自然。”

最新多模态模型来了

OpenAI官网介绍，GPT-4o中的o代表意为全能的前缀omni，称它向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

现场演示中，GPT-4o的表现仿佛一个人正坐在旁边，和人类的对话节奏自然、融洽，完全听不出是个AI，在短短的时间内，GPT-4o就能对音频输入做出反应。并且，它可以将文本、音频、图像任何组合作为输入和输出。

Open AI创始人Altman表示：“GPT-4o是OpenAI有史以来最好的模型，它很聪明，速度很快，是天然的多模态。”

在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，与之相比，GPT-4o可以在232毫秒内对音频输入作出反应，与人类在对话中的反应时间相近。

在录播视频中，两位高管作出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

性能方面，根据传统基准测试，GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能，同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

桌面版ChatGPT来了

除了推出新模型，在产品上，OpenAI也作出了诸多更新。

不同于此前OpenAI在推出模型新版本都会对特定付费用户开放的做法，本次GPT-4o的新功能将向所有用户敞开大门，可以免费运用模型进行更为复杂的数据分析，对图像进行深入的解析，访问GPT Store应用商店。

发布会上，OpenAI首席技术官MiraMurati表示，ChatGPT-4o 将免费向所有用户开放，而付费和企业用户，可以抢先获得体验。

另外，此前仅对ChatGPT Plus会员开放的视觉、联网、记忆、执行代码等高级功能也将对外开放免费使用。一系列普惠举措，无疑将吸引大批用户涌入OpenAI平台，尝试丰富的AI体验。

除了新模型的普惠举措，OpenAI发布了ChatGPT的桌面版本。

用户可以直接在电脑桌面上使用ChatGPT，并且Mac Plus用户将优先体验到这一功能。据悉，用户可以通过快捷键即刻向ChatGPT提问，或者直接在ChatGPT内截屏提问。这种直接在桌面上使用的便捷性，无疑将使用户体验得到大幅提升。

ChatGPT自2022年11月推出以来，便打破了当时最快增长消费类应用的历史记录，如今每周活跃用户已接近1亿。OpenAI表示，超过92%的《财富》500强企业都在使用该平台。

有趣的是，GPT-4o一经推出，OpenAI的竞争对手似乎坐不住了。

谷歌很快在社交媒体X平台上发布了一段预览Gemini大模型功能的视频。在视频中，这一AI模型能够通过摄像头来描述画面中发生的情况，并实时提供语音反馈，就像OpenAI最新展示的那样。

据悉，谷歌将在北京时间周三凌晨一点举办年度I/O开发者大会，届时，谷歌将发表主题演讲，介绍公司在各个软件领域的重大进展，预计人工智能(AI)将成为整个主题演讲的重点。