低调放大招?OpenAI发布最新GPT-4o多模态实时大模型!
-
AI大模型应用实践
2024-05-14 03:18:41
-
数据库开发技术
-
原创
今天凌晨OpenAI 发布了一个名为 GPT-4o(不是4.5,不是5.0,是4o) 的旗舰生成式AI模型,并宣布将在未来几周内迭代式地在产品中正式推出。整个发布会简单快速,非常符合OpenAI一贯的低调放大招的风格。
GPT-4o最重要的能力更新是在提供了“GPT-4 级别”的智能基础上,极大改进了在文本、语音与视觉方面的跨模态实时处理能力。现在,你可以像和人类助手一样与ChatGPT做更自然、轻松、多模态的交互,你可以和它实时语音聊天,可以和它视频对话,让它帮你解数学题和编程序,你可以随时打断它,它甚至会理解你的情绪,生成不同情感风格的语音来和你对话,需要的时候还可以唱歌给你听!OpenAI 工程师在现场演示了 GPT-4o 的实时语音对话。注意这个实时对话不是简单的语音识别+GPT+语音合成的缝合!而是ChatGPT直接理解你的语音并与你语音对话,全程几乎无明显的延迟,也就是GPT-4o现在天生就支持音频态的理解与生成。相信这个模型的放出将会对现有的语音智能相关的解决方案领域的形成冲击,交互式数字人、智能呼叫中心、个人语音助理等领域有望再次迎来技术升级,以解决现有的缝合方案在准确性、响应延迟、故障点等多方面的隐患与问题。现在你可以和ChatGPT实时视频对话,现场工程师通过视频给ChatGPT出了数学题,双方甚至通过实时语音对话对解题思路做了讨论!(当然,最后成功后,ChatGPT还会由衷的表现出了兴奋...)。工程师还在现场演示了与ChatGPT实时语音视频聊天的方式一起来做编程。这里可以看到ChatGPT未来会发布的一个PC上的类似于siri的客户端,你可以快速唤起ChatGPT,然后实时共享代码、与他讨论如何编程、截图发送要求他做分析。这种多模态的实时交互协作已经远远超出了现有的编程Copilot的能力,设想未来如果每个程序员配置这样的助手,效率会提升多少?现场最后还演示了基于ChatGPT音频理解的实时语言翻译能力,整个过程几乎零延迟。
- 2x的速度提升;成本降低50%;5x的流控限制(对比GPT4)
更多的特性体验让我们一起期待GPT-4o的正式上线吧。发布会给人最大的感觉是,在别的大模型还纠结在参数量、基准测试结果、超长上下文、Agent平台时,OpenAI却又在强大的模型基础上做了一次AI使用体验上的巨大升级。或许正如演讲者Murati所说:"大模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与ChatGPT的协作。这一点非常重要,因为我们正在展望人类与机器之间互动的未来。