OpenAI 刚刚在官方推特宣布了一项炸裂级别的更新提醒:GPT-4 现已具备图像和声音处理功能!并且将在两周内向plus用户和企业版推出,GPT-4现在能做什么?这又意味着什么呢?

多元交互:语音与图像
与 ChatGPT 交流,现在不仅仅限于文字。你还可以通过语音和图像与gpt深度互动。比如旅行中看到一座标志性建筑,只需轻点快门然后发送给ChatGPT 就可以为你解读背后的故事。或者回家后,拍摄冰箱里的食材,GPT-4会针对你的晚餐提供建议及食谱。更有意思的是,你还可以通过拍照并标注问题,与孩子共同探讨数学题的答案。接下来请观察openai官方的示例,及其炸裂,一定要看完,AI能够给我们未来带来的想象实在太多了
语音交互升级
ChatGPT 现在可以与你进行语音对话,无论你是在路上,还是在家中与孩子分享睡前故事,GPT让这一切变得更简单。
要开始使用语音,可以前往移动应用程序上的“设置”→“新功能”,然后选择加入语音对话。然后,点击主屏幕右上角的耳机按钮,从五种不同的声音中选择你喜欢的声音。
新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。Open AI与专业配音演员合作创作了每一个声音。Open AI还使用我们的开源语音识别系统 Whisper 将你的口语转录为文本。
新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音,当然这个新功能也会带来潜在新的风险,例如恶意行为者可能冒充公众人物或实施欺诈,所以GPT的语音是直接与配音演员合作创建的。
图像理解:看图说话,增强互动
除了语音,现在你还可以向 ChatGPT 展示图像,让它帮你解决各种问题。例如,为什么烤炉不工作,冰箱里有哪些材料可以制作晚餐,或者分析一份工作数据的复杂图表。此外,如果你希望 ChatGPT 专注于图像的某一部分,你还可以使用移动应用中的绘图工具进行指导。
点击照片按钮来拍摄或选择图像。如果您使用的是 iOS 或 Android,请先点击加号按钮。您还可以讨论多个图像或使用我们的绘图工具来指导您的助手。
图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。
安全与透明度
OpenAI 一直致力于构建既安全又有益的 AGI。随着这些先进的模型应用于语音和视觉领域,我们更加注重安全性。特别是在语音技术领域,我们采取了一系列措施以防止潜在的恶意行为,如冒充公众人物或进行欺诈。
同时,在图像输入方面,OpenAI 与 “Be My Eyes”(一款为盲人和视力受损者设计的免费移动应用)合作,以更好地了解其使用和限制。而为了保障用户隐私,我们还采取了技术措施,限制了 ChatGPT 分析和直接评论人的能力。
语音和图像能力为GPT-4打开了广阔的应用空间。我们可以预见,GPT-4会成为我们生活、工作中的得力助手。
Spotify就在利用GPT-4的语音合成,为播客实现多语种翻译。我们也可以想象,GPT-4会应用于无障碍技术、健康医疗、教育等诸多领域。
发布
在未来的两周,Plus 和 Enterprise 用户将率先体验到这些升级功能。OpenAI 也计划在不久后将此项服务推向更广泛的用户。此次更新不仅提升了与 ChatGPT 的交互体验,更让我们对 OpenAI 的未来充满期待。