OpenAI 刚刚在官方推特宣布了一项炸裂级别的更新提醒：GPT-4 现已具备图像和声音处理功能！并且将在两周内向plus用户和企业版推出，GPT-4现在能做什么？这又意味着什么呢？

ChatGPT 现在可以与你进行语音对话，无论你是在路上，还是在家中与孩子分享睡前故事，GPT让这一切变得更简单。

要开始使用语音，可以前往移动应用程序上的“设置”→“新功能”，然后选择加入语音对话。然后，点击主屏幕右上角的耳机按钮，从五种不同的声音中选择你喜欢的声音。

新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的样本语音中生成类似人类的音频。Open AI与专业配音演员合作创作了每一个声音。Open AI还使用我们的开源语音识别系统 Whisper 将你的口语转录为文本。

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音，当然这个新功能也会带来潜在新的风险，例如恶意行为者可能冒充公众人物或实施欺诈，所以GPT的语音是直接与配音演员合作创建的。

除了语音，现在你还可以向 ChatGPT 展示图像，让它帮你解决各种问题。例如，为什么烤炉不工作，冰箱里有哪些材料可以制作晚餐，或者分析一份工作数据的复杂图表。此外，如果你希望 ChatGPT 专注于图像的某一部分，你还可以使用移动应用中的绘图工具进行指导。

点击照片按钮来拍摄或选择图像。如果您使用的是 iOS 或 Android，请先点击加号按钮。您还可以讨论多个图像或使用我们的绘图工具来指导您的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。

OpenAI 一直致力于构建既安全又有益的 AGI。随着这些先进的模型应用于语音和视觉领域，我们更加注重安全性。特别是在语音技术领域，我们采取了一系列措施以防止潜在的恶意行为，如冒充公众人物或进行欺诈。

同时，在图像输入方面，OpenAI 与 “Be My Eyes”（一款为盲人和视力受损者设计的免费移动应用）合作，以更好地了解其使用和限制。而为了保障用户隐私，我们还采取了技术措施，限制了 ChatGPT 分析和直接评论人的能力。

语音和图像能力为GPT-4打开了广阔的应用空间。我们可以预见,GPT-4会成为我们生活、工作中的得力助手。

Spotify就在利用GPT-4的语音合成,为播客实现多语种翻译。我们也可以想象,GPT-4会应用于无障碍技术、健康医疗、教育等诸多领域。

发布

在未来的两周，Plus 和 Enterprise 用户将率先体验到这些升级功能。OpenAI 也计划在不久后将此项服务推向更广泛的用户。此次更新不仅提升了与 ChatGPT 的交互体验，更让我们对 OpenAI 的未来充满期待。