终于来了!GPT-4再发布新功能,,全新的完全体多模态登场

10月29日,OpenAI灰度发布新版本的ChatGPT,多模态能力全面提升。与之前区分不同模式进行任务处理不同,它现在可以更流畅地在一个模式下浏览网页、运行代码或者使用 DALL-E 3 生成图片,无需再手动切换模式,GPT-4会自动帮你完成这一切。

另外,GPT-4 也进一步提高了其与用户的交互能力,现在它可以直接处理用户上传的文件,比如 PDF 或数据文件,不再需要通过 GPT 的数据分析上传文件,甚至可以直接与 PDF 文件进行对话。


这一切不仅仅是自动调用不同模型那么简单,GPT-4现在 可以在多个功能模块之间传递信息,发挥协同作用,完成复杂的创意工作。这可能是迄今为止 GPT 模型中最接近“真正的 AI copilit”的一次进步。

下面我们就来看看 GPT-4 全新的多模态能力都带来了哪些惊喜(以下为X上获得灰度权限的用户测试结果)。

图片生成更加智能

GPT-4 现在可以像mj垫图那样可以根据上传图片的内容生成新图片。比如你上传一张卡皮巴拉的图片,它就可以用动漫的艺术风格重新绘制。


在后续的图片生成中,你还可以上传新图片作为参考,只修改图片的某个部分。例如上传一张人物拿着滑板的图片,GPT-4 就可以自动让卡皮巴拉也拿着滑板,效果非常逼真。

图像和网络检索能力联动

GPT-4 甚至可以将从互联网上检索到的信息渲染到 AI 生成的图片中,实现数据可视化。

例如,你让 GPT-4 查找某地的天气信息,它就可以根据数据在 DALL-E 3 生成的天气 APP 界面图片中呈现出实时天气。所有的数据和图像都与查找到的信息高度匹配。


又例如,你让 GPT-4 查找 2022 年飓风的数据,它就可以用 DALL-E 3 生成一张气象数据可视化的折线图,非常专业。



这些全新的跨模块协同的创意应用场景让人眼前一亮。目前 GPT-4 多模态能力还处于内测阶段,但已展示了巨大的想象空间。随着 11 月 6 日 OpenAI 开发者大会的临近,相信会有更多惊喜功能发布

如果你也得到了这些新功能的早期使用权限,欢迎分享更多的创意玩法和感受。让我们一起见证新一代 AI 之力!

请使用浏览器的分享功能分享到微信等