10月29日，OpenAI灰度发布新版本的ChatGPT，多模态能力全面提升。与之前区分不同模式进行任务处理不同，它现在可以更流畅地在一个模式下浏览网页、运行代码或者使用 DALL-E 3 生成图片，无需再手动切换模式，GPT-4会自动帮你完成这一切。

另外，GPT-4 也进一步提高了其与用户的交互能力，现在它可以直接处理用户上传的文件，比如 PDF 或数据文件，不再需要通过 GPT 的数据分析上传文件，甚至可以直接与 PDF 文件进行对话。

这一切不仅仅是自动调用不同模型那么简单，GPT-4现在可以在多个功能模块之间传递信息，发挥协同作用，完成复杂的创意工作。这可能是迄今为止 GPT 模型中最接近“真正的 AI copilit”的一次进步。

下面我们就来看看 GPT-4 全新的多模态能力都带来了哪些惊喜（以下为X上获得灰度权限的用户测试结果）。

图片生成更加智能

GPT-4 现在可以像mj垫图那样可以根据上传图片的内容生成新图片。比如你上传一张卡皮巴拉的图片，它就可以用动漫的艺术风格重新绘制。

在后续的图片生成中，你还可以上传新图片作为参考，只修改图片的某个部分。例如上传一张人物拿着滑板的图片，GPT-4 就可以自动让卡皮巴拉也拿着滑板，效果非常逼真。

图像和网络检索能力联动

GPT-4 甚至可以将从互联网上检索到的信息渲染到 AI 生成的图片中，实现数据可视化。

例如，你让 GPT-4 查找某地的天气信息，它就可以根据数据在 DALL-E 3 生成的天气 APP 界面图片中呈现出实时天气。所有的数据和图像都与查找到的信息高度匹配。

又例如，你让 GPT-4 查找 2022 年飓风的数据，它就可以用 DALL-E 3 生成一张气象数据可视化的折线图，非常专业。

这些全新的跨模块协同的创意应用场景让人眼前一亮。目前 GPT-4 多模态能力还处于内测阶段，但已展示了巨大的想象空间。随着 11 月 6 日 OpenAI 开发者大会的临近，相信会有更多惊喜功能发布

如果你也得到了这些新功能的早期使用权限，欢迎分享更多的创意玩法和感受。让我们一起见证新一代 AI 之力！