1. ImageFX

本周末，Google正式开放了ImageFX图像生成模型。目前已经可以在test kitchen使用。运行Google imageFX，就可以使用ImageFX模型生成图像。imageFX支持自动提示词功能，且会对输入的文本进行分类，用户可以手动替换。

imageFX每次可以生成4张图像。用户也可以点击左下角的按钮进行编辑

进入编辑页面，调整笔刷的粗细，并选中需要移除的区域。在下方输入remove命令，即可对局部区域进行编辑。编辑完成后，系统会生成4张新的图像，点击下载即可。

通过多组测试，Imagen 3模型能够生成高质量的图像，大家可以尝试

2. Text to APP

随着LLM编程能力的不断提升，我们已经可以通过文本命令一键生成应用程序。create XYZ在近期推出了基于GPT4模型的text to APP功能，能够根据提示词一键生成网页游戏和应用。登录到后台，用户可以输入文本命令或者截屏和手绘UI草图，即可生成对应的代码和设计。

输入提示，系统就会快速生成一个小游戏。游戏的色彩、分辨率、样式都可以随意改变。切换到Code选项卡，用户还可以下载代码，或者在此基础上进行编辑和修改。免费用户可以使用默认的cloud 3 Sonnet模型，Pro用户则可以调用更高级别的语言模型完成设计。

设计完成后，用户还可以切换桌面和移动端图标，预览生成的网页和应用程序。随着LLM上下文能力的增强，专业设计师还能够输入更加详细的提示词，自定义界面的色彩、布局和设计要素。如果需要添加背景图像和视频素材，只需粘贴地址到对话框，即可实现一键素材添加，非常方便。

3. Qwen2-Audio

本周末，通议宣布推出支持语音输入的Qwen2-Audio模型。该模型支持8种语音和方言，且无需使用ASR模块。Qwen2-Audio可以分析用户输入的语音，并完成文本和语音交互。

此外，该模型还可以同时读取输入的人声和背景音乐，分析并提供合理的建议。Qwen2-Audio可以作为一种多模态交互工具，实现智能人机对话。目前Qwen2-Audio7B的模型权重已经开源，且在多项测试中获得了优异的成绩，点击链接在HuggingFace中尝试。

4. Flux realism lora

近期Flux开源模型发布，也被称为最强的开源图像生成模型。一名Reddit网友使用了Flux realism Lora工作流，生成了一组难以辨识真假的人像。在和runway战3模型结合后，也可以生成超真实的视频。

Flux 1模型的发布正在挑战Midjourney、Dalle-3等闭源模型的地位。在文本生成方面，Flux 1也有不错的表现，在和controlnet结合后，我们还可以精确控制人物的姿势和动作。

6. Clip anything

近期，Opus Pro推出了强大的多模态人工智能剪辑工具CLIP anything。可以利用视觉、音频和情感线索，智能剪辑视频中的任意时刻。CLIP anything能够使用自然语言提示，查找视频中的精彩瞬间，让剪辑变得更加简单和高效。

用户可以输入提示词，要求Clip anything自动截取具体片段，或者要求Clip anything对一段完整视频进行分析，截取最精华的片段。该工具的发布意味着视频自动化剪辑时代的来临。

此外，clip anything多模态模型在视频理解和时间理解等测试中，也领先GPT4、Gemini等主流模型。目前该功能还没有正式发布，感兴趣的同学可以加入前期等待列表。