Pixverse

本周Pixverse宣布推出VR版本，目前已经面向全部用户开放。Pixverse VR具备更强的提示词理解能力，支持生成最长8秒的视频。版本升级后，视频的分辨率、细节和运动模拟均得到了增强。此外，在风格和人物一致性方面，Pixverse VR也有不错的表现。

访问Pixverse的官网就可以尝试最新的VR版本。Pixverse VR依旧支持文本图像转视频功能，支持5秒、8秒内容的生成。用户可以手动切换V1、VR模型，以及生成视频的持续时长。

从生成的内容可以看出，VR尽管有一定的进步，还无法和基于date架构的可零相比。从画面的连续性和对真实世界的模拟能力可以看出，Pixverse VR依旧使用了传统的扩散模型。如果想要达到可零等新架构模型生成视频的效果，Pixverse还需要进行进一步优化。

Llama 3.1

Meta宣布推出Llama 3.1模型，包含8B、70B、405B三种型号。其中405B模型具备128K上下文能力，且达到了先进大语言模型的能力。从Meta提供的评估结果可以看出，405B模型在多项测试中的得分均达到了GPT-4、Claude 3.5 Sonnet的水平。此外，Llama 3.1 8B和70B小尺寸模型的得分也达到了同级别大语言模型的水平。

通过Hugging Face等平台免费尝试该模型：HuggingChat (huggingface.co)。此外，Groq也在Playground添加了Llama 3.1 70B模型，大家可以尝试。

与此同时，Mistral AI也发布了旗下最先进的Large 2模型：Large Enough | Mistral AI | Frontier AI in your hands。Mistral Large 2同样具备128K上下文窗口，支持数十个国家的语言以及80多种编程语言。Mistral Large 2在MMLU上实现了84.0%的准确率，代码和推理能力和GPT-4、Claude 3 Opus、Llama 3 405B模型相当。该模型将会作为研究和非商业用途使用，如果需要商业化应用则需要联系Mistral AI获得授权许可证。

Adobe新功能

本周Illustrator增加了生成式形状填充功能，用户只需输入简单的文字提示，就能为形状填充精美的矢量图形。生成的矢量图还可进行编辑。Illustrator另一个新功能则可以帮助设计师快速将插图应用到真实物体上，系统会自动调整尺寸和透视角度。此外还有字体识别和编辑功能，以及通过文本转图案快速创建可编辑的背景。

新版Photoshop也将集成Adobe最先进的Firefly模型，进一步增强AI生成内容的能力。新模型被称为Firefly Vector，提供了Generative Shape Fill和Text to Pattern的测试功能，可以用来创建可扩展的自定义矢量图案。Style Reference则能够生成与现有样式相匹配的输出。该模型的发布将会大幅提高mock-up的设计效率。

Outfit Anyone

该项目由阿里巴巴开发，是一种基于扩散模型的2D虚拟试穿框架。Outfit Anyone旨在完善虚拟试穿技术，生成高保真、细节一致的结果。Outfit Anyone可以处理衣物变形的问题，生成更加逼真的试穿效果，且能够适应不同的姿势、体型，并适用于包括动漫在内的不同风格。此外，该工具还可以和Animate Anyone一起使用，生成动态试穿效果。大家可以在huggingface上尝试：OutfitAnyone – a Hugging Face Space by HumanAIGC。

Open Sora Plan V1.2

近期Open Sora Plan项目完成了更新，推出了1.2版本。新版本引入了新3D全注意力架构，提升了对物理世界的理解能力，并改进了文本生成视频的能力。通过新架构和优化的VAE结构，提升了视频生成的清晰度和一致性，且解决了之前版本无法同时处理空间和时间维度的问题。优化后的结构提高了模型的推理速度和性能。

PhotoMaker VR

本周腾讯更新了PhotoMaker VR项目，提高了人物ID的保真度。新版本在保持生成质量的同时，进一步提升了生成图像的真实度，且可与ControlNet、IP-Adapter插件共同使用，增强了对图像的控制能力。

7月第四周AI资讯