7月第四周AI资讯
-
-
数据库开发技术
-
原创
本周Pixverse宣布推出VR版本,目前已经面向全部用户开放。Pixverse VR具备更强的提示词理解能力,支持生成最长8秒的视频。版本升级后,视频的分辨率、细节和运动模拟均得到了增强。此外,在风格和人物一致性方面,Pixverse VR也有不错的表现。
访问Pixverse的官网就可以尝试最新的VR版本。Pixverse VR依旧支持文本图像转视频功能,支持5秒、8秒内容的生成。用户可以手动切换V1、VR模型,以及生成视频的持续时长。从生成的内容可以看出,VR尽管有一定的进步,还无法和基于date架构的可零相比。从画面的连续性和对真实世界的模拟能力可以看出,Pixverse VR依旧使用了传统的扩散模型。如果想要达到可零等新架构模型生成视频的效果,Pixverse还需要进行进一步优化。
Meta宣布推出Llama 3.1模型,包含8B、70B、405B三种型号。其中405B模型具备128K上下文能力,且达到了先进大语言模型的能力。从Meta提供的评估结果可以看出,405B模型在多项测试中的得分均达到了GPT-4、Claude 3.5 Sonnet的水平。此外,Llama 3.1 8B和70B小尺寸模型的得分也达到了同级别大语言模型的水平。通过Hugging Face等平台免费尝试该模型:HuggingChat (huggingface.co)。此外,Groq也在Playground添加了Llama 3.1 70B模型,大家可以尝试。与此同时,Mistral AI也发布了旗下最先进的Large 2模型:Large Enough | Mistral AI | Frontier AI in your hands。Mistral Large 2同样具备128K上下文窗口,支持数十个国家的语言以及80多种编程语言。Mistral Large 2在MMLU上实现了84.0%的准确率,代码和推理能力和GPT-4、Claude 3 Opus、Llama 3 405B模型相当。该模型将会作为研究和非商业用途使用,如果需要商业化应用则需要联系Mistral AI获得授权许可证。
本周Illustrator增加了生成式形状填充功能,用户只需输入简单的文字提示,就能为形状填充精美的矢量图形。生成的矢量图还可进行编辑。Illustrator另一个新功能则可以帮助设计师快速将插图应用到真实物体上,系统会自动调整尺寸和透视角度。此外还有字体识别和编辑功能,以及通过文本转图案快速创建可编辑的背景。新版Photoshop也将集成Adobe最先进的Firefly模型,进一步增强AI生成内容的能力。新模型被称为Firefly Vector,提供了Generative Shape Fill和Text to Pattern的测试功能,可以用来创建可扩展的自定义矢量图案。Style Reference则能够生成与现有样式相匹配的输出。该模型的发布将会大幅提高mock-up的设计效率。
该项目由阿里巴巴开发,是一种基于扩散模型的2D虚拟试穿框架。Outfit Anyone旨在完善虚拟试穿技术,生成高保真、细节一致的结果。Outfit Anyone可以处理衣物变形的问题,生成更加逼真的试穿效果,且能够适应不同的姿势、体型,并适用于包括动漫在内的不同风格。此外,该工具还可以和Animate Anyone一起使用,生成动态试穿效果。大家可以在huggingface上尝试:OutfitAnyone – a Hugging Face Space by HumanAIGC。
近期Open Sora Plan项目完成了更新,推出了1.2版本。新版本引入了新3D全注意力架构,提升了对物理世界的理解能力,并改进了文本生成视频的能力。通过新架构和优化的VAE结构,提升了视频生成的清晰度和一致性,且解决了之前版本无法同时处理空间和时间维度的问题。优化后的结构提高了模型的推理速度和性能。
本周腾讯更新了PhotoMaker VR项目,提高了人物ID的保真度。新版本在保持生成质量的同时,进一步提升了生成图像的真实度,且可与ControlNet、IP-Adapter插件共同使用,增强了对图像的控制能力。