生成图像质量全面超越MJ和SD3-ultra!Flux1重磅发布
-
-
数据库开发技术
-
原创
8月1日,原stability核心成员Robin Rombach创立了black forest LabS,并获得3200万美元融资。Flux 1是该公司推出的首个开源图像生成模型,分为Pro、Dev和Schnell三个型号。其中Pro模型具备最强性能,Dev同时兼备了性能和运行速度,Schnell则是速度最快的模型。Pro和Dev模型在视觉质量、提示跟随、排版和输出多样性等方面超越了midjourney V6.0、Dall-E3和SD3 Ultra等主流模型。Flux模型使用了多模态和parallel diffusion Transformer block混合架构,通过流匹配方法改进了最先进的扩散,模型性能得到了大幅提升。Flux 1支持多种图像比例和高达200万像素的分辨率输出,且准备推出名为Sota的视频生成模型,该模型同效果已经非常接近Sora模型。目前,Flux 1 Dev和Schnell的模型权重已经开放,可以在Comfyui中使用,点击链接就可以下载相关的配置文件和工作流。从blackforest LabS官方提供的样本可以看出,Flux 1具备很强的提示词理解能力,且可以生成高质量的图像。Flux 1同时具备强大的文本渲染以及对提示词细节的还原能力。在动漫生成能力方面,Flux 1也有不错的表现。作为一个开源模型,Flux 1的升图能力已经基本和SD3、midjourney V6模型持平。目前Flux 1已经整合到replicate和glif平台,点击官网链接即可访问。例如,我们可以在replicate平台运行Flux 1 Pro模型,输入提示词,选择比例即可生成一组图像。大家可以尝试。此外,大家也可以在glif上尝试该模型。比如我这里写入了“a beautiful Chinese girl”:从多组测试结果可以看出,Flux 1能够生成高画质、多风格的图像,细节处理和光线照明方面也可以媲美付费的midjourney V6模型。手部一直是各大模型很难解决的问题,通过对Flux 1系列模型测试,Pro模型的成功率最高,其他模型也没有出现明显的变形。通过多组对比,Dev模型具备更好的平衡性,Pro模型则具备最高的性能,Schnell模型虽然具备更快的响应速度,生成图像的质量明显不如前者。目前Flux 1系列模型已经可以在多个平台使用。大家可以点击链接在huggingface免费使用Schnell模型,Tost是一种免费的非营利性开源服务,利用非营利GPU集群为最新的人工智能论文提供推理服务。Tost为每个账户提供了每天100点的免费额度,使用邮箱注册即可使用。登录到后台,从列表中选择Flux 1 Dev模型即可使用。左侧可以输入英文提示词,手动设置迭代步数、采样器以及图像的分辨率。例如输入一段动漫风格的提示词,分辨率设置为1080,大家可以看一下效果。或者输入一组包含真实人像风格的提示词,生成图像的速度和画质都非常不错。、在提示词中使用双引号标注文本内容,Flux 1也可以完成精确渲染。用户还可以调整提示词结构,生成各种文字特效和组合方式。此外,还有网友通过Flux 1做了炫酷的贴纸生成器。该工具使用Claude 3.5进行提示增强,使用Flux 1 Pro制作图像,并使用了消除器清除图像的阴影。借助Flux 1强大的图形生成能力,我们就可以轻松制作贴纸。使用同样的提示词生成图像,Flux 1 Pro生成的内容要明显强于最新版本的Midjourney,Flux 1模型的发布将会让开源扩散模型具备更强的竞争力以及更低的使用成本。