8月第二周AI资讯:免费制作第一个app
-
-
数据库开发技术
-
原创
本周末,Google正式开放了ImageFX图像生成模型。目前已经可以在test kitchen使用。运行Google imageFX,就可以使用ImageFX模型生成图像。imageFX支持自动提示词功能,且会对输入的文本进行分类,用户可以手动替换。imageFX每次可以生成4张图像。用户也可以点击左下角的按钮进行编辑进入编辑页面,调整笔刷的粗细,并选中需要移除的区域。在下方输入remove命令,即可对局部区域进行编辑。编辑完成后,系统会生成4张新的图像,点击下载即可。通过多组测试,Imagen 3模型能够生成高质量的图像,大家可以尝试随着LLM编程能力的不断提升,我们已经可以通过文本命令一键生成应用程序。create XYZ在近期推出了基于GPT4模型的text to APP功能,能够根据提示词一键生成网页游戏和应用。登录到后台,用户可以输入文本命令或者截屏和手绘UI草图,即可生成对应的代码和设计。输入提示,系统就会快速生成一个小游戏。游戏的色彩、分辨率、样式都可以随意改变。切换到Code选项卡,用户还可以下载代码,或者在此基础上进行编辑和修改。免费用户可以使用默认的cloud 3 Sonnet模型,Pro用户则可以调用更高级别的语言模型完成设计。设计完成后,用户还可以切换桌面和移动端图标,预览生成的网页和应用程序。随着LLM上下文能力的增强,专业设计师还能够输入更加详细的提示词,自定义界面的色彩、布局和设计要素。如果需要添加背景图像和视频素材,只需粘贴地址到对话框,即可实现一键素材添加,非常方便。本周末,通议宣布推出支持语音输入的Qwen2-Audio模型。该模型支持8种语音和方言,且无需使用ASR模块。Qwen2-Audio可以分析用户输入的语音,并完成文本和语音交互。此外,该模型还可以同时读取输入的人声和背景音乐,分析并提供合理的建议。Qwen2-Audio可以作为一种多模态交互工具,实现智能人机对话。目前Qwen2-Audio7B的模型权重已经开源,且在多项测试中获得了优异的成绩,点击链接在HuggingFace中尝试。近期Flux开源模型发布,也被称为最强的开源图像生成模型。一名Reddit网友使用了Flux realism Lora工作流,生成了一组难以辨识真假的人像。在和runway战3模型结合后,也可以生成超真实的视频。Flux 1模型的发布正在挑战Midjourney、Dalle-3等闭源模型的地位。在文本生成方面,Flux 1也有不错的表现,在和controlnet结合后,我们还可以精确控制人物的姿势和动作。近期,Opus Pro推出了强大的多模态人工智能剪辑工具CLIP anything。可以利用视觉、音频和情感线索,智能剪辑视频中的任意时刻。CLIP anything能够使用自然语言提示,查找视频中的精彩瞬间,让剪辑变得更加简单和高效。用户可以输入提示词,要求Clip anything自动截取具体片段,或者要求Clip anything对一段完整视频进行分析,截取最精华的片段。该工具的发布意味着视频自动化剪辑时代的来临。此外,clip anything多模态模型在视频理解和时间理解等测试中,也领先GPT4、Gemini等主流模型。目前该功能还没有正式发布,感兴趣的同学可以加入前期等待列表。