微软放大招!Florence-2 开源:一个模型,玩转 10+ 种视觉任务
还在为不同视觉任务苦苦寻找模型?还在为繁琐的模型部署焦头烂额?微软爸爸出手了!全新开源视觉模型 Florence-2 横空出世,一个模型就能轻松应对图像描述、目标检测、图像分割等 10 多种视觉任务。
Florence-2 能做什么?只需一句简单的指令:
帮你描述图片内容: 比如,识别出一张公园照片里“穿着蓝色衣服的女孩在草地上玩耍,背景是开满鲜花的公园”。 精确定位目标: 比如,在繁华的街道场景中,准确地圈出所有车辆、行人和交通信号灯。 智能分割图像: 比如,将一张包含多个物体的图片,精确地分割出每个物体,并标注名称。
是不是很神奇? 但是不好意思,还有大招,这还只是 Florence-2 强大能力的冰山一角。
Florence-2 的终极武器:
多任务处理: 告别单一模型的局限性,Florence-2 一模型多用,同时处理多种图像任务,省时省力。 基于自然语言操作: 无需复杂的代码,只需用自然语言告诉 Florence-2 你想要什么,它就能理解并执行。 出色的零样本学习能力: 即使面对从未见过的任务类型,Florence-2 也能轻松应对,展现出惊人的学习能力。
? Florence-2 核心功能一览:
1. 图像描述(Image Captioning):
输入一张图片,Florence-2 就能自动生成一段流畅自然的文字描述。
示例:
输入:一张包含多个物体和场景的图像。 输出:一段描述图像内容的文字,如“一个穿着蓝色衣服的女孩正在草地上玩耍,背景是一个有树和花的公园。”
更强大的是,Florence-2 还支持:
多区域描述: 对图像中的多个局部区域进行独立描述,例如,不仅描述整个房间,还会分别描述房间中的桌子、椅子、书架等每一个物体。 详细的文字描述: 生成的描述通常包含每个区域的具体细节,比如物体的颜色、形状、位置以及其他属性,让描述更加丰富和精确。


2. 目标检测(Object Detection):
Florence-2 能够精准识别图像中的不同物体,并用边界框和标签清晰地标识出来,就像一位火眼金睛的侦探!
示例:
输入:一张街道场景的图像。 输出:每个物体的边界框和类别标签,如“汽车”、“行人”、“交通灯”等。
3. 视觉定位(Visual Grounding):
你只需用文字描述你想要找的区域,Florence-2 就能在图像中精准地定位出来,就像你的专属图像搜索引擎!
示例:
输入:一张图像和一段文字描述,如“找到骑自行车的人”。 输出:图像中标识出与描述对应的区域。


4. 图像分割(Image Segmentation):
Florence-2 能够将图像分割成不同的区域,并为每个区域打上标签,就像一位技艺精湛的图像剪辑师!
示例:
输入:一张包含多个物体的图像。 输出:每个物体的分割区域和类别标签,如“人”、“狗”、“树”等。
5. 复杂的语义理解(Complex Semantic Understanding):
Florence-2 不仅能理解图像中的物体,还能理解它们之间的关系,并进行更高级的语义分析!
示例:
输入:一张图像和详细的文字描述。 输出:图像中每个对象与描述中的短语或句子进行对齐和标注。
6. OCR 功能:
Florence-2 还能识别图像中的文字信息,并将其转换为可编辑的文本,就像一位专业的 OCR 软件!
7. 零样本学习(Zero-shot Learning):
即使没有针对特定任务进行训练,Florence-2 也能出色地完成任务,展现出强大的泛化能力!
8. 微调(Fine-tuning):
通过微调,Florence-2 的性能还能更上一层楼,满足你在特定领域或应用场景下的更高需求!
9. 部署灵活,任务广泛:
Florence-2 体积小巧,可以轻松部署在各种设备上,无论是电脑、服务器还是手机,都能轻松驾驭 10 多种视觉任务!
Florence-2 背后的技术创新:
Florence-2 的强大能力得益于微软在人工智能领域的不断探索和创新:
统一的基于提示的表示方式: 简化多任务处理的复杂性,提高模型的通用性和适应性。 多任务学习架构: 使用一个模型同时处理多种视觉任务,提高效率和灵活性。 大规模自动化数据集: 使用包含 1.26 亿张图像和 5.4 亿个注释的 FLD-5B 数据集进行训练,确保高质量和广泛覆盖。 卓越的零样本学习能力: 在多个基准测试中,Florence-2 在零样本任务中的表现优于许多其他模型。 高效的模型训练和优化: 使用优化的 AdamW 算法和混合精度训练技术,提高训练效率。 创新的数据引擎: 采用专家模型生成合成标签、多重过滤策略和迭代数据优化等方法,提升数据质量和多样性。 统一的多模态处理: 使用 Transformer 编码器-解码器架构,将图像和文本数据结合起来进行处理,实现更高层次的语义理解和任务执行。
Florence-2 数据集和模型架构:
数据集:
Florence-2 使用名为 FLD-5B 的大型数据集进行训练,该数据集具有规模巨大、自动化生成、覆盖广泛等特点。
模型架构:
Florence-2 的模型架构设计统一且灵活,可以处理多种视觉任务,主要组件包括序列到序列框架、图像编码器、多模态编码器-解码器等。
模型大小:
Florence-2-base:0.23B 参数,预训练模型 Florence-2-large:0.77B 参数,预训练模型 Florence-2-base-ft:0.23B 参数,微调模型 Florence-2-large-ft:0.77B 参数,微调模型
Florence-2 实验结果:
Florence-2 模型在各种视觉任务中的表现非常出色,无论是零样本学习还是微调后,都取得了令人瞩目的成绩
零样本性能: 在图像描述、视觉定位和表达理解、表达分割等任务中,Florence-2 无需额外训练就能取得优异成绩。
微调后的性能: 经过微调后,Florence-2 在图像描述、问答、目标检测、实例分割和语义分割等任务中均能取得顶尖成绩。
想要了解更多关于 Florence-2 的信息? 来访问以下链接:
论文:https://arxiv.org/pdf/2311.06242 体验地址: HF Space: https://huggingface.co/spaces/gokaygokay/Florence-2?ref=blog.roboflow.com Google Colab: https://colab.research.google.com/?ref=blog.roboflow.com#fileId=https%3A//huggingface.co/microsoft/Florence-2-large/blob/main/sample_inference.ipynb 模型下载:Florence-2-large: https://huggingface.co/microsoft/Florence-2-large ComfyUI插件: 

GitHub:https://github.com/kijai/ComfyUI-Florence2 示例:
相信在不久的将来,Florence-2 将会为我们带来更多惊喜
以上就是我的分享,希望你能阅有所获,如果想加入社群可以扫下方的二维码添加我的微信,这里有最新的AI资讯和应用案例,互相交流共同提升,备注交流群,我会拉你入群(为了防止恶意广告营销,让大家有更好的交流氛围,现在进群需要9.9的门槛,希望大家理解),如果对加群不感兴趣也欢迎加我微信围观朋友圈,我会经常更新AI领域的好玩的工具。
另外还有一个好消息,我的免费星球通过试运营啦,现在可以加入了,限时免费,直接扫码即可,无需费用。我会分享有关AI+RPA自动化的流程和一些关于AI方面的咨询,欢迎感兴趣的小伙伴加入