微软放大招！Florence-2 开源：一个模型，玩转 10+ 种视觉任务

还在为不同视觉任务苦苦寻找模型？还在为繁琐的模型部署焦头烂额？微软爸爸出手了！全新开源视觉模型 Florence-2 横空出世，一个模型就能轻松应对图像描述、目标检测、图像分割等 10 多种视觉任务。

Florence-2 能做什么？只需一句简单的指令：

帮你描述图片内容：比如，识别出一张公园照片里“穿着蓝色衣服的女孩在草地上玩耍，背景是开满鲜花的公园”。
精确定位目标：比如，在繁华的街道场景中，准确地圈出所有车辆、行人和交通信号灯。
智能分割图像：比如，将一张包含多个物体的图片，精确地分割出每个物体，并标注名称。

是不是很神奇？但是不好意思，还有大招，这还只是 Florence-2 强大能力的冰山一角。

Florence-2 的终极武器：

多任务处理： 告别单一模型的局限性，Florence-2 一模型多用，同时处理多种图像任务，省时省力。
基于自然语言操作： 无需复杂的代码，只需用自然语言告诉 Florence-2 你想要什么，它就能理解并执行。
出色的零样本学习能力： 即使面对从未见过的任务类型，Florence-2 也能轻松应对，展现出惊人的学习能力。

? Florence-2 核心功能一览：

1. 图像描述（Image Captioning）：

输入一张图片，Florence-2 就能自动生成一段流畅自然的文字描述。

示例：

输入：一张包含多个物体和场景的图像。
输出：一段描述图像内容的文字，如“一个穿着蓝色衣服的女孩正在草地上玩耍，背景是一个有树和花的公园。”

更强大的是，Florence-2 还支持：

多区域描述： 对图像中的多个局部区域进行独立描述，例如，不仅描述整个房间，还会分别描述房间中的桌子、椅子、书架等每一个物体。
详细的文字描述： 生成的描述通常包含每个区域的具体细节，比如物体的颜色、形状、位置以及其他属性，让描述更加丰富和精确。

2. 目标检测（Object Detection）：

Florence-2 能够精准识别图像中的不同物体，并用边界框和标签清晰地标识出来，就像一位火眼金睛的侦探！

示例：

输入：一张街道场景的图像。
输出：每个物体的边界框和类别标签，如“汽车”、“行人”、“交通灯”等。

3. 视觉定位（Visual Grounding）：

你只需用文字描述你想要找的区域，Florence-2 就能在图像中精准地定位出来，就像你的专属图像搜索引擎！

示例：

输入：一张图像和一段文字描述，如“找到骑自行车的人”。
输出：图像中标识出与描述对应的区域。

4. 图像分割（Image Segmentation）：

Florence-2 能够将图像分割成不同的区域，并为每个区域打上标签，就像一位技艺精湛的图像剪辑师！

示例：

输入：一张包含多个物体的图像。
输出：每个物体的分割区域和类别标签，如“人”、“狗”、“树”等。

5. 复杂的语义理解（Complex Semantic Understanding）：

Florence-2 不仅能理解图像中的物体，还能理解它们之间的关系，并进行更高级的语义分析！

示例：

输入：一张图像和详细的文字描述。
输出：图像中每个对象与描述中的短语或句子进行对齐和标注。

6. OCR 功能：

Florence-2 还能识别图像中的文字信息，并将其转换为可编辑的文本，就像一位专业的 OCR 软件！

7. 零样本学习（Zero-shot Learning）：

即使没有针对特定任务进行训练，Florence-2 也能出色地完成任务，展现出强大的泛化能力！

8. 微调（Fine-tuning）：

通过微调，Florence-2 的性能还能更上一层楼，满足你在特定领域或应用场景下的更高需求！

9. 部署灵活，任务广泛：

Florence-2 体积小巧，可以轻松部署在各种设备上，无论是电脑、服务器还是手机，都能轻松驾驭 10 多种视觉任务！

Florence-2 背后的技术创新：

Florence-2 的强大能力得益于微软在人工智能领域的不断探索和创新：

统一的基于提示的表示方式: 简化多任务处理的复杂性，提高模型的通用性和适应性。
多任务学习架构: 使用一个模型同时处理多种视觉任务，提高效率和灵活性。
大规模自动化数据集: 使用包含 1.26 亿张图像和 5.4 亿个注释的 FLD-5B 数据集进行训练，确保高质量和广泛覆盖。
卓越的零样本学习能力: 在多个基准测试中，Florence-2 在零样本任务中的表现优于许多其他模型。
高效的模型训练和优化: 使用优化的 AdamW 算法和混合精度训练技术，提高训练效率。
创新的数据引擎: 采用专家模型生成合成标签、多重过滤策略和迭代数据优化等方法，提升数据质量和多样性。
统一的多模态处理: 使用 Transformer 编码器-解码器架构，将图像和文本数据结合起来进行处理，实现更高层次的语义理解和任务执行。

Florence-2 数据集和模型架构：

数据集:

Florence-2 使用名为 FLD-5B 的大型数据集进行训练，该数据集具有规模巨大、自动化生成、覆盖广泛等特点。

模型架构:

Florence-2 的模型架构设计统一且灵活，可以处理多种视觉任务，主要组件包括序列到序列框架、图像编码器、多模态编码器-解码器等。

模型大小:

Florence-2-base：0.23B 参数，预训练模型
Florence-2-large：0.77B 参数，预训练模型
Florence-2-base-ft：0.23B 参数，微调模型
Florence-2-large-ft：0.77B 参数，微调模型

Florence-2 实验结果：

Florence-2 模型在各种视觉任务中的表现非常出色，无论是零样本学习还是微调后，都取得了令人瞩目的成绩

零样本性能: 在图像描述、视觉定位和表达理解、表达分割等任务中，Florence-2 无需额外训练就能取得优异成绩。

微调后的性能: 经过微调后，Florence-2 在图像描述、问答、目标检测、实例分割和语义分割等任务中均能取得顶尖成绩。

想要了解更多关于 Florence-2 的信息？来访问以下链接：

论文：https://arxiv.org/pdf/2311.06242
体验地址：

HF Space: https://huggingface.co/spaces/gokaygokay/Florence-2?ref=blog.roboflow.com
Google Colab: https://colab.research.google.com/?ref=blog.roboflow.com#fileId=https%3A//huggingface.co/microsoft/Florence-2-large/blob/main/sample_inference.ipynb

模型下载：Florence-2-large: https://huggingface.co/microsoft/Florence-2-large
ComfyUI插件:

GitHub：https://github.com/kijai/ComfyUI-Florence2
示例：

相信在不久的将来，Florence-2 将会为我们带来更多惊喜

以上就是我的分享，希望你能阅有所获，如果想加入社群可以扫下方的二维码添加我的微信，这里有最新的AI资讯和应用案例，互相交流共同提升，备注交流群，我会拉你入群（为了防止恶意广告营销，让大家有更好的交流氛围，现在进群需要9.9的门槛，希望大家理解），如果对加群不感兴趣也欢迎加我微信围观朋友圈，我会经常更新AI领域的好玩的工具。

另外还有一个好消息，我的免费星球通过试运营啦，现在可以加入了，限时免费，直接扫码即可，无需费用。我会分享有关AI+RPA自动化的流程和一些关于AI方面的咨询，欢迎感兴趣的小伙伴加入

微软开源“Florence-2：一个模型玩转10+种视觉任务，碾压GPT-4？

微软放大招！Florence-2 开源：一个模型，玩转 10+ 种视觉任务

? Florence-2 核心功能一览：

Florence-2 背后的技术创新：

Florence-2 数据集和模型架构：

Florence-2 实验结果：