微软开源“Florence-2:一个模型玩转10+种视觉任务,碾压GPT-4?

微软放大招!Florence-2 开源:一个模型,玩转 10+ 种视觉任务

还在为不同视觉任务苦苦寻找模型?还在为繁琐的模型部署焦头烂额?微软爸爸出手了!全新开源视觉模型 Florence-2 横空出世,一个模型就能轻松应对图像描述、目标检测、图像分割等 10 多种视觉任务。

Florence-2 能做什么?只需一句简单的指令:

  • 帮你描述图片内容: 比如,识别出一张公园照片里“穿着蓝色衣服的女孩在草地上玩耍,背景是开满鲜花的公园”。
  • 精确定位目标: 比如,在繁华的街道场景中,准确地圈出所有车辆、行人和交通信号灯。
  • 智能分割图像: 比如,将一张包含多个物体的图片,精确地分割出每个物体,并标注名称。

是不是很神奇? 但是不好意思,还有大招,这还只是 Florence-2 强大能力的冰山一角。

Florence-2 的终极武器:

  • 多任务处理:  告别单一模型的局限性,Florence-2  一模型多用,同时处理多种图像任务,省时省力。
  • 基于自然语言操作:   无需复杂的代码,只需用自然语言告诉  Florence-2  你想要什么,它就能理解并执行。
  • 出色的零样本学习能力:  即使面对从未见过的任务类型,Florence-2  也能轻松应对,展现出惊人的学习能力。

? Florence-2  核心功能一览:

1.  图像描述(Image Captioning):

输入一张图片,Florence-2  就能自动生成一段流畅自然的文字描述。

示例:

  • 输入:一张包含多个物体和场景的图像。
  • 输出:一段描述图像内容的文字,如“一个穿着蓝色衣服的女孩正在草地上玩耍,背景是一个有树和花的公园。”

更强大的是,Florence-2  还支持:

  • 多区域描述:  对图像中的多个局部区域进行独立描述,例如,不仅描述整个房间,还会分别描述房间中的桌子、椅子、书架等每一个物体。
  • 详细的文字描述:  生成的描述通常包含每个区域的具体细节,比如物体的颜色、形状、位置以及其他属性,让描述更加丰富和精确。

2. 目标检测(Object Detection):

Florence-2 能够精准识别图像中的不同物体,并用边界框和标签清晰地标识出来,就像一位火眼金睛的侦探!

示例:

  • 输入:一张街道场景的图像。
  • 输出:每个物体的边界框和类别标签,如“汽车”、“行人”、“交通灯”等。

3. 视觉定位(Visual Grounding):

你只需用文字描述你想要找的区域,Florence-2 就能在图像中精准地定位出来,就像你的专属图像搜索引擎!

示例:

  • 输入:一张图像和一段文字描述,如“找到骑自行车的人”。
  • 输出:图像中标识出与描述对应的区域。

4. 图像分割(Image Segmentation):

Florence-2  能够将图像分割成不同的区域,并为每个区域打上标签,就像一位技艺精湛的图像剪辑师!

示例:

  • 输入:一张包含多个物体的图像。
  • 输出:每个物体的分割区域和类别标签,如“人”、“狗”、“树”等。

5. 复杂的语义理解(Complex Semantic Understanding):

Florence-2  不仅能理解图像中的物体,还能理解它们之间的关系,并进行更高级的语义分析!

示例:

  • 输入:一张图像和详细的文字描述。
  • 输出:图像中每个对象与描述中的短语或句子进行对齐和标注。

6. OCR 功能:

Florence-2  还能识别图像中的文字信息,并将其转换为可编辑的文本,就像一位专业的 OCR 软件!

7. 零样本学习(Zero-shot Learning):

即使没有针对特定任务进行训练,Florence-2  也能出色地完成任务,展现出强大的泛化能力!

8. 微调(Fine-tuning):

通过微调,Florence-2  的性能还能更上一层楼,满足你在特定领域或应用场景下的更高需求!

9. 部署灵活,任务广泛:

Florence-2  体积小巧,可以轻松部署在各种设备上,无论是电脑、服务器还是手机,都能轻松驾驭  10  多种视觉任务!

Florence-2  背后的技术创新:

Florence-2  的强大能力得益于微软在人工智能领域的不断探索和创新:

  1. 统一的基于提示的表示方式:  简化多任务处理的复杂性,提高模型的通用性和适应性。
  2. 多任务学习架构:  使用一个模型同时处理多种视觉任务,提高效率和灵活性。
  3. 大规模自动化数据集:  使用包含 1.26 亿张图像和 5.4 亿个注释的  FLD-5B  数据集进行训练,确保高质量和广泛覆盖。
  4. 卓越的零样本学习能力:  在多个基准测试中,Florence-2  在零样本任务中的表现优于许多其他模型。
  5. 高效的模型训练和优化:  使用优化的  AdamW  算法和混合精度训练技术,提高训练效率。
  6. 创新的数据引擎:  采用专家模型生成合成标签、多重过滤策略和迭代数据优化等方法,提升数据质量和多样性。
  7. 统一的多模态处理:  使用  Transformer  编码器-解码器架构,将图像和文本数据结合起来进行处理,实现更高层次的语义理解和任务执行。

Florence-2  数据集和模型架构:

数据集:

Florence-2  使用名为  FLD-5B  的大型数据集进行训练,该数据集具有规模巨大、自动化生成、覆盖广泛等特点。

模型架构:

Florence-2  的模型架构设计统一且灵活,可以处理多种视觉任务,主要组件包括序列到序列框架、图像编码器、多模态编码器-解码器等。

模型大小:

  • Florence-2-base:0.23B 参数,预训练模型
  • Florence-2-large:0.77B 参数,预训练模型
  • Florence-2-base-ft:0.23B 参数,微调模型
  • Florence-2-large-ft:0.77B 参数,微调模型

 Florence-2  实验结果:

Florence-2 模型在各种视觉任务中的表现非常出色,无论是零样本学习还是微调后,都取得了令人瞩目的成绩

零样本性能:  在图像描述、视觉定位和表达理解、表达分割等任务中,Florence-2  无需额外训练就能取得优异成绩。

微调后的性能:  经过微调后,Florence-2  在图像描述、问答、目标检测、实例分割和语义分割等任务中均能取得顶尖成绩。


想要了解更多关于 Florence-2 的信息? 来访问以下链接:

  • 论文:https://arxiv.org/pdf/2311.06242
  • 体验地址:
    • HF Space: https://huggingface.co/spaces/gokaygokay/Florence-2?ref=blog.roboflow.com
    • Google Colab: https://colab.research.google.com/?ref=blog.roboflow.com#fileId=https%3A//huggingface.co/microsoft/Florence-2-large/blob/main/sample_inference.ipynb
  • 模型下载:Florence-2-large: https://huggingface.co/microsoft/Florence-2-large
  • ComfyUI插件:
    • GitHub:https://github.com/kijai/ComfyUI-Florence2
    • 示例:

相信在不久的将来,Florence-2  将会为我们带来更多惊喜

以上就是我的分享,希望你能阅有所获,如果想加入社群可以扫下方的二维码添加我的微信,这里有最新的AI资讯和应用案例,互相交流共同提升,备注交流群,我会拉你入群(为了防止恶意广告营销,让大家有更好的交流氛围,现在进群需要9.9的门槛,希望大家理解),如果对加群不感兴趣也欢迎加我微信围观朋友圈,我会经常更新AI领域的好玩的工具。

另外还有一个好消息,我的免费星球通过试运营啦,现在可以加入了,限时免费,直接扫码即可,无需费用。我会分享有关AI+RPA自动化的流程和一些关于AI方面的咨询,欢迎感兴趣的小伙伴加入


请使用浏览器的分享功能分享到微信等