为了实现对图像、文本、音频、视频等多种模态信息的统一建模，多模态大模型在架构设计上发展出多种范式。不同架构在输入融合方式、模态对齐策略、信息传递路径等方面各有侧重。总体而言，当前主流多模态大模型的架构可归纳为以下几类：编码器- 解码器架构（encoder-decoder ）、双编码器架构（dual-encoder ）、统一Transformer 架构（unified Transformer ）、交叉注意力融合架构（cross-attention fusion ）以及模块化架构（modular design ）等。

1. Encoder-Decoder 架构

Encoder –Decoder 架构是多模态生成任务中较早被提出并广泛采用的一类基本范式，其基本思想在计算语言学和计算机视觉等多个领域均有较为深入的实践。该架构通常包含两个功能模块：编码器（encoder ）负责对输入模态（如图像、语音等）进行表征提取与高维语义压缩，解码器（decoder ）则以此表征为条件生成目标模态内容，诸如自然语言文本或其他模态信号。

在图像描述（image captioning ）领域，该架构首=次大规模应用的代表性工作是Vinyals 等人提出的Show and Tell 模型 ^[21] ，其采用卷积神经网络（Convolutional Neural Network ，CNN ）对图像内容进行编码，并将编码结果输入至基于循环神经网络（Recurrent Neural Network ，RNN ）的语言解码器中，生成图像对应的自然语言描述，如图3.2 所示。在此基础上，Xu 等人进一步提出Show, Attend and Tell 模型 ^[22] ，引入可学习的注意力机制，显著提升了生成文本与图像关键区域之间的语义对应能力。这些方法在一定程度上验证了该架构在多模态语义建模中的可行性与扩展潜力。

随着Transformer 架构与LLM 的快速演进，encoder –decoder 形式在多模态大模型中的表现形式亦不断丰富。Alayrac 等人提出的Flamingo 模型 ^[9] ，在冻结预训练语言模型的基础上，通过引入感知式视觉适配器（perceiver resampler ）将视觉模态输入转换为语言模态可处理的中间表征，并以跨模态解码机制进行任务处理。这种设计在少样本学习（few-shot learning ）设定下展现出良好的图文泛化能力，为后续多模态融合范式的演化提供了重要技术支撑。

图3. 2 Show and Tell 模型 ^[21] encoder – decoder 架构

encoder –decoder 架构尽管在设计上相对经典，但其灵活的编码—解码分离机制为多模态任务中的模态嵌入、条件生成与对齐建模等提供了可扩展的结构基础，至今仍在视觉语言预训练等关键研究方向中发挥着重要作用。

2. 双编码器架构（Dual-Encoder ）

双编码器架构是一种面向模态对齐的基础建模范式，作为当前多模态预训练模型中较为典型的一种设计形式，主要用于构建模态间的语义对齐关系，尤其广泛出现在基于对比学习（contrastive learning ）的训练范式中。在该架构下，不同模态的输入数据（如图像与文本）分别通过各自独立的模态特定编码器进行处理—常见的组合包括Vision Transformer （ViT ） ^[23] 用于图像建模，以及双向Transformer 模型（如BERT ）用于文本表征。随后，模型在一个共享的嵌入空间中对这些独立编码结果进行匹配与优化，以学习模态间的语义一致性。

图3.3 CLIP 模型 ^[7] dual-encoder 架构

这一架构最=具代表性的实现是OpenAI 提出的CLIP 模型 ^[7] ，如图3.3 所示，该模型在大规模图文对数据集上训练，显著提升了图文检索与分类任务中的零样本泛化性能。类似地，ALIGN 模型 ^[8] 将图像编码器与文本编码器分别替换为EfficientNet ^[24] 和BERT 变体，并通过百万级别图文对进行预训练，也在多个多模态任务中展现出较强性能。这些成果表明，双编码器架构在效率、可扩展性以及跨模态对齐能力等方面具有一定优势，尤其适用于需要快速匹配或检索的大规模任务场景。

双编码器架构由于缺乏编码阶段的跨模态交互机制，其对复杂模态组合关系的建模能力在一定程度上受限。这意味着它在处理依赖深层语义推理或细粒度对齐的任务中可能表现不足。因此，双编码器结构往往作为基础建模模块，配合其他精细建模机制（如交叉注意力或融合模块）以提升整体性能。

3. 统一Transformer 架构（Unified Transformer ）

随着对模态间深层交互需求的不断增强，一类更为统一的建模范式—— 统一Transformer 架构（unified Transformer ）逐渐成为多模态大模型的重要方向之一。该架构的基本设想是将来自不同模态的输入（如图像patch 、文本token 等）进行编码后，在token 级别进行拼接，并共同输入至共享的Transformer 层中，从而在统一表示空间中实现联合建模。这一机制为模态间提供了细粒度的交互通道，可能有助于捕捉更加复杂的跨模态语义关系。

较早期的代表性工作包括UNITER 模型 ^[25] ，该模型在多个视觉语言任务中展示了良好的跨模态理解能力。此后，FLAVA ^[26] 将该理念扩展至三模态（视觉、文本、音频）建模，如图3.4 所示，强调模态共学和任务共享的协同机制。进一步地，BEiT-3 ^[27] 在统一架构基础上提出“多模态- 多任务统一预训练”策略，力图构建一个泛化能力更强的统一模态理解与生成框架。这些研究共同推动了统一Transformer 架构在跨模态问答、图文匹配、图像字幕生成等任务中的应用拓展。

图3.4 FLAVA 模型 ^[26]unified Transformer 架构

尽管统一Transformer 架构具有一定的建模表达优势，但其也存在明显的工程挑战。一方面，来自多个模态的token 拼接后会显著增加输入序列长度，这对模型参数规模和显存消耗提出了更高要求；另一方面，由于各模态数据在信息密度、结构形式等方面存在差异，统一建模可能引发信息稀释（information dilution ）或模态干扰等问题。因此，如何在统一建模与模态特性保持之间寻求平衡，仍是当前研究关注的焦点之一。

4. 交叉注意力融合架构（Cross-Attention Fusion ）

相较于统一Transformer 架构将不同模态在同一表示空间中进行联合建模的方式，交叉注意力融合架构（cross-attention fusion ）更倾向于保留各模态独立的编码路径，并通过跨模态注意力机制实现信息交互。这种设计在保持模态自治性的同时，引入选择性融合机制，有助于在特定任务中强化语义对齐与显著区域聚焦。

该架构的基本策略是在语言与视觉等模态编码后，引导语言模态作为查询（query ），而图像等模态则分别提供键（key ）和值（value ），从而借助注意力机制动态聚焦于与语言语义相关的视觉区域。ViLBERT ^[28] 和LXMERT ^[29] 是此类方法的早期代表，分别提出了双流编码器结构，并在视觉问答（Visual Question Answering ，VQA ）、图文推理（Visual Commonsense Reasoning ，VCR ）等典型跨模态理解任务中获得显著性能提升，LXMERT 模型结构如图3.5 所示。

从解释性角度看，交叉注意力架构具备更强的可视化能力，能够在一定程度上揭示模型在特定语义单元上的感知区域，有助于研究者分析模型决策机制。此外，该架构由于解耦建模路径，也更容易实现模块级扩展与控制，在需要任务特化或模态选择的场景中具有一定的工程优势。

图3.5 LXMERT 模型 ^[29]cross-attention fusion 架构

交叉注意力融合架构在保持模态分离的同时，也面临交互效率与融合粒度的权衡问题。例如，由于各模态信息流经独立编码器，其对齐质量较大程度依赖于注意力模块的设计与训练优化策略。因此，如何在保持可解释性与增强语义融合能力之间寻求平衡，仍是后续研究中值得深入探讨的问题。

5. 模块化架构（Modular Design ）

在多模态大模型的架构演化过程中，模块化设计（modular design ）逐渐受到关注。该类架构强调系统结构的灵活性与可扩展性，通常将每种模态视为功能独立的子模块，通过定义明确的接口标准，实现对统一计算框架的无缝接入。这种“即插即用”（plug-and-play ）式的建模思想，有助于构建面向多任务、多模态场景的通用人工智能系统。

与早期以静态融合为主的多模态架构不同，模块化方法通常在设计上保留模态处理的异质性，同时在任务需求驱动下实现动态组合。Gato 模型 ^[30] 借助统一的Transformer 编码器，支持对文本、图像、机器人控制指令等多种模态数据的统一建模，展现了跨模态泛化与多任务迁移的潜在能力，如图3.6 所示。

图3.6 Gato 模型 ^[30]Modular Design 架构

KOSMOS-1 ^[31] 则在语言建模主干中引入视觉模块作为外接输入通道，并通过指令调度机制实现视觉、语言模态间的任务协同。ImageBind 引入“统一嵌入空间”的理念，将多种模态映射到一个对齐的向量空间中，实现可组合推理与表示迁移的能力。

这一范式的一个重要优势在于能够简化多模态模型的工程部署与扩展过程，特别适用于需要逐步引入新模态或新任务的系统架构，这种模块化思路提升了模型扩展性与工程落地性，是面向通用人工智能（AGI ）的关键路径之一。然而模块间的信息协调与一致性保障在实践中仍具挑战性，模态切换中的语义保持等问题可能在一定程度上限制其可扩展性。因此，如何在模块独立性与整体协同性之间取得合理平衡，是当前该方向进一步发展的关键议题。

=========================================

本文节选自《AI Agent智能体与MCP开发实践：基于Qwen3大模型》，获得出版社和作者授权发布。

多模态大模型的基本架构