第 30 篇 · 深度学习架构

多模态模型——AI的「五感」

人类通过眼睛、耳朵、触觉等多种感官来认识世界。传统的AI模型大多只能处理单一模态（比如文本），而多模态模型能同时处理文本、图像、音频、视频等多种数据。

GPT-4能看图、能听声音，这就是多模态能力的体现。它让AI从「单感官」进化到「五感俱全」。

1
什么是多模态？

多模态指的是多种数据类型，包括但不限于：

常见的模态类型

文本

文章、对话、代码

图像

照片、截图、绘画

音频

语音、音乐、环境声

视频

电影、短视频、监控

其他

3D、深度、传感器数据

🌐

核心挑战：不同模态的数据格式、表示方式完全不同，如何让模型把它们联系起来？

CLIP对齐

2
CLIP：把图像和文本对齐到同一空间

CLIP（Contrastive Language-Image Pre-training）是多模态学习的里程碑之作。它用对比学习把图像和文本映射到同一个向量空间，让语义相近的图像和文本在空间中靠得很近。

CLIP的工作原理

图像编码器

图像→向量

文本编码器

文本→向量

共享向量空间

「猫的图」的向量和「猫」的向量距离很近

类比理解：你学英语和学中文，脑子里有两个概念。但你知道「apple」和「苹果」是一回事——这就是对齐到同一个语义空间。

3
多模态模型的典型架构

多模态模型主要有两种架构思路：

编码器-解码器

每种模态有自己的编码器

图像用CNN/视觉Transformer，文本用语言模型

在中间层融合，最后用统一的解码器生成

优点：各模态可以深度理解；缺点：训练复杂

早期融合

把不同模态拼在一起输入

比如把图像token和文本token串在一起

优点：简单；缺点：可能丢失模态特有的信息

4
多模态模型的应用

多模态能力打开了无数可能：

图文检索🔍

搜图

输入「海滩上的狗」，模型返回最匹配的照片。

视觉问答❓

看图回答问题

给模型看一张图，问「这是什么？」、「图里有几只猫？」。

视频理解🎬

看视频理解内容

理解视频里的动作、情节、对话。

多模态生成✨

图文音联合生成

给定文本，模型生成图片、配音、字幕。

5
代表模型

有哪些知名的多模态模型？

CLIP🎯

图文对齐

OpenAI出品，奠定了多模态学习的基础。

DALL-E🎨

文生图

基于CLIP，能根据文字描述生成图片。

GPT-4V👁️

多模态理解

GPT-4的视觉版，能看图、理解图表、识图回答。

Gemini Pro💎

原生多模态

Google的原生多模态模型，从设计之初就支持多模态。

总结

🎓 一句话总结

①多模态 = 同时处理文本、图像、音频、视频等多种数据
②CLIP = 把图像和文本对齐到同一向量空间
③架构 = 编码器-解码器（深度理解）或早期融合（简单）
④代表模型 = CLIP、DALL-E、GPT-4V、Gemini Pro

🎉
本系列结束

恭喜你，完成了「深度学习架构」系列的12篇文章！

我们从深度学习入门开始，一路学习了CNN、RNN、Transformer、GAN、扩散模型、强化学习、注意力机制、BERT vs GPT、LLM训练流程、多模态模型...涵盖了深度学习领域的主要架构和思想。

接下来，你可以回到文章列表，继续阅读其他系列，或者在实际项目中应用这些知识。

上一篇：LLM训练流程文章列表

✏️ 手绘图解 · AI Catch 出品

第 30 篇 / 深度学习架构篇