第 30 篇 · 深度学习架构

多模态模型——AI的「五感」

人类通过眼睛、耳朵、触觉等多种感官来认识世界。传统的AI模型大多只能处理单一模态(比如文本),而多模态模型能同时处理文本、图像、音频、视频等多种数据。

GPT-4能看图、能听声音,这就是多模态能力的体现。它让AI从「单感官」进化到「五感俱全」。

1
什么是多模态?

多模态指的是多种数据类型,包括但不限于:

常见的模态类型
文本

文章、对话、代码

图像

照片、截图、绘画

音频

语音、音乐、环境声

视频

电影、短视频、监控

其他

3D、深度、传感器数据

🌐
核心挑战:不同模态的数据格式、表示方式完全不同,如何让模型把它们联系起来?
CLIP对齐

2
CLIP:把图像和文本对齐到同一空间

CLIP(Contrastive Language-Image Pre-training)是多模态学习的里程碑之作。它用对比学习把图像和文本映射到同一个向量空间,让语义相近的图像和文本在空间中靠得很近。

CLIP的工作原理

图像编码器

图像→向量

文本编码器

文本→向量

共享向量空间

「猫的图」的向量 和 「猫」的向量 距离很近

类比理解:你学英语和学中文,脑子里有两个概念。但你知道「apple」和「苹果」是一回事——这就是对齐到同一个语义空间。

3
多模态模型的典型架构

多模态模型主要有两种架构思路:

编码器-解码器

每种模态有自己的编码器

图像用CNN/视觉Transformer,文本用语言模型

在中间层融合,最后用统一的解码器生成

优点:各模态可以深度理解;缺点:训练复杂

早期融合

把不同模态拼在一起输入

比如把图像token和文本token串在一起

优点:简单;缺点:可能丢失模态特有的信息

4
多模态模型的应用

多模态能力打开了无数可能:

图文检索🔍

搜图

输入「海滩上的狗」,模型返回最匹配的照片。
视觉问答

看图回答问题

给模型看一张图,问「这是什么?」、「图里有几只猫?」。
视频理解🎬

看视频理解内容

理解视频里的动作、情节、对话。
多模态生成

图文音联合生成

给定文本,模型生成图片、配音、字幕。

5
代表模型

有哪些知名的多模态模型?

CLIP🎯

图文对齐

OpenAI出品,奠定了多模态学习的基础。
DALL-E🎨

文生图

基于CLIP,能根据文字描述生成图片。
GPT-4V👁️

多模态理解

GPT-4的视觉版,能看图、理解图表、识图回答。
Gemini Pro💎

原生多模态

Google的原生多模态模型,从设计之初就支持多模态。
总结

🎓 一句话总结

  • 多模态 = 同时处理文本、图像、音频、视频等多种数据
  • CLIP = 把图像和文本对齐到同一向量空间
  • 架构 = 编码器-解码器(深度理解)或早期融合(简单)
  • 代表模型 = CLIP、DALL-E、GPT-4V、Gemini Pro

🎉
本系列结束

恭喜你,完成了「深度学习架构」系列的12篇文章!

我们从深度学习入门开始,一路学习了CNN、RNN、Transformer、GAN、扩散模型、强化学习、注意力机制、BERT vs GPT、LLM训练流程、多模态模型...涵盖了深度学习领域的主要架构和思想。

接下来,你可以回到文章列表,继续阅读其他系列,或者在实际项目中应用这些知识。

✏️ 手绘图解 · AI Catch 出品

第 30 篇 / 深度学习架构篇