多模态模型——AI的「五感」
人类通过眼睛、耳朵、触觉等多种感官来认识世界。传统的AI模型大多只能处理单一模态(比如文本),而多模态模型能同时处理文本、图像、音频、视频等多种数据。
GPT-4能看图、能听声音,这就是多模态能力的体现。它让AI从「单感官」进化到「五感俱全」。
1什么是多模态?
多模态指的是多种数据类型,包括但不限于:
文章、对话、代码
照片、截图、绘画
语音、音乐、环境声
电影、短视频、监控
3D、深度、传感器数据
2CLIP:把图像和文本对齐到同一空间
CLIP(Contrastive Language-Image Pre-training)是多模态学习的里程碑之作。它用对比学习把图像和文本映射到同一个向量空间,让语义相近的图像和文本在空间中靠得很近。
图像编码器
图像→向量
文本编码器
文本→向量
共享向量空间
「猫的图」的向量 和 「猫」的向量 距离很近
类比理解:你学英语和学中文,脑子里有两个概念。但你知道「apple」和「苹果」是一回事——这就是对齐到同一个语义空间。
3多模态模型的典型架构
多模态模型主要有两种架构思路:
每种模态有自己的编码器
图像用CNN/视觉Transformer,文本用语言模型
在中间层融合,最后用统一的解码器生成
优点:各模态可以深度理解;缺点:训练复杂
把不同模态拼在一起输入
比如把图像token和文本token串在一起
优点:简单;缺点:可能丢失模态特有的信息
4多模态模型的应用
多模态能力打开了无数可能:
搜图
看图回答问题
看视频理解内容
图文音联合生成
5代表模型
有哪些知名的多模态模型?
图文对齐
文生图
多模态理解
原生多模态
🎓 一句话总结
- ①多模态 = 同时处理文本、图像、音频、视频等多种数据
- ②CLIP = 把图像和文本对齐到同一向量空间
- ③架构 = 编码器-解码器(深度理解)或早期融合(简单)
- ④代表模型 = CLIP、DALL-E、GPT-4V、Gemini Pro
🎉本系列结束
恭喜你,完成了「深度学习架构」系列的12篇文章!
我们从深度学习入门开始,一路学习了CNN、RNN、Transformer、GAN、扩散模型、强化学习、注意力机制、BERT vs GPT、LLM训练流程、多模态模型...涵盖了深度学习领域的主要架构和思想。
接下来,你可以回到文章列表,继续阅读其他系列,或者在实际项目中应用这些知识。
✏️ 手绘图解 · AI Catch 出品
第 30 篇 / 深度学习架构篇