AI科普系列

👁️ 多模态AI

共 5/5 篇文章 · 用第一性原理理解AI

理解多模态AI：图像理解、跨模态对齐

学习进度5/5 已完成

多模态AI：AI学会了「看」和「听」

以前的AI只能处理文本。现在的AI能同时处理文本、图像、音频。这就是多模态AI。它就像一个能看、能听、能说、能写的全能助手。

Transformer本来是处理文字的，怎么能处理图片呢？Vision Transformer（ViT）的做法很巧妙：把图片切成小块，每块当成一个「词」，然后用Transformer处理。

文字可以用向量表示，图片也可以。图像Embedding把图片变成向量，相似的图片向量也相似。这样就能做图像搜索、图像推荐、图像分类了。

CLIP是OpenAI的跨模态模型，它让图片和文字的向量在同一个空间。你可以用文字搜索图片、用图片生成描述、甚至做零样本图像分类。

多模态AI不只是处理多种信息，还要让它们「融合」——文字和图片互相补充，语音和视频协同理解。早期融合、中期融合、晚期融合，每种方法有不同的优势。

这个系列旨在用第一性原理拆解👁️ 多模态AI的核心概念。每篇文章都聚焦于一个具体的知识点，配有手绘图解，让复杂的概念变得简单易懂。

多模态AIMultimodal AI视觉语言模型GPT-4V