返回系列列表
AI科普系列

👁️ 多模态AI

5/5 篇文章 · 用第一性原理理解AI

理解多模态AI:图像理解、跨模态对齐

学习进度5/5 已完成
1·2026年4月2日

多模态AI:AI学会了「看」和「听」

以前的AI只能处理文本。现在的AI能同时处理文本、图像、音频。这就是多模态AI。它就像一个能看、能听、能说、能写的全能助手。

⏱️ 11 分钟#多模态AI
开始阅读 →
2·2026年4月2日

Vision Transformer:Transformer也能看图片

Transformer本来是处理文字的,怎么能处理图片呢?Vision Transformer(ViT)的做法很巧妙:把图片切成小块,每块当成一个「词」,然后用Transformer处理。

⏱️ 11 分钟#Vision Transformer
开始阅读 →
3·2026年4月2日

图像Embedding:如何用向量表示图片

文字可以用向量表示,图片也可以。图像Embedding把图片变成向量,相似的图片向量也相似。这样就能做图像搜索、图像推荐、图像分类了。

⏱️ 11 分钟#图像Embedding
开始阅读 →
4·2026年4月2日

CLIP:AI学会了「看图说话」

CLIP是OpenAI的跨模态模型,它让图片和文字的向量在同一个空间。你可以用文字搜索图片、用图片生成描述、甚至做零样本图像分类。

⏱️ 11 分钟#CLIP
开始阅读 →
5·2026年4月2日

多模态融合:如何让不同的信息「融合」

多模态AI不只是处理多种信息,还要让它们「融合」——文字和图片互相补充,语音和视频协同理解。早期融合、中期融合、晚期融合,每种方法有不同的优势。

⏱️ 11 分钟#多模态融合
开始阅读 →

关于本系列

这个系列旨在用第一性原理拆解👁️ 多模态AI的核心概念。 每篇文章都聚焦于一个具体的知识点,配有手绘图解,让复杂的概念变得简单易懂。

多模态AIMultimodal AI视觉语言模型GPT-4V