返回系列列表
AI科普系列
👁️ 多模态AI
共 5/5 篇文章 · 用第一性原理理解AI
理解多模态AI:图像理解、跨模态对齐
学习进度5/5 已完成
第 1 课·2026年4月2日
多模态AI:AI学会了「看」和「听」
以前的AI只能处理文本。现在的AI能同时处理文本、图像、音频。这就是多模态AI。它就像一个能看、能听、能说、能写的全能助手。
⏱️ 11 分钟#多模态AI
开始阅读 →
第 2 课·2026年4月2日
Vision Transformer:Transformer也能看图片
Transformer本来是处理文字的,怎么能处理图片呢?Vision Transformer(ViT)的做法很巧妙:把图片切成小块,每块当成一个「词」,然后用Transformer处理。
⏱️ 11 分钟#Vision Transformer
开始阅读 →
第 3 课·2026年4月2日
图像Embedding:如何用向量表示图片
文字可以用向量表示,图片也可以。图像Embedding把图片变成向量,相似的图片向量也相似。这样就能做图像搜索、图像推荐、图像分类了。
⏱️ 11 分钟#图像Embedding
开始阅读 →
第 4 课·2026年4月2日
CLIP:AI学会了「看图说话」
CLIP是OpenAI的跨模态模型,它让图片和文字的向量在同一个空间。你可以用文字搜索图片、用图片生成描述、甚至做零样本图像分类。
⏱️ 11 分钟#CLIP
开始阅读 →
第 5 课·2026年4月2日
多模态融合:如何让不同的信息「融合」
多模态AI不只是处理多种信息,还要让它们「融合」——文字和图片互相补充,语音和视频协同理解。早期融合、中期融合、晚期融合,每种方法有不同的优势。
⏱️ 11 分钟#多模态融合
开始阅读 →
关于本系列
这个系列旨在用第一性原理拆解👁️ 多模态AI的核心概念。 每篇文章都聚焦于一个具体的知识点,配有手绘图解,让复杂的概念变得简单易懂。
多模态AIMultimodal AI视觉语言模型GPT-4V