返回系列列表
AI科普系列
✨ LLM高级技巧
共 8/8 篇文章 · 用第一性原理理解AI
掌握LLM的高级用法:Few-shot、RLHF、幻觉控制
学习进度8/8 已完成
第 1 课·2026年3月28日
Few-shot Learning:给AI几个例子,它就学会了
为什么给AI几个示例,它就能理解你的意图?Zero-shot、One-shot、Few-shot的区别,以及如何用好这个强大的技巧。
⏱️ 10 分钟#Few-shot
开始阅读 →
第 2 课·2026年3月28日
In-context Learning:AI的临场学习能力
为什么AI能在对话中学习,而不用修改参数?In-context Learning的原理、与Few-shot的关系,以及它是如何改变AI应用方式的。
⏱️ 10 分钟#In-context Learning
开始阅读 →
第 3 课·2026年3月28日
幻觉:AI为什么会编故事
AI为什么会自信地编造假信息?幻觉的本质、产生原因、以及如何减少幻觉的实用技巧。
⏱️ 10 分钟#幻觉
开始阅读 →
第 4 课·2026年3月28日
Temperature:控制AI的创造力
为什么Temperature=0时AI最保守,Temperature=1时AI最疯狂?温度参数如何影响AI生成内容的确定性与多样性。
⏱️ 10 分钟#Temperature
开始阅读 →
第 5 课·2026年3月28日
Top-k采样:AI如何从候选词中选择
Top-k采样只保留概率最高的k个词,把其他词排除。为什么要这样做?k选多少合适?如何与温度配合?
⏱️ 10 分钟#Top-k
开始阅读 →
第 6 课·2026年3月28日
Top-p采样:更智能的候选词筛选
Top-p(核采样)保留累计概率达到p的词,候选数量动态调整。为什么比Top-k更灵活?p选多少合适?
⏱️ 10 分钟#Top-p
开始阅读 →
第 7 课·2026年3月28日
RLHF:如何让AI听人话
RLHF(人类反馈强化学习)让AI学会符合人类偏好。它的三阶段流程、核心原理,以及为什么让ChatGPT变得如此强大。
⏱️ 10 分钟#RLHF
开始阅读 →
第 8 课·2026年3月28日
奖励模型:RLHF的评分官
奖励模型是RLHF的核心组件,它学会给AI的回答打分。训练方法、关键技巧,以及如何让奖励模型更准确地模拟人类偏好。
⏱️ 10 分钟#奖励模型
开始阅读 →
关于本系列
这个系列旨在用第一性原理拆解✨ LLM高级技巧的核心概念。 每篇文章都聚焦于一个具体的知识点,配有手绘图解,让复杂的概念变得简单易懂。
Few-shotLLM高级技巧Prompt