深色模式
第 08 章 生成式 AI 与大模型
学习目标
掌握生成式 AI、大语言模型、BERT/GPT/Diffusion、Prompt、微调、LoRA、RAG、RLHF、Agent 和大模型评估。这部分是近年新增热点,理论题很爱考定义和区别。
考点地图
高频:BERT 与 GPT 区别、注意力机制、Token、上下文窗口、Prompt、LoRA、QLoRA、RAG、RLHF、Agent、幻觉、生成内容标识和安全。
1. 生成式 AI 是什么
生成式人工智能是能够生成文本、图片、音频、视频、代码等内容的 AI。
典型应用:
- 对话问答。
- 文本写作和摘要。
- 代码生成。
- 图像生成。
- 语音合成。
- 视频生成。
- 智能客服。
- 知识库问答。
2. 常见生成式模型
| 模型 | 结构/思想 | 擅长 |
|---|---|---|
| BERT | Encoder-only | 理解类任务 |
| GPT | Decoder-only | 生成类任务 |
| T5/BART | Encoder-Decoder | 翻译、摘要、问答 |
| VAE | 概率潜变量生成 | 表征学习、生成 |
| GAN | 生成器与判别器对抗 | 图像生成 |
| Diffusion | 加噪再去噪 | 高质量图像/视频生成 |
3. BERT 与 GPT
| 项目 | BERT | GPT |
|---|---|---|
| 结构 | Transformer Encoder | Transformer Decoder |
| 上下文 | 双向 | 自回归/单向 |
| 训练任务 | Masked Language Model | 下一 token 预测 |
| 擅长 | 理解、分类、匹配、实体识别 | 生成、对话、写作、代码 |
考试口诀:BERT 看上下文做理解,GPT 接着前文做生成。
4. Token 与上下文窗口
Token 是模型处理文本的基本单位,可以是字、词、子词或符号。
上下文窗口是模型一次能处理的 token 数量上限。
注意:
- 上下文太长会被截断或需要摘要。
- 中文一个字不一定等于一个 token。
- 上下文窗口越大,不代表一定回答越准;检索和排序仍重要。
5. 注意力机制
注意力机制的主要作用是让模型聚焦关键信息。
自注意力让同一序列内部 token 互相关注。
多头注意力让模型从多个角度学习关系。
典型选择题:注意力机制不是为了“降低训练难度”或“删除数据”,主要是加强对关键信息的聚焦和建模长距离依赖。
6. Prompt Engineering
Prompt 是给模型的输入指令。
常见方式:
- Zero-shot:不给示例直接回答。
- Few-shot:给几个示例。
- Chain-of-Thought:引导分步推理。
- Role Prompt:指定角色。
- Format Constraint:要求固定格式输出。
- Self-Consistency:多次推理投票。
注意:Prompt 不能替代权限控制和安全机制。
7. 大模型训练和微调
7.1 预训练
在大规模通用语料上训练,学习语言规律和世界知识。
7.2 监督微调 SFT
用高质量指令数据让模型学会按人类指令回答。
7.3 全量微调
更新模型全部或大部分参数。效果强,但需要更多显存、算力和数据。
7.4 参数高效微调 PEFT
冻结大部分模型参数,只训练少量新增参数。
常见方法:
- Adapter。
- Prefix Tuning。
- Prompt Tuning。
- LoRA。
- QLoRA。
8. LoRA 与 QLoRA
LoRA 的核心思想:把权重更新表示为低秩矩阵乘积,只训练少量低秩参数,主体模型冻结。
优点:
- 显存占用低。
- 训练参数少。
- 适合下游任务快速适配。
- 多个任务可保存不同 LoRA 权重。
QLoRA = 量化基础模型 + LoRA。进一步降低显存。
易错:LoRA 不是训练全部参数。
9. RLHF 与对齐
RLHF:Reinforcement Learning from Human Feedback,人类反馈强化学习。
常见流程:
- SFT:监督微调。
- RM:训练奖励模型,学习人类偏好。
- RL:用强化学习优化模型,使输出更符合偏好。
对齐目标:有用、诚实、无害。
10. RAG 检索增强生成
RAG = Retrieval-Augmented Generation。
流程:
- 收集文档。
- 文档清洗。
- 切分 chunk。
- 计算 embedding。
- 存入向量数据库。
- 用户问题向量化。
- 相似度检索 top-k。
- 将检索片段放入提示词。
- 大模型生成答案。
- 返回答案和引用。
优势:
- 接入私有知识。
- 降低幻觉。
- 知识更新不必重新训练模型。
- 可追溯引用来源。
风险:
- 检索不到正确资料。
- 检索到过期或错误资料。
- chunk 切分不合理。
- 用户越权检索敏感文档。
- 提示注入攻击。
RAG 与微调区别:RAG 不改模型参数,微调会训练参数。
11. Embedding 和向量检索
Embedding 是把文本、图片等转成向量表示。
相似语义的内容在向量空间距离更近。
常见相似度:
- 余弦相似度。
- 点积。
- 欧氏距离。
12. Agent
Agent 是能感知、规划、调用工具并执行任务的智能体。
常见能力:
- 任务规划。
- 记忆。
- 工具调用。
- 反思和迭代。
- 多步执行。
例子:用户说“帮我分析表格并生成报告”,Agent 可能读取文件、运行代码、生成图表、撰写报告。
13. 幻觉
幻觉是模型生成看似合理但不真实的内容。
缓解方法:
- RAG 检索可信资料。
- 要求引用来源。
- 工具校验。
- 限定“只基于材料回答”。
- 人工审核。
- 事实性评估。
14. 生成式 AI 评估
| 任务 | 指标/方法 |
|---|---|
| 文本生成 | BLEU、ROUGE、人工评估 |
| 问答/RAG | 正确性、忠实性、引用命中率 |
| 分类微调 | Accuracy、F1 |
| 代码生成 | 单元测试通过率 |
| 图像生成 | FID、CLIP Score、人评 |
| 对话系统 | 有用性、安全性、流畅性 |
不能只看语言流畅度,还要看事实性、安全性和合规性。
15. 生成式 AI 安全
风险:
- 违法有害内容。
- 隐私泄露。
- 版权侵权。
- 深度伪造。
- 偏见歧视。
- 提示注入。
- 越权工具调用。
措施:
- 数据来源审查。
- 内容安全过滤。
- 输出标识。
- 权限控制。
- 日志审计。
- 人工复核。
- 安全评估。
易错点
| 易错点 | 正确理解 |
|---|---|
| GPT 和 BERT 完全一样 | 错。结构和典型任务不同 |
| LoRA 是全量微调 | 错。LoRA 是参数高效微调 |
| RAG 会自动保证答案完全正确 | 错。检索、文档质量、提示都会影响结果 |
| Prompt 可以替代安全系统 | 错。Prompt 只是输入指令 |
| 模型输出流畅就可信 | 错。可能是幻觉 |
例题
例题 1
生成式模型中,注意力机制的主要作用是:
A. 减少全部计算资源消耗
B. 提高硬盘容量
C. 加强模型对关键信息的聚焦
D. 删除训练数据
答案:C。
例题 2
LoRA 的主要特点是:
A. 训练全部参数
B. 冻结主体模型,只训练低秩增量参数
C. 不需要任何数据
D. 只能用于 SQL 查询
答案:B。
例题 3
RAG 系统通常包括:
A. 文档切分
B. 向量化
C. 相似度检索
D. 生成回答
答案:ABCD。
自测清单
- 能区分 BERT 和 GPT。
- 能解释 Token 和上下文窗口。
- 能说明 LoRA 和 QLoRA。
- 能画出 RAG 流程。
- 能解释 RLHF 三步。
- 能说出三种幻觉缓解方法。