第 08 章生成式 AI 与大模型

学习目标

掌握生成式 AI、大语言模型、BERT/GPT/Diffusion、Prompt、微调、LoRA、RAG、RLHF、Agent 和大模型评估。这部分是近年新增热点，理论题很爱考定义和区别。

考点地图

高频：BERT 与 GPT 区别、注意力机制、Token、上下文窗口、Prompt、LoRA、QLoRA、RAG、RLHF、Agent、幻觉、生成内容标识和安全。

1. 生成式 AI 是什么

生成式人工智能是能够生成文本、图片、音频、视频、代码等内容的 AI。

典型应用：

对话问答。
文本写作和摘要。
代码生成。
图像生成。
语音合成。
视频生成。
智能客服。
知识库问答。

2. 常见生成式模型

模型	结构/思想	擅长
BERT	Encoder-only	理解类任务
GPT	Decoder-only	生成类任务
T5/BART	Encoder-Decoder	翻译、摘要、问答
VAE	概率潜变量生成	表征学习、生成
GAN	生成器与判别器对抗	图像生成
Diffusion	加噪再去噪	高质量图像/视频生成

3. BERT 与 GPT

项目	BERT	GPT
结构	Transformer Encoder	Transformer Decoder
上下文	双向	自回归/单向
训练任务	Masked Language Model	下一 token 预测
擅长	理解、分类、匹配、实体识别	生成、对话、写作、代码

考试口诀：BERT 看上下文做理解，GPT 接着前文做生成。

4. Token 与上下文窗口

Token 是模型处理文本的基本单位，可以是字、词、子词或符号。

上下文窗口是模型一次能处理的 token 数量上限。

注意：

上下文太长会被截断或需要摘要。
中文一个字不一定等于一个 token。
上下文窗口越大，不代表一定回答越准；检索和排序仍重要。

5. 注意力机制

注意力机制的主要作用是让模型聚焦关键信息。

自注意力让同一序列内部 token 互相关注。
多头注意力让模型从多个角度学习关系。

典型选择题：注意力机制不是为了“降低训练难度”或“删除数据”，主要是加强对关键信息的聚焦和建模长距离依赖。

6. Prompt Engineering

Prompt 是给模型的输入指令。

常见方式：

Zero-shot：不给示例直接回答。
Few-shot：给几个示例。
Chain-of-Thought：引导分步推理。
Role Prompt：指定角色。
Format Constraint：要求固定格式输出。
Self-Consistency：多次推理投票。

注意：Prompt 不能替代权限控制和安全机制。

7. 大模型训练和微调

7.1 预训练

在大规模通用语料上训练，学习语言规律和世界知识。

7.2 监督微调 SFT

用高质量指令数据让模型学会按人类指令回答。

7.3 全量微调

更新模型全部或大部分参数。效果强，但需要更多显存、算力和数据。

7.4 参数高效微调 PEFT

冻结大部分模型参数，只训练少量新增参数。

常见方法：

Adapter。
Prefix Tuning。
Prompt Tuning。
LoRA。
QLoRA。

8. LoRA 与 QLoRA

LoRA 的核心思想：把权重更新表示为低秩矩阵乘积，只训练少量低秩参数，主体模型冻结。

优点：

显存占用低。
训练参数少。
适合下游任务快速适配。
多个任务可保存不同 LoRA 权重。

QLoRA = 量化基础模型 + LoRA。进一步降低显存。

易错：LoRA 不是训练全部参数。

9. RLHF 与对齐

RLHF：Reinforcement Learning from Human Feedback，人类反馈强化学习。

常见流程：

SFT：监督微调。
RM：训练奖励模型，学习人类偏好。
RL：用强化学习优化模型，使输出更符合偏好。

对齐目标：有用、诚实、无害。

10. RAG 检索增强生成

RAG = Retrieval-Augmented Generation。

流程：

收集文档。
文档清洗。
切分 chunk。
计算 embedding。
存入向量数据库。
用户问题向量化。
相似度检索 top-k。
将检索片段放入提示词。
大模型生成答案。
返回答案和引用。

优势：

接入私有知识。
降低幻觉。
知识更新不必重新训练模型。
可追溯引用来源。

风险：

检索不到正确资料。
检索到过期或错误资料。
chunk 切分不合理。
用户越权检索敏感文档。
提示注入攻击。

RAG 与微调区别：RAG 不改模型参数，微调会训练参数。

11. Embedding 和向量检索

Embedding 是把文本、图片等转成向量表示。

相似语义的内容在向量空间距离更近。

常见相似度：

余弦相似度。
点积。
欧氏距离。

12. Agent

Agent 是能感知、规划、调用工具并执行任务的智能体。

常见能力：

任务规划。
记忆。
工具调用。
反思和迭代。
多步执行。

例子：用户说“帮我分析表格并生成报告”，Agent 可能读取文件、运行代码、生成图表、撰写报告。

13. 幻觉

幻觉是模型生成看似合理但不真实的内容。

缓解方法：

RAG 检索可信资料。
要求引用来源。
工具校验。
限定“只基于材料回答”。
人工审核。
事实性评估。

14. 生成式 AI 评估

任务	指标/方法
文本生成	BLEU、ROUGE、人工评估
问答/RAG	正确性、忠实性、引用命中率
分类微调	Accuracy、F1
代码生成	单元测试通过率
图像生成	FID、CLIP Score、人评
对话系统	有用性、安全性、流畅性

不能只看语言流畅度，还要看事实性、安全性和合规性。

15. 生成式 AI 安全

风险：

违法有害内容。
隐私泄露。
版权侵权。
深度伪造。
偏见歧视。
提示注入。
越权工具调用。

措施：

数据来源审查。
内容安全过滤。
输出标识。
权限控制。
日志审计。
人工复核。
安全评估。

易错点

易错点	正确理解
GPT 和 BERT 完全一样	错。结构和典型任务不同
LoRA 是全量微调	错。LoRA 是参数高效微调
RAG 会自动保证答案完全正确	错。检索、文档质量、提示都会影响结果
Prompt 可以替代安全系统	错。Prompt 只是输入指令
模型输出流畅就可信	错。可能是幻觉

例题

例题 1

生成式模型中，注意力机制的主要作用是：

A. 减少全部计算资源消耗
B. 提高硬盘容量
C. 加强模型对关键信息的聚焦
D. 删除训练数据

答案：C。

例题 2

LoRA 的主要特点是：

A. 训练全部参数
B. 冻结主体模型，只训练低秩增量参数
C. 不需要任何数据
D. 只能用于 SQL 查询

答案：B。

例题 3

RAG 系统通常包括：

A. 文档切分
B. 向量化
C. 相似度检索
D. 生成回答

答案：ABCD。

自测清单

能区分 BERT 和 GPT。
能解释 Token 和上下文窗口。
能说明 LoRA 和 QLoRA。
能画出 RAG 流程。
能解释 RLHF 三步。
能说出三种幻觉缓解方法。

第 08 章 生成式 AI 与大模型 ​

学习目标 ​

考点地图 ​

1. 生成式 AI 是什么 ​

2. 常见生成式模型 ​

3. BERT 与 GPT ​

4. Token 与上下文窗口 ​

5. 注意力机制 ​

6. Prompt Engineering ​

7. 大模型训练和微调 ​

7.1 预训练 ​

7.2 监督微调 SFT ​

7.3 全量微调 ​

7.4 参数高效微调 PEFT ​

8. LoRA 与 QLoRA ​

9. RLHF 与对齐 ​

10. RAG 检索增强生成 ​

11. Embedding 和向量检索 ​

12. Agent ​

13. 幻觉 ​

14. 生成式 AI 评估 ​

15. 生成式 AI 安全 ​

易错点 ​

例题 ​

例题 1 ​

例题 2 ​

例题 3 ​

自测清单 ​