Skip to content

第 08 章 生成式 AI 与大模型

学习目标

掌握生成式 AI、大语言模型、BERT/GPT/Diffusion、Prompt、微调、LoRA、RAG、RLHF、Agent 和大模型评估。这部分是近年新增热点,理论题很爱考定义和区别。

考点地图

高频:BERT 与 GPT 区别、注意力机制、Token、上下文窗口、Prompt、LoRA、QLoRA、RAG、RLHF、Agent、幻觉、生成内容标识和安全。

1. 生成式 AI 是什么

生成式人工智能是能够生成文本、图片、音频、视频、代码等内容的 AI。

典型应用:

  • 对话问答。
  • 文本写作和摘要。
  • 代码生成。
  • 图像生成。
  • 语音合成。
  • 视频生成。
  • 智能客服。
  • 知识库问答。

2. 常见生成式模型

模型结构/思想擅长
BERTEncoder-only理解类任务
GPTDecoder-only生成类任务
T5/BARTEncoder-Decoder翻译、摘要、问答
VAE概率潜变量生成表征学习、生成
GAN生成器与判别器对抗图像生成
Diffusion加噪再去噪高质量图像/视频生成

3. BERT 与 GPT

项目BERTGPT
结构Transformer EncoderTransformer Decoder
上下文双向自回归/单向
训练任务Masked Language Model下一 token 预测
擅长理解、分类、匹配、实体识别生成、对话、写作、代码

考试口诀:BERT 看上下文做理解,GPT 接着前文做生成。

4. Token 与上下文窗口

Token 是模型处理文本的基本单位,可以是字、词、子词或符号。

上下文窗口是模型一次能处理的 token 数量上限。

注意:

  • 上下文太长会被截断或需要摘要。
  • 中文一个字不一定等于一个 token。
  • 上下文窗口越大,不代表一定回答越准;检索和排序仍重要。

5. 注意力机制

注意力机制的主要作用是让模型聚焦关键信息。

自注意力让同一序列内部 token 互相关注。
多头注意力让模型从多个角度学习关系。

典型选择题:注意力机制不是为了“降低训练难度”或“删除数据”,主要是加强对关键信息的聚焦和建模长距离依赖。

6. Prompt Engineering

Prompt 是给模型的输入指令。

常见方式:

  • Zero-shot:不给示例直接回答。
  • Few-shot:给几个示例。
  • Chain-of-Thought:引导分步推理。
  • Role Prompt:指定角色。
  • Format Constraint:要求固定格式输出。
  • Self-Consistency:多次推理投票。

注意:Prompt 不能替代权限控制和安全机制。

7. 大模型训练和微调

7.1 预训练

在大规模通用语料上训练,学习语言规律和世界知识。

7.2 监督微调 SFT

用高质量指令数据让模型学会按人类指令回答。

7.3 全量微调

更新模型全部或大部分参数。效果强,但需要更多显存、算力和数据。

7.4 参数高效微调 PEFT

冻结大部分模型参数,只训练少量新增参数。

常见方法:

  • Adapter。
  • Prefix Tuning。
  • Prompt Tuning。
  • LoRA。
  • QLoRA。

8. LoRA 与 QLoRA

LoRA 的核心思想:把权重更新表示为低秩矩阵乘积,只训练少量低秩参数,主体模型冻结。

优点:

  • 显存占用低。
  • 训练参数少。
  • 适合下游任务快速适配。
  • 多个任务可保存不同 LoRA 权重。

QLoRA = 量化基础模型 + LoRA。进一步降低显存。

易错:LoRA 不是训练全部参数。

9. RLHF 与对齐

RLHF:Reinforcement Learning from Human Feedback,人类反馈强化学习。

常见流程:

  1. SFT:监督微调。
  2. RM:训练奖励模型,学习人类偏好。
  3. RL:用强化学习优化模型,使输出更符合偏好。

对齐目标:有用、诚实、无害。

10. RAG 检索增强生成

RAG = Retrieval-Augmented Generation。

流程:

  1. 收集文档。
  2. 文档清洗。
  3. 切分 chunk。
  4. 计算 embedding。
  5. 存入向量数据库。
  6. 用户问题向量化。
  7. 相似度检索 top-k。
  8. 将检索片段放入提示词。
  9. 大模型生成答案。
  10. 返回答案和引用。

优势:

  • 接入私有知识。
  • 降低幻觉。
  • 知识更新不必重新训练模型。
  • 可追溯引用来源。

风险:

  • 检索不到正确资料。
  • 检索到过期或错误资料。
  • chunk 切分不合理。
  • 用户越权检索敏感文档。
  • 提示注入攻击。

RAG 与微调区别:RAG 不改模型参数,微调会训练参数。

11. Embedding 和向量检索

Embedding 是把文本、图片等转成向量表示。

相似语义的内容在向量空间距离更近。

常见相似度:

  • 余弦相似度。
  • 点积。
  • 欧氏距离。

12. Agent

Agent 是能感知、规划、调用工具并执行任务的智能体。

常见能力:

  • 任务规划。
  • 记忆。
  • 工具调用。
  • 反思和迭代。
  • 多步执行。

例子:用户说“帮我分析表格并生成报告”,Agent 可能读取文件、运行代码、生成图表、撰写报告。

13. 幻觉

幻觉是模型生成看似合理但不真实的内容。

缓解方法:

  • RAG 检索可信资料。
  • 要求引用来源。
  • 工具校验。
  • 限定“只基于材料回答”。
  • 人工审核。
  • 事实性评估。

14. 生成式 AI 评估

任务指标/方法
文本生成BLEU、ROUGE、人工评估
问答/RAG正确性、忠实性、引用命中率
分类微调Accuracy、F1
代码生成单元测试通过率
图像生成FID、CLIP Score、人评
对话系统有用性、安全性、流畅性

不能只看语言流畅度,还要看事实性、安全性和合规性。

15. 生成式 AI 安全

风险:

  • 违法有害内容。
  • 隐私泄露。
  • 版权侵权。
  • 深度伪造。
  • 偏见歧视。
  • 提示注入。
  • 越权工具调用。

措施:

  • 数据来源审查。
  • 内容安全过滤。
  • 输出标识。
  • 权限控制。
  • 日志审计。
  • 人工复核。
  • 安全评估。

易错点

易错点正确理解
GPT 和 BERT 完全一样错。结构和典型任务不同
LoRA 是全量微调错。LoRA 是参数高效微调
RAG 会自动保证答案完全正确错。检索、文档质量、提示都会影响结果
Prompt 可以替代安全系统错。Prompt 只是输入指令
模型输出流畅就可信错。可能是幻觉

例题

例题 1

生成式模型中,注意力机制的主要作用是:

A. 减少全部计算资源消耗
B. 提高硬盘容量
C. 加强模型对关键信息的聚焦
D. 删除训练数据

答案:C。

例题 2

LoRA 的主要特点是:

A. 训练全部参数
B. 冻结主体模型,只训练低秩增量参数
C. 不需要任何数据
D. 只能用于 SQL 查询

答案:B。

例题 3

RAG 系统通常包括:

A. 文档切分
B. 向量化
C. 相似度检索
D. 生成回答

答案:ABCD。

自测清单

  • 能区分 BERT 和 GPT。
  • 能解释 Token 和上下文窗口。
  • 能说明 LoRA 和 QLoRA。
  • 能画出 RAG 流程。
  • 能解释 RLHF 三步。
  • 能说出三种幻觉缓解方法。