第 07 章深度学习基础

学习目标

掌握神经网络基础、训练过程、常见网络结构 CNN/RNN/Transformer、损失函数、优化器、正则化和迁移学习。重点理解概念，不需要推导复杂公式。

考点地图

高频：神经元、激活函数、反向传播、学习率、CNN、RNN/LSTM/GRU、Transformer、自注意力、Dropout、BatchNorm、迁移学习。

1. 深度学习是什么

深度学习是机器学习的一个分支，使用多层神经网络从数据中自动学习特征表示。

传统机器学习通常依赖人工设计特征；深度学习可以从原始图像、文本、音频中学习多层特征。

2. 神经网络基础

2.1 神经元

神经元做两件事：

线性变换：z = w*x + b。
非线性激活：a = f(z)。

没有非线性激活，多层网络仍相当于线性模型。

2.2 常见激活函数

激活函数	特点
Sigmoid	输出 0-1，早期常用，易梯度消失
Tanh	输出 -1 到 1，也可能梯度消失
ReLU	`max(0,x)`，简单高效，常用
Leaky ReLU	缓解 ReLU 死亡问题
Softmax	多分类输出概率分布

3. 训练过程

典型训练循环：

输入一个 batch 数据。
前向传播得到预测。
计算损失函数。
反向传播计算梯度。
优化器更新参数。
重复多个 epoch。

关键术语：

Epoch：完整遍历训练集一次。
Batch：一次训练使用的一批样本。
Learning Rate：学习率，控制参数更新步长。
Gradient：梯度，损失函数对参数的导数。

学习率太大可能震荡或发散；太小训练很慢或陷入局部区域。

4. 损失函数

任务	常用损失
回归	MSE、MAE、Huber
二分类	Binary Cross Entropy
多分类	Cross Entropy
目标检测	分类损失 + 定位损失
语言模型	Cross Entropy

交叉熵用于分类很常见。

5. 优化器

SGD：随机梯度下降，简单稳定。
Momentum：引入动量，加速收敛。
Adam：自适应学习率，实践中常用。
AdamW：解耦权重衰减，大模型训练常见。

6. CNN 卷积神经网络

CNN 擅长图像任务。

核心组件：

卷积层：提取局部特征。
卷积核：滑动窗口参数。
步幅 stride：卷积核移动步长。
填充 padding：控制输出尺寸。
池化 pooling：降采样，减少计算。
全连接层：综合特征做分类。

CNN 的优势：

局部连接。
参数共享。
平移不变性。

常见 CNN 模型：

LeNet。
AlexNet。
VGG。
ResNet。
EfficientNet。

ResNet 的残差连接有助于训练更深网络。

7. RNN、LSTM、GRU

RNN 用于序列数据，如文本、语音、时间序列。

RNN 问题：长序列中容易梯度消失或爆炸。

LSTM 用门控机制缓解长依赖问题：

输入门。
遗忘门。
输出门。

GRU 是更简化的门控结构，参数更少。

8. Transformer

Transformer 是当前大模型的核心结构。

8.1 自注意力

自注意力让序列中每个 token 都可以关注其他 token，捕捉长距离依赖。

核心思想：

Query：我要找什么。
Key：我有什么特征可被匹配。
Value：真正被汇总的信息。

8.2 多头注意力

多头注意力让模型从多个角度关注信息。不同头可以学习不同关系。

8.3 位置编码

自注意力本身不包含顺序，所以需要位置编码告诉模型 token 顺序。

8.4 其他组件

Feed Forward Network：前馈网络。
Residual Connection：残差连接。
LayerNorm：层归一化。

9. 正则化与泛化

常见方法：

L1 正则：促使权重稀疏。
L2 正则/权重衰减：限制权重过大。
Dropout：训练时随机丢弃部分神经元。
BatchNorm：稳定中间层分布。
数据增强：增加样本多样性。
早停：验证集不再提升时停止。

10. 迁移学习和预训练

迁移学习：把在大数据上学到的知识迁移到新任务。

常见方式：

冻结预训练模型，只训练分类头。
微调部分层。
微调整个模型。

适合：数据量较少但任务相关的场景。

11. 梯度问题

梯度消失：梯度越来越小，前面层学不动。
梯度爆炸：梯度过大，训练不稳定。

缓解：

合理初始化。
ReLU。
BatchNorm/LayerNorm。
残差连接。
梯度裁剪。

易错点

易错点	正确理解
深度学习不需要数据	错。通常更依赖大量高质量数据
Softmax 用于回归输出	通常用于多分类概率
CNN 只能做分类	错。也可做检测、分割等视觉任务
RNN 完全不处理序列	错。RNN 就是序列模型
Transformer 不需要位置编码	错。通常需要某种位置信息

例题

例题 1

卷积神经网络 CNN 最擅长处理：

A. 图像空间特征
B. 数据库事务隔离
C. 路由协议
D. 劳动合同签署

答案：A。

例题 2

Transformer 的核心机制是：

A. 自注意力
B. 冒泡排序
C. SQL JOIN
D. 文件压缩

答案：A。

例题 3

缓解过拟合的方法包括：

A. Dropout
B. L2 正则
C. 数据增强
D. 测试集参与训练

答案：ABC。

自测清单

能描述神经网络训练流程。
能说出 ReLU、Softmax 的用途。
能解释 CNN 的卷积核和池化。
能解释 LSTM 为什么适合长序列。
能解释 Transformer 的自注意力。
能列出三种正则化方法。

第 07 章 深度学习基础 ​

学习目标 ​

考点地图 ​

1. 深度学习是什么 ​

2. 神经网络基础 ​

2.1 神经元 ​

2.2 常见激活函数 ​

3. 训练过程 ​

4. 损失函数 ​

5. 优化器 ​

6. CNN 卷积神经网络 ​

7. RNN、LSTM、GRU ​

8. Transformer ​

8.1 自注意力 ​

8.2 多头注意力 ​

8.3 位置编码 ​

8.4 其他组件 ​

9. 正则化与泛化 ​

10. 迁移学习和预训练 ​

11. 梯度问题 ​

易错点 ​

例题 ​

例题 1 ​

例题 2 ​

例题 3 ​

自测清单 ​