深色模式
第 07 章 深度学习基础
学习目标
掌握神经网络基础、训练过程、常见网络结构 CNN/RNN/Transformer、损失函数、优化器、正则化和迁移学习。重点理解概念,不需要推导复杂公式。
考点地图
高频:神经元、激活函数、反向传播、学习率、CNN、RNN/LSTM/GRU、Transformer、自注意力、Dropout、BatchNorm、迁移学习。
1. 深度学习是什么
深度学习是机器学习的一个分支,使用多层神经网络从数据中自动学习特征表示。
传统机器学习通常依赖人工设计特征;深度学习可以从原始图像、文本、音频中学习多层特征。
2. 神经网络基础
2.1 神经元
神经元做两件事:
- 线性变换:
z = w*x + b。 - 非线性激活:
a = f(z)。
没有非线性激活,多层网络仍相当于线性模型。
2.2 常见激活函数
| 激活函数 | 特点 |
|---|---|
| Sigmoid | 输出 0-1,早期常用,易梯度消失 |
| Tanh | 输出 -1 到 1,也可能梯度消失 |
| ReLU | max(0,x),简单高效,常用 |
| Leaky ReLU | 缓解 ReLU 死亡问题 |
| Softmax | 多分类输出概率分布 |
3. 训练过程
典型训练循环:
- 输入一个 batch 数据。
- 前向传播得到预测。
- 计算损失函数。
- 反向传播计算梯度。
- 优化器更新参数。
- 重复多个 epoch。
关键术语:
- Epoch:完整遍历训练集一次。
- Batch:一次训练使用的一批样本。
- Learning Rate:学习率,控制参数更新步长。
- Gradient:梯度,损失函数对参数的导数。
学习率太大可能震荡或发散;太小训练很慢或陷入局部区域。
4. 损失函数
| 任务 | 常用损失 |
|---|---|
| 回归 | MSE、MAE、Huber |
| 二分类 | Binary Cross Entropy |
| 多分类 | Cross Entropy |
| 目标检测 | 分类损失 + 定位损失 |
| 语言模型 | Cross Entropy |
交叉熵用于分类很常见。
5. 优化器
- SGD:随机梯度下降,简单稳定。
- Momentum:引入动量,加速收敛。
- Adam:自适应学习率,实践中常用。
- AdamW:解耦权重衰减,大模型训练常见。
6. CNN 卷积神经网络
CNN 擅长图像任务。
核心组件:
- 卷积层:提取局部特征。
- 卷积核:滑动窗口参数。
- 步幅 stride:卷积核移动步长。
- 填充 padding:控制输出尺寸。
- 池化 pooling:降采样,减少计算。
- 全连接层:综合特征做分类。
CNN 的优势:
- 局部连接。
- 参数共享。
- 平移不变性。
常见 CNN 模型:
- LeNet。
- AlexNet。
- VGG。
- ResNet。
- EfficientNet。
ResNet 的残差连接有助于训练更深网络。
7. RNN、LSTM、GRU
RNN 用于序列数据,如文本、语音、时间序列。
RNN 问题:长序列中容易梯度消失或爆炸。
LSTM 用门控机制缓解长依赖问题:
- 输入门。
- 遗忘门。
- 输出门。
GRU 是更简化的门控结构,参数更少。
8. Transformer
Transformer 是当前大模型的核心结构。
8.1 自注意力
自注意力让序列中每个 token 都可以关注其他 token,捕捉长距离依赖。
核心思想:
- Query:我要找什么。
- Key:我有什么特征可被匹配。
- Value:真正被汇总的信息。
8.2 多头注意力
多头注意力让模型从多个角度关注信息。不同头可以学习不同关系。
8.3 位置编码
自注意力本身不包含顺序,所以需要位置编码告诉模型 token 顺序。
8.4 其他组件
- Feed Forward Network:前馈网络。
- Residual Connection:残差连接。
- LayerNorm:层归一化。
9. 正则化与泛化
常见方法:
- L1 正则:促使权重稀疏。
- L2 正则/权重衰减:限制权重过大。
- Dropout:训练时随机丢弃部分神经元。
- BatchNorm:稳定中间层分布。
- 数据增强:增加样本多样性。
- 早停:验证集不再提升时停止。
10. 迁移学习和预训练
迁移学习:把在大数据上学到的知识迁移到新任务。
常见方式:
- 冻结预训练模型,只训练分类头。
- 微调部分层。
- 微调整个模型。
适合:数据量较少但任务相关的场景。
11. 梯度问题
- 梯度消失:梯度越来越小,前面层学不动。
- 梯度爆炸:梯度过大,训练不稳定。
缓解:
- 合理初始化。
- ReLU。
- BatchNorm/LayerNorm。
- 残差连接。
- 梯度裁剪。
易错点
| 易错点 | 正确理解 |
|---|---|
| 深度学习不需要数据 | 错。通常更依赖大量高质量数据 |
| Softmax 用于回归输出 | 通常用于多分类概率 |
| CNN 只能做分类 | 错。也可做检测、分割等视觉任务 |
| RNN 完全不处理序列 | 错。RNN 就是序列模型 |
| Transformer 不需要位置编码 | 错。通常需要某种位置信息 |
例题
例题 1
卷积神经网络 CNN 最擅长处理:
A. 图像空间特征
B. 数据库事务隔离
C. 路由协议
D. 劳动合同签署
答案:A。
例题 2
Transformer 的核心机制是:
A. 自注意力
B. 冒泡排序
C. SQL JOIN
D. 文件压缩
答案:A。
例题 3
缓解过拟合的方法包括:
A. Dropout
B. L2 正则
C. 数据增强
D. 测试集参与训练
答案:ABC。
自测清单
- 能描述神经网络训练流程。
- 能说出 ReLU、Softmax 的用途。
- 能解释 CNN 的卷积核和池化。
- 能解释 LSTM 为什么适合长序列。
- 能解释 Transformer 的自注意力。
- 能列出三种正则化方法。