Skip to content

第 07 章 深度学习基础

学习目标

掌握神经网络基础、训练过程、常见网络结构 CNN/RNN/Transformer、损失函数、优化器、正则化和迁移学习。重点理解概念,不需要推导复杂公式。

考点地图

高频:神经元、激活函数、反向传播、学习率、CNN、RNN/LSTM/GRU、Transformer、自注意力、Dropout、BatchNorm、迁移学习。

1. 深度学习是什么

深度学习是机器学习的一个分支,使用多层神经网络从数据中自动学习特征表示。

传统机器学习通常依赖人工设计特征;深度学习可以从原始图像、文本、音频中学习多层特征。

2. 神经网络基础

2.1 神经元

神经元做两件事:

  1. 线性变换:z = w*x + b
  2. 非线性激活:a = f(z)

没有非线性激活,多层网络仍相当于线性模型。

2.2 常见激活函数

激活函数特点
Sigmoid输出 0-1,早期常用,易梯度消失
Tanh输出 -1 到 1,也可能梯度消失
ReLUmax(0,x),简单高效,常用
Leaky ReLU缓解 ReLU 死亡问题
Softmax多分类输出概率分布

3. 训练过程

典型训练循环:

  1. 输入一个 batch 数据。
  2. 前向传播得到预测。
  3. 计算损失函数。
  4. 反向传播计算梯度。
  5. 优化器更新参数。
  6. 重复多个 epoch。

关键术语:

  • Epoch:完整遍历训练集一次。
  • Batch:一次训练使用的一批样本。
  • Learning Rate:学习率,控制参数更新步长。
  • Gradient:梯度,损失函数对参数的导数。

学习率太大可能震荡或发散;太小训练很慢或陷入局部区域。

4. 损失函数

任务常用损失
回归MSE、MAE、Huber
二分类Binary Cross Entropy
多分类Cross Entropy
目标检测分类损失 + 定位损失
语言模型Cross Entropy

交叉熵用于分类很常见。

5. 优化器

  • SGD:随机梯度下降,简单稳定。
  • Momentum:引入动量,加速收敛。
  • Adam:自适应学习率,实践中常用。
  • AdamW:解耦权重衰减,大模型训练常见。

6. CNN 卷积神经网络

CNN 擅长图像任务。

核心组件:

  • 卷积层:提取局部特征。
  • 卷积核:滑动窗口参数。
  • 步幅 stride:卷积核移动步长。
  • 填充 padding:控制输出尺寸。
  • 池化 pooling:降采样,减少计算。
  • 全连接层:综合特征做分类。

CNN 的优势:

  • 局部连接。
  • 参数共享。
  • 平移不变性。

常见 CNN 模型:

  • LeNet。
  • AlexNet。
  • VGG。
  • ResNet。
  • EfficientNet。

ResNet 的残差连接有助于训练更深网络。

7. RNN、LSTM、GRU

RNN 用于序列数据,如文本、语音、时间序列。

RNN 问题:长序列中容易梯度消失或爆炸。

LSTM 用门控机制缓解长依赖问题:

  • 输入门。
  • 遗忘门。
  • 输出门。

GRU 是更简化的门控结构,参数更少。

8. Transformer

Transformer 是当前大模型的核心结构。

8.1 自注意力

自注意力让序列中每个 token 都可以关注其他 token,捕捉长距离依赖。

核心思想:

  • Query:我要找什么。
  • Key:我有什么特征可被匹配。
  • Value:真正被汇总的信息。

8.2 多头注意力

多头注意力让模型从多个角度关注信息。不同头可以学习不同关系。

8.3 位置编码

自注意力本身不包含顺序,所以需要位置编码告诉模型 token 顺序。

8.4 其他组件

  • Feed Forward Network:前馈网络。
  • Residual Connection:残差连接。
  • LayerNorm:层归一化。

9. 正则化与泛化

常见方法:

  • L1 正则:促使权重稀疏。
  • L2 正则/权重衰减:限制权重过大。
  • Dropout:训练时随机丢弃部分神经元。
  • BatchNorm:稳定中间层分布。
  • 数据增强:增加样本多样性。
  • 早停:验证集不再提升时停止。

10. 迁移学习和预训练

迁移学习:把在大数据上学到的知识迁移到新任务。

常见方式:

  • 冻结预训练模型,只训练分类头。
  • 微调部分层。
  • 微调整个模型。

适合:数据量较少但任务相关的场景。

11. 梯度问题

  • 梯度消失:梯度越来越小,前面层学不动。
  • 梯度爆炸:梯度过大,训练不稳定。

缓解:

  • 合理初始化。
  • ReLU。
  • BatchNorm/LayerNorm。
  • 残差连接。
  • 梯度裁剪。

易错点

易错点正确理解
深度学习不需要数据错。通常更依赖大量高质量数据
Softmax 用于回归输出通常用于多分类概率
CNN 只能做分类错。也可做检测、分割等视觉任务
RNN 完全不处理序列错。RNN 就是序列模型
Transformer 不需要位置编码错。通常需要某种位置信息

例题

例题 1

卷积神经网络 CNN 最擅长处理:

A. 图像空间特征
B. 数据库事务隔离
C. 路由协议
D. 劳动合同签署

答案:A。

例题 2

Transformer 的核心机制是:

A. 自注意力
B. 冒泡排序
C. SQL JOIN
D. 文件压缩

答案:A。

例题 3

缓解过拟合的方法包括:

A. Dropout
B. L2 正则
C. 数据增强
D. 测试集参与训练

答案:ABC。

自测清单

  • 能描述神经网络训练流程。
  • 能说出 ReLU、Softmax 的用途。
  • 能解释 CNN 的卷积核和池化。
  • 能解释 LSTM 为什么适合长序列。
  • 能解释 Transformer 的自注意力。
  • 能列出三种正则化方法。