第 10 章模型评估、部署、运维与 MLOps

学习目标

掌握模型从训练完成到上线运行的全过程：评估、部署、监控、漂移检测、版本管理、回滚和 MLOps。人工智能训练师不仅要会训练，还要会跟踪性能和推动优化。

考点地图

高频：混淆矩阵、分类/回归/检测指标、模型部署方式、训练推理一致性、监控指标、数据漂移、概念漂移、MLOps、版本管理。

1. 为什么需要模型评估

模型在训练集上表现好，不代表上线后表现好。评估用于判断模型泛化能力、业务可用性和上线风险。

评估应回答：

模型准不准？
是否对关键类别漏检？
是否误报太多？
推理速度是否满足要求？
是否对不同人群/场景公平？
上线后能否监控和回滚？

2. 分类指标

混淆矩阵：

	预测正	预测负
实际正	TP	FN
实际负	FP	TN

指标：

Accuracy = (TP + TN) / 全部。
Precision = TP / (TP + FP)。
Recall = TP / (TP + FN)。
F1 = 2PR / (P + R)。
Specificity = TN / (TN + FP)。

场景选择：

场景	关注指标
疾病筛查	Recall，少漏诊
垃圾邮件拦截	Precision，少误伤正常邮件
风险预警	Recall/F1
类别不平衡	F1、PR-AUC
总体均衡分类	Accuracy 可参考

3. ROC、AUC、PR-AUC

ROC：展示不同阈值下 TPR 和 FPR 的关系。
AUC：ROC 曲线下面积，越大越好。
PR-AUC：Precision-Recall 曲线下面积，类别不平衡时更有用。

4. 回归指标

指标	含义	特点
MAE	平均绝对误差	直观、稳健
MSE	平均平方误差	对大误差敏感
RMSE	MSE 开方	与原单位一致
R²	解释方差比例	越接近 1 越好

5. 目标检测指标

IoU：框重叠程度。
AP：单类别 PR 曲线面积。
mAP：多类别 AP 平均。
FPS：每秒帧数。
Latency：单次推理延迟。

目标检测既看准不准，也看快不快。

6. 生成式模型评估

生成式 AI 不能只看“语言流畅”。还要看：

正确性。
忠实性。
引用是否可靠。
安全性。
是否侵犯隐私或知识产权。
是否存在偏见。
是否满足格式要求。

常见指标：BLEU、ROUGE、人工评分、单元测试通过率、RAG 引用命中率。

7. 模型部署方式

部署方式	特点
离线批处理	定时批量预测，如每日风险评分
在线 API	实时请求实时返回
边缘部署	在设备端运行，延迟低，算力受限
移动端部署	手机 App 内运行
云端部署	资源弹性，依赖网络
容器化部署	Docker/Kubernetes，易迁移和扩缩容

8. 部署前检查

上线前必须检查：

训练和推理预处理一致。
输入输出格式清晰。
模型文件和依赖版本一致。
评估结果达到阈值。
性能满足延迟和吞吐要求。
日志、监控、告警可用。
权限和数据安全配置正确。
有灰度发布和回滚方案。

最常见上线事故之一：训练时和推理时预处理不一致。

9. 模型压缩与加速

常见方法：

量化：降低数值精度，如 FP32 -> INT8。
剪枝：删除不重要的连接或通道。
蒸馏：用大模型教小模型。
ONNX/TensorRT：优化推理图和部署。
Batch 推理：提高吞吐。

压缩通常需要在速度、模型大小和精度之间权衡。

10. 模型监控

上线后应监控：

输入数据分布。
缺失率、异常率。
预测分布。
业务指标。
模型效果指标。
延迟、吞吐、错误率。
资源使用率。
日志和异常告警。

如果没有真实标签，可以先监控输入分布和预测分布，等标签回流后再评估真实性能。

11. 数据漂移、标签漂移、概念漂移

类型	含义	例子
数据漂移	输入特征分布变化	用户年龄分布变化
标签漂移	标签分布变化	欺诈比例升高
概念漂移	特征和标签关系变化	欺诈手法改变

处理：

重新采样。
更新训练集。
重新训练。
调整阈值。
引入新特征。
模型回滚。

12. MLOps

MLOps 是机器学习工程化运维体系。

关注：

数据版本。
代码版本。
模型版本。
实验追踪。
自动训练。
自动评估。
持续部署。
监控告警。
回滚审计。

工具名可能出现：MLflow、DVC、Kubeflow、Airflow、Docker、Kubernetes。

13. 灰度发布和回滚

灰度发布：先让少量用户使用新模型，观察指标，再逐步扩大。
A/B 测试：不同用户组使用不同模型，比较效果。
回滚：新模型出问题时恢复旧版本。

14. 测试报告

人工智能算法测试报告通常包括：

测试目标。
数据集说明。
模型版本。
指标结果。
错误案例分析。
性能测试。
风险和限制。
优化建议。

易错点

易错点	正确理解
模型上线后就不用管	错。要持续监控和迭代
训练和推理预处理可以不同	错。应保持一致
数据漂移和概念漂移一样	错。输入分布变 vs 关系变
mAP 衡量文本生成质量	错。mAP 常用于目标检测
回滚是不专业	错。回滚是生产安全机制

例题

例题 1

训练和推理阶段的数据预处理应：

A. 保持一致
B. 完全随机
C. 推理时删除所有特征
D. 测试时才 fit scaler

答案：A。

例题 2

输入数据分布发生变化称为：

A. 数据漂移
B. 概念漂移
C. 死锁
D. 哈希冲突

答案：A。

例题 3

MLOps 关注内容包括：

A. 模型版本管理
B. 数据版本管理
C. 监控告警
D. 回滚审计

答案：ABCD。

自测清单

能根据场景选择评估指标。
能说明部署前检查项。
能区分数据漂移和概念漂移。
能解释 MLOps 的目标。
能说明灰度发布、A/B 测试和回滚。

第 10 章 模型评估、部署、运维与 MLOps ​

学习目标 ​

考点地图 ​

1. 为什么需要模型评估 ​

2. 分类指标 ​

3. ROC、AUC、PR-AUC ​

4. 回归指标 ​

5. 目标检测指标 ​

6. 生成式模型评估 ​

7. 模型部署方式 ​

8. 部署前检查 ​

9. 模型压缩与加速 ​

10. 模型监控 ​

11. 数据漂移、标签漂移、概念漂移 ​

12. MLOps ​

13. 灰度发布和回滚 ​

14. 测试报告 ​

易错点 ​

例题 ​

例题 1 ​

例题 2 ​

例题 3 ​

自测清单 ​