深色模式
第 10 章 模型评估、部署、运维与 MLOps
学习目标
掌握模型从训练完成到上线运行的全过程:评估、部署、监控、漂移检测、版本管理、回滚和 MLOps。人工智能训练师不仅要会训练,还要会跟踪性能和推动优化。
考点地图
高频:混淆矩阵、分类/回归/检测指标、模型部署方式、训练推理一致性、监控指标、数据漂移、概念漂移、MLOps、版本管理。
1. 为什么需要模型评估
模型在训练集上表现好,不代表上线后表现好。评估用于判断模型泛化能力、业务可用性和上线风险。
评估应回答:
- 模型准不准?
- 是否对关键类别漏检?
- 是否误报太多?
- 推理速度是否满足要求?
- 是否对不同人群/场景公平?
- 上线后能否监控和回滚?
2. 分类指标
混淆矩阵:
| 预测正 | 预测负 | |
|---|---|---|
| 实际正 | TP | FN |
| 实际负 | FP | TN |
指标:
- Accuracy = (TP + TN) / 全部。
- Precision = TP / (TP + FP)。
- Recall = TP / (TP + FN)。
- F1 = 2PR / (P + R)。
- Specificity = TN / (TN + FP)。
场景选择:
| 场景 | 关注指标 |
|---|---|
| 疾病筛查 | Recall,少漏诊 |
| 垃圾邮件拦截 | Precision,少误伤正常邮件 |
| 风险预警 | Recall/F1 |
| 类别不平衡 | F1、PR-AUC |
| 总体均衡分类 | Accuracy 可参考 |
3. ROC、AUC、PR-AUC
- ROC:展示不同阈值下 TPR 和 FPR 的关系。
- AUC:ROC 曲线下面积,越大越好。
- PR-AUC:Precision-Recall 曲线下面积,类别不平衡时更有用。
4. 回归指标
| 指标 | 含义 | 特点 |
|---|---|---|
| MAE | 平均绝对误差 | 直观、稳健 |
| MSE | 平均平方误差 | 对大误差敏感 |
| RMSE | MSE 开方 | 与原单位一致 |
| R² | 解释方差比例 | 越接近 1 越好 |
5. 目标检测指标
- IoU:框重叠程度。
- AP:单类别 PR 曲线面积。
- mAP:多类别 AP 平均。
- FPS:每秒帧数。
- Latency:单次推理延迟。
目标检测既看准不准,也看快不快。
6. 生成式模型评估
生成式 AI 不能只看“语言流畅”。还要看:
- 正确性。
- 忠实性。
- 引用是否可靠。
- 安全性。
- 是否侵犯隐私或知识产权。
- 是否存在偏见。
- 是否满足格式要求。
常见指标:BLEU、ROUGE、人工评分、单元测试通过率、RAG 引用命中率。
7. 模型部署方式
| 部署方式 | 特点 |
|---|---|
| 离线批处理 | 定时批量预测,如每日风险评分 |
| 在线 API | 实时请求实时返回 |
| 边缘部署 | 在设备端运行,延迟低,算力受限 |
| 移动端部署 | 手机 App 内运行 |
| 云端部署 | 资源弹性,依赖网络 |
| 容器化部署 | Docker/Kubernetes,易迁移和扩缩容 |
8. 部署前检查
上线前必须检查:
- 训练和推理预处理一致。
- 输入输出格式清晰。
- 模型文件和依赖版本一致。
- 评估结果达到阈值。
- 性能满足延迟和吞吐要求。
- 日志、监控、告警可用。
- 权限和数据安全配置正确。
- 有灰度发布和回滚方案。
最常见上线事故之一:训练时和推理时预处理不一致。
9. 模型压缩与加速
常见方法:
- 量化:降低数值精度,如 FP32 -> INT8。
- 剪枝:删除不重要的连接或通道。
- 蒸馏:用大模型教小模型。
- ONNX/TensorRT:优化推理图和部署。
- Batch 推理:提高吞吐。
压缩通常需要在速度、模型大小和精度之间权衡。
10. 模型监控
上线后应监控:
- 输入数据分布。
- 缺失率、异常率。
- 预测分布。
- 业务指标。
- 模型效果指标。
- 延迟、吞吐、错误率。
- 资源使用率。
- 日志和异常告警。
如果没有真实标签,可以先监控输入分布和预测分布,等标签回流后再评估真实性能。
11. 数据漂移、标签漂移、概念漂移
| 类型 | 含义 | 例子 |
|---|---|---|
| 数据漂移 | 输入特征分布变化 | 用户年龄分布变化 |
| 标签漂移 | 标签分布变化 | 欺诈比例升高 |
| 概念漂移 | 特征和标签关系变化 | 欺诈手法改变 |
处理:
- 重新采样。
- 更新训练集。
- 重新训练。
- 调整阈值。
- 引入新特征。
- 模型回滚。
12. MLOps
MLOps 是机器学习工程化运维体系。
关注:
- 数据版本。
- 代码版本。
- 模型版本。
- 实验追踪。
- 自动训练。
- 自动评估。
- 持续部署。
- 监控告警。
- 回滚审计。
工具名可能出现:MLflow、DVC、Kubeflow、Airflow、Docker、Kubernetes。
13. 灰度发布和回滚
灰度发布:先让少量用户使用新模型,观察指标,再逐步扩大。
A/B 测试:不同用户组使用不同模型,比较效果。
回滚:新模型出问题时恢复旧版本。
14. 测试报告
人工智能算法测试报告通常包括:
- 测试目标。
- 数据集说明。
- 模型版本。
- 指标结果。
- 错误案例分析。
- 性能测试。
- 风险和限制。
- 优化建议。
易错点
| 易错点 | 正确理解 |
|---|---|
| 模型上线后就不用管 | 错。要持续监控和迭代 |
| 训练和推理预处理可以不同 | 错。应保持一致 |
| 数据漂移和概念漂移一样 | 错。输入分布变 vs 关系变 |
| mAP 衡量文本生成质量 | 错。mAP 常用于目标检测 |
| 回滚是不专业 | 错。回滚是生产安全机制 |
例题
例题 1
训练和推理阶段的数据预处理应:
A. 保持一致
B. 完全随机
C. 推理时删除所有特征
D. 测试时才 fit scaler
答案:A。
例题 2
输入数据分布发生变化称为:
A. 数据漂移
B. 概念漂移
C. 死锁
D. 哈希冲突
答案:A。
例题 3
MLOps 关注内容包括:
A. 模型版本管理
B. 数据版本管理
C. 监控告警
D. 回滚审计
答案:ABCD。
自测清单
- 能根据场景选择评估指标。
- 能说明部署前检查项。
- 能区分数据漂移和概念漂移。
- 能解释 MLOps 的目标。
- 能说明灰度发布、A/B 测试和回滚。