Skip to content

第 10 章 模型评估、部署、运维与 MLOps

学习目标

掌握模型从训练完成到上线运行的全过程:评估、部署、监控、漂移检测、版本管理、回滚和 MLOps。人工智能训练师不仅要会训练,还要会跟踪性能和推动优化。

考点地图

高频:混淆矩阵、分类/回归/检测指标、模型部署方式、训练推理一致性、监控指标、数据漂移、概念漂移、MLOps、版本管理。

1. 为什么需要模型评估

模型在训练集上表现好,不代表上线后表现好。评估用于判断模型泛化能力、业务可用性和上线风险。

评估应回答:

  • 模型准不准?
  • 是否对关键类别漏检?
  • 是否误报太多?
  • 推理速度是否满足要求?
  • 是否对不同人群/场景公平?
  • 上线后能否监控和回滚?

2. 分类指标

混淆矩阵:

预测正预测负
实际正TPFN
实际负FPTN

指标:

  • Accuracy = (TP + TN) / 全部。
  • Precision = TP / (TP + FP)。
  • Recall = TP / (TP + FN)。
  • F1 = 2PR / (P + R)。
  • Specificity = TN / (TN + FP)。

场景选择:

场景关注指标
疾病筛查Recall,少漏诊
垃圾邮件拦截Precision,少误伤正常邮件
风险预警Recall/F1
类别不平衡F1、PR-AUC
总体均衡分类Accuracy 可参考

3. ROC、AUC、PR-AUC

  • ROC:展示不同阈值下 TPR 和 FPR 的关系。
  • AUC:ROC 曲线下面积,越大越好。
  • PR-AUC:Precision-Recall 曲线下面积,类别不平衡时更有用。

4. 回归指标

指标含义特点
MAE平均绝对误差直观、稳健
MSE平均平方误差对大误差敏感
RMSEMSE 开方与原单位一致
解释方差比例越接近 1 越好

5. 目标检测指标

  • IoU:框重叠程度。
  • AP:单类别 PR 曲线面积。
  • mAP:多类别 AP 平均。
  • FPS:每秒帧数。
  • Latency:单次推理延迟。

目标检测既看准不准,也看快不快。

6. 生成式模型评估

生成式 AI 不能只看“语言流畅”。还要看:

  • 正确性。
  • 忠实性。
  • 引用是否可靠。
  • 安全性。
  • 是否侵犯隐私或知识产权。
  • 是否存在偏见。
  • 是否满足格式要求。

常见指标:BLEU、ROUGE、人工评分、单元测试通过率、RAG 引用命中率。

7. 模型部署方式

部署方式特点
离线批处理定时批量预测,如每日风险评分
在线 API实时请求实时返回
边缘部署在设备端运行,延迟低,算力受限
移动端部署手机 App 内运行
云端部署资源弹性,依赖网络
容器化部署Docker/Kubernetes,易迁移和扩缩容

8. 部署前检查

上线前必须检查:

  1. 训练和推理预处理一致。
  2. 输入输出格式清晰。
  3. 模型文件和依赖版本一致。
  4. 评估结果达到阈值。
  5. 性能满足延迟和吞吐要求。
  6. 日志、监控、告警可用。
  7. 权限和数据安全配置正确。
  8. 有灰度发布和回滚方案。

最常见上线事故之一:训练时和推理时预处理不一致。

9. 模型压缩与加速

常见方法:

  • 量化:降低数值精度,如 FP32 -> INT8。
  • 剪枝:删除不重要的连接或通道。
  • 蒸馏:用大模型教小模型。
  • ONNX/TensorRT:优化推理图和部署。
  • Batch 推理:提高吞吐。

压缩通常需要在速度、模型大小和精度之间权衡。

10. 模型监控

上线后应监控:

  • 输入数据分布。
  • 缺失率、异常率。
  • 预测分布。
  • 业务指标。
  • 模型效果指标。
  • 延迟、吞吐、错误率。
  • 资源使用率。
  • 日志和异常告警。

如果没有真实标签,可以先监控输入分布和预测分布,等标签回流后再评估真实性能。

11. 数据漂移、标签漂移、概念漂移

类型含义例子
数据漂移输入特征分布变化用户年龄分布变化
标签漂移标签分布变化欺诈比例升高
概念漂移特征和标签关系变化欺诈手法改变

处理:

  • 重新采样。
  • 更新训练集。
  • 重新训练。
  • 调整阈值。
  • 引入新特征。
  • 模型回滚。

12. MLOps

MLOps 是机器学习工程化运维体系。

关注:

  • 数据版本。
  • 代码版本。
  • 模型版本。
  • 实验追踪。
  • 自动训练。
  • 自动评估。
  • 持续部署。
  • 监控告警。
  • 回滚审计。

工具名可能出现:MLflow、DVC、Kubeflow、Airflow、Docker、Kubernetes。

13. 灰度发布和回滚

灰度发布:先让少量用户使用新模型,观察指标,再逐步扩大。
A/B 测试:不同用户组使用不同模型,比较效果。
回滚:新模型出问题时恢复旧版本。

14. 测试报告

人工智能算法测试报告通常包括:

  • 测试目标。
  • 数据集说明。
  • 模型版本。
  • 指标结果。
  • 错误案例分析。
  • 性能测试。
  • 风险和限制。
  • 优化建议。

易错点

易错点正确理解
模型上线后就不用管错。要持续监控和迭代
训练和推理预处理可以不同错。应保持一致
数据漂移和概念漂移一样错。输入分布变 vs 关系变
mAP 衡量文本生成质量错。mAP 常用于目标检测
回滚是不专业错。回滚是生产安全机制

例题

例题 1

训练和推理阶段的数据预处理应:

A. 保持一致
B. 完全随机
C. 推理时删除所有特征
D. 测试时才 fit scaler

答案:A。

例题 2

输入数据分布发生变化称为:

A. 数据漂移
B. 概念漂移
C. 死锁
D. 哈希冲突

答案:A。

例题 3

MLOps 关注内容包括:

A. 模型版本管理
B. 数据版本管理
C. 监控告警
D. 回滚审计

答案:ABCD。

自测清单

  • 能根据场景选择评估指标。
  • 能说明部署前检查项。
  • 能区分数据漂移和概念漂移。
  • 能解释 MLOps 的目标。
  • 能说明灰度发布、A/B 测试和回滚。