Skip to content

第 04 章 数据采集、清洗、标注与质量控制

学习目标

这是人工智能训练师考试最核心的章节。学完后要能掌握数据从采集到可训练数据集的全过程,并能判断数据质量问题、标注规范问题和数据泄漏问题。

考点地图

高频:数据类型、采集原则、缺失值/异常值/重复值处理、归一化/标准化、数据标注类型、标注质量控制、训练/验证/测试划分、数据泄漏。

1. 数据在 AI 中的作用

AI 模型不是凭空产生能力,而是从数据中学习规律。数据质量往往决定模型上限。

常见说法:

  • 数据是模型训练的基础。
  • 标注质量影响监督学习效果。
  • 训练集代表性不足会导致泛化差。
  • 数据泄漏会导致评估虚高。

2. 数据类型

类型特征例子
结构化数据表格化、字段固定用户表、订单表、传感器表
半结构化数据有一定结构但不严格JSON、XML、日志
非结构化数据无固定表结构文本、图片、音频、视频

考试常问:图片、音频、视频通常属于非结构化数据;JSON 属于半结构化数据。

3. 数据采集

3.1 数据来源

  • 业务系统数据库。
  • 日志系统。
  • 传感器和 IoT 设备。
  • 摄像头、麦克风。
  • 公开数据集。
  • 合作方授权数据。
  • 人工采集和问卷。

3.2 采集原则

  1. 合法授权:来源合法,不能非法爬取或越权使用。
  2. 目的明确:知道采集数据服务什么任务。
  3. 最小必要:只采任务需要的数据。
  4. 格式统一:字段、单位、编码一致。
  5. 可追溯:记录来源、时间、工具、版本。
  6. 安全保护:加密、脱敏、权限控制。

3.3 采集元数据

元数据是描述数据的数据。比如:

  • 数据来源。
  • 采集时间。
  • 采集设备。
  • 采集地点。
  • 文件格式。
  • 标注版本。
  • 处理人员。

元数据有助于追溯问题和复现实验。

4. 数据清洗

数据清洗是把脏数据变成可用数据。

4.1 缺失值

处理方式:

  • 删除缺失严重的样本或字段。
  • 均值填充:适合数值型、分布较稳定。
  • 中位数填充:对异常值更稳健。
  • 众数填充:适合类别字段。
  • 固定值填充:如“未知”。
  • 模型预测填充。

注意:不能先用全量数据计算均值再划分训练/测试,否则可能数据泄漏。应在训练集上 fit,再用于验证/测试。

4.2 重复值

重复数据会导致模型偏向重复样本。处理方式:

  • 完全重复:直接去重。
  • 近似重复:根据业务规则或相似度判断。
  • 保留策略:保留最新、最完整或最可信记录。

图像/视频任务中,近似重复帧会让测试集看起来很高,要小心。

4.3 异常值

识别方式:

  • 业务规则:年龄 200 岁、负收入明显异常。
  • 统计规则:3σ、箱线图 IQR。
  • 模型方法:孤立森林、聚类距离。

处理方式:

  • 删除。
  • 修正。
  • 截断到合理范围。
  • 单独标记。
  • 保留,因为异常可能是重要信号,如欺诈。

4.4 格式统一

常见处理:

  • 日期格式统一。
  • 单位统一,如 cm/m、元/万元。
  • 大小写统一。
  • 编码统一,如 UTF-8。
  • 类别名称统一,如“男/M/male”。

5. 数据变换

5.1 标准化

公式:z = (x - mean) / std
结果:均值为 0,标准差为 1。

适合:逻辑回归、SVM、KNN、神经网络等对尺度敏感的模型。

5.2 归一化

公式:x' = (x - min) / (max - min)
结果:映射到 0 到 1。

适合:需要固定范围输入的模型。

5.3 类别编码

  • Label Encoding:把类别变成整数。
  • One-Hot Encoding:把类别拆成多个 0/1 列。
  • Embedding:把类别映射为稠密向量,深度学习中常见。

注意:没有大小关系的类别,用 Label Encoding 可能引入虚假的顺序关系。

6. 数据标注

6.1 文本标注

常见任务:

  • 文本分类:情感正负、垃圾邮件。
  • 命名实体识别:人名、地名、机构名。
  • 意图识别:查询、投诉、购买。
  • 语义匹配:两个句子是否等价。
  • 问答标注:问题、答案、证据段落。

6.2 图像标注

标注类型输出例子
图像分类整图标签是否有缺陷
矩形框类别 + 框坐标行人、车辆检测
多边形目标轮廓道路区域
语义分割每个像素类别天空、道路、车辆
实例分割每个对象实例每一个行人
关键点点坐标人体姿态

6.3 音频和视频标注

音频:语音转写、说话人分离、情绪识别、关键词。
视频:目标跟踪、动作识别、事件检测、时间段标注。

7. 标注规范

一份好的标注规范应包括:

  1. 任务目标。
  2. 标签体系。
  3. 标签定义。
  4. 正例和反例。
  5. 边界规则。
  6. 特殊情况处理。
  7. 命名规范。
  8. 文件格式。
  9. 质量要求。
  10. 版本号和更新记录。

例子:目标检测中,遮挡目标是否标注?框到可见区域还是完整轮廓?小于多少像素不标?这些都应在规范中写清楚。

8. 标注质量控制

标准流程:

规范制定 -> 标注培训 -> 小批量试标 -> 反馈修订 -> 正式标注 -> 多人交叉审核 -> 专家仲裁 -> 抽检复核 -> 数据版本发布。

质量指标:

  • 准确率。
  • 完整率。
  • 一致率。
  • Kappa 系数。
  • 返工率。
  • 抽检通过率。

Kappa 用于衡量标注者之间一致性,比简单一致率更考虑随机一致的影响。

9. 数据集划分

  • 训练集:训练模型参数。
  • 验证集:选择模型、调超参数。
  • 测试集:最终评估泛化能力。

常见比例:

  • 7:3:训练/测试。
  • 8:2:训练/测试。
  • 7:2:1:训练/验证/测试。
  • 6:2:2:训练/验证/测试。

分类任务推荐分层划分,让各集合类别比例接近。

时间序列任务不能随机打乱,应按时间划分。

同一用户、同一设备、同一视频的高度相关样本,应避免同时进入训练集和测试集。

10. 数据增强

图像增强:

  • 翻转。
  • 旋转。
  • 裁剪。
  • 缩放。
  • 颜色扰动。
  • 加噪。
  • MixUp。
  • CutMix。

文本增强:

  • 同义词替换。
  • 回译。
  • 随机删除。
  • 模板生成。
  • 大模型生成后人工审核。

音频增强:

  • 加噪。
  • 变速。
  • 变调。
  • 混响。

原则:增强不能改变标签语义。

11. 数据泄漏

数据泄漏是考试高频点。

典型情况:

  1. 先对全量数据做标准化,再划分训练/测试。
  2. 测试集参与特征选择或调参。
  3. 特征包含未来信息。
  4. 同一用户的多条记录同时出现在训练和测试。
  5. 重复图片同时出现在训练和测试。
  6. 用测试集表现选择最终模型。

正确做法:先划分数据集,再只用训练集拟合预处理器,然后应用到验证集和测试集。

12. 数据质量维度

维度含义
准确性数据是否真实正确
完整性是否缺字段、缺记录
一致性不同字段/系统是否冲突
唯一性是否重复
有效性是否符合格式和范围
及时性数据是否足够新
代表性是否覆盖真实场景
平衡性类别是否严重偏斜

易错点

易错点正确理解
数据越多一定越好错。低质量、偏置、违法数据会伤害模型
标注只要速度快错。标注一致性和准确性更关键
测试集可用于调参错。会数据泄漏
One-Hot 和归一化是一回事错。One-Hot 处理类别,归一化处理数值尺度
异常值一定删除错。异常可能是业务中的重要风险信号

例题

例题 1

下列属于数据清洗任务的是:

A. 缺失值处理
B. 重复值处理
C. 异常值处理
D. 随意修改标签以提高准确率

答案:ABC。

例题 2

训练集的主要作用是:

A. 调整模型参数
B. 最终评估泛化能力
C. 保存考试成绩
D. 替代业务规则

答案:A。

例题 3

下列最可能导致数据泄漏的是:

A. 先划分训练集和测试集,再用训练集计算标准化参数
B. 用测试集反复选择超参数
C. 只在训练集训练模型
D. 在测试集上做最终一次评估

答案:B。

自测清单

  • 能区分结构化、半结构化、非结构化数据。
  • 能说出缺失值、重复值、异常值处理方法。
  • 能区分标准化、归一化、One-Hot。
  • 能列出标注质量控制流程。
  • 能解释训练集、验证集、测试集。
  • 能识别数据泄漏。