深色模式
第 04 章 数据采集、清洗、标注与质量控制
学习目标
这是人工智能训练师考试最核心的章节。学完后要能掌握数据从采集到可训练数据集的全过程,并能判断数据质量问题、标注规范问题和数据泄漏问题。
考点地图
高频:数据类型、采集原则、缺失值/异常值/重复值处理、归一化/标准化、数据标注类型、标注质量控制、训练/验证/测试划分、数据泄漏。
1. 数据在 AI 中的作用
AI 模型不是凭空产生能力,而是从数据中学习规律。数据质量往往决定模型上限。
常见说法:
- 数据是模型训练的基础。
- 标注质量影响监督学习效果。
- 训练集代表性不足会导致泛化差。
- 数据泄漏会导致评估虚高。
2. 数据类型
| 类型 | 特征 | 例子 |
|---|---|---|
| 结构化数据 | 表格化、字段固定 | 用户表、订单表、传感器表 |
| 半结构化数据 | 有一定结构但不严格 | JSON、XML、日志 |
| 非结构化数据 | 无固定表结构 | 文本、图片、音频、视频 |
考试常问:图片、音频、视频通常属于非结构化数据;JSON 属于半结构化数据。
3. 数据采集
3.1 数据来源
- 业务系统数据库。
- 日志系统。
- 传感器和 IoT 设备。
- 摄像头、麦克风。
- 公开数据集。
- 合作方授权数据。
- 人工采集和问卷。
3.2 采集原则
- 合法授权:来源合法,不能非法爬取或越权使用。
- 目的明确:知道采集数据服务什么任务。
- 最小必要:只采任务需要的数据。
- 格式统一:字段、单位、编码一致。
- 可追溯:记录来源、时间、工具、版本。
- 安全保护:加密、脱敏、权限控制。
3.3 采集元数据
元数据是描述数据的数据。比如:
- 数据来源。
- 采集时间。
- 采集设备。
- 采集地点。
- 文件格式。
- 标注版本。
- 处理人员。
元数据有助于追溯问题和复现实验。
4. 数据清洗
数据清洗是把脏数据变成可用数据。
4.1 缺失值
处理方式:
- 删除缺失严重的样本或字段。
- 均值填充:适合数值型、分布较稳定。
- 中位数填充:对异常值更稳健。
- 众数填充:适合类别字段。
- 固定值填充:如“未知”。
- 模型预测填充。
注意:不能先用全量数据计算均值再划分训练/测试,否则可能数据泄漏。应在训练集上 fit,再用于验证/测试。
4.2 重复值
重复数据会导致模型偏向重复样本。处理方式:
- 完全重复:直接去重。
- 近似重复:根据业务规则或相似度判断。
- 保留策略:保留最新、最完整或最可信记录。
图像/视频任务中,近似重复帧会让测试集看起来很高,要小心。
4.3 异常值
识别方式:
- 业务规则:年龄 200 岁、负收入明显异常。
- 统计规则:3σ、箱线图 IQR。
- 模型方法:孤立森林、聚类距离。
处理方式:
- 删除。
- 修正。
- 截断到合理范围。
- 单独标记。
- 保留,因为异常可能是重要信号,如欺诈。
4.4 格式统一
常见处理:
- 日期格式统一。
- 单位统一,如 cm/m、元/万元。
- 大小写统一。
- 编码统一,如 UTF-8。
- 类别名称统一,如“男/M/male”。
5. 数据变换
5.1 标准化
公式:z = (x - mean) / std。
结果:均值为 0,标准差为 1。
适合:逻辑回归、SVM、KNN、神经网络等对尺度敏感的模型。
5.2 归一化
公式:x' = (x - min) / (max - min)。
结果:映射到 0 到 1。
适合:需要固定范围输入的模型。
5.3 类别编码
- Label Encoding:把类别变成整数。
- One-Hot Encoding:把类别拆成多个 0/1 列。
- Embedding:把类别映射为稠密向量,深度学习中常见。
注意:没有大小关系的类别,用 Label Encoding 可能引入虚假的顺序关系。
6. 数据标注
6.1 文本标注
常见任务:
- 文本分类:情感正负、垃圾邮件。
- 命名实体识别:人名、地名、机构名。
- 意图识别:查询、投诉、购买。
- 语义匹配:两个句子是否等价。
- 问答标注:问题、答案、证据段落。
6.2 图像标注
| 标注类型 | 输出 | 例子 |
|---|---|---|
| 图像分类 | 整图标签 | 是否有缺陷 |
| 矩形框 | 类别 + 框坐标 | 行人、车辆检测 |
| 多边形 | 目标轮廓 | 道路区域 |
| 语义分割 | 每个像素类别 | 天空、道路、车辆 |
| 实例分割 | 每个对象实例 | 每一个行人 |
| 关键点 | 点坐标 | 人体姿态 |
6.3 音频和视频标注
音频:语音转写、说话人分离、情绪识别、关键词。
视频:目标跟踪、动作识别、事件检测、时间段标注。
7. 标注规范
一份好的标注规范应包括:
- 任务目标。
- 标签体系。
- 标签定义。
- 正例和反例。
- 边界规则。
- 特殊情况处理。
- 命名规范。
- 文件格式。
- 质量要求。
- 版本号和更新记录。
例子:目标检测中,遮挡目标是否标注?框到可见区域还是完整轮廓?小于多少像素不标?这些都应在规范中写清楚。
8. 标注质量控制
标准流程:
规范制定 -> 标注培训 -> 小批量试标 -> 反馈修订 -> 正式标注 -> 多人交叉审核 -> 专家仲裁 -> 抽检复核 -> 数据版本发布。
质量指标:
- 准确率。
- 完整率。
- 一致率。
- Kappa 系数。
- 返工率。
- 抽检通过率。
Kappa 用于衡量标注者之间一致性,比简单一致率更考虑随机一致的影响。
9. 数据集划分
- 训练集:训练模型参数。
- 验证集:选择模型、调超参数。
- 测试集:最终评估泛化能力。
常见比例:
- 7:3:训练/测试。
- 8:2:训练/测试。
- 7:2:1:训练/验证/测试。
- 6:2:2:训练/验证/测试。
分类任务推荐分层划分,让各集合类别比例接近。
时间序列任务不能随机打乱,应按时间划分。
同一用户、同一设备、同一视频的高度相关样本,应避免同时进入训练集和测试集。
10. 数据增强
图像增强:
- 翻转。
- 旋转。
- 裁剪。
- 缩放。
- 颜色扰动。
- 加噪。
- MixUp。
- CutMix。
文本增强:
- 同义词替换。
- 回译。
- 随机删除。
- 模板生成。
- 大模型生成后人工审核。
音频增强:
- 加噪。
- 变速。
- 变调。
- 混响。
原则:增强不能改变标签语义。
11. 数据泄漏
数据泄漏是考试高频点。
典型情况:
- 先对全量数据做标准化,再划分训练/测试。
- 测试集参与特征选择或调参。
- 特征包含未来信息。
- 同一用户的多条记录同时出现在训练和测试。
- 重复图片同时出现在训练和测试。
- 用测试集表现选择最终模型。
正确做法:先划分数据集,再只用训练集拟合预处理器,然后应用到验证集和测试集。
12. 数据质量维度
| 维度 | 含义 |
|---|---|
| 准确性 | 数据是否真实正确 |
| 完整性 | 是否缺字段、缺记录 |
| 一致性 | 不同字段/系统是否冲突 |
| 唯一性 | 是否重复 |
| 有效性 | 是否符合格式和范围 |
| 及时性 | 数据是否足够新 |
| 代表性 | 是否覆盖真实场景 |
| 平衡性 | 类别是否严重偏斜 |
易错点
| 易错点 | 正确理解 |
|---|---|
| 数据越多一定越好 | 错。低质量、偏置、违法数据会伤害模型 |
| 标注只要速度快 | 错。标注一致性和准确性更关键 |
| 测试集可用于调参 | 错。会数据泄漏 |
| One-Hot 和归一化是一回事 | 错。One-Hot 处理类别,归一化处理数值尺度 |
| 异常值一定删除 | 错。异常可能是业务中的重要风险信号 |
例题
例题 1
下列属于数据清洗任务的是:
A. 缺失值处理
B. 重复值处理
C. 异常值处理
D. 随意修改标签以提高准确率
答案:ABC。
例题 2
训练集的主要作用是:
A. 调整模型参数
B. 最终评估泛化能力
C. 保存考试成绩
D. 替代业务规则
答案:A。
例题 3
下列最可能导致数据泄漏的是:
A. 先划分训练集和测试集,再用训练集计算标准化参数
B. 用测试集反复选择超参数
C. 只在训练集训练模型
D. 在测试集上做最终一次评估
答案:B。
自测清单
- 能区分结构化、半结构化、非结构化数据。
- 能说出缺失值、重复值、异常值处理方法。
- 能区分标准化、归一化、One-Hot。
- 能列出标注质量控制流程。
- 能解释训练集、验证集、测试集。
- 能识别数据泄漏。