第 04 章数据采集、清洗、标注与质量控制

学习目标

这是人工智能训练师考试最核心的章节。学完后要能掌握数据从采集到可训练数据集的全过程，并能判断数据质量问题、标注规范问题和数据泄漏问题。

考点地图

高频：数据类型、采集原则、缺失值/异常值/重复值处理、归一化/标准化、数据标注类型、标注质量控制、训练/验证/测试划分、数据泄漏。

1. 数据在 AI 中的作用

AI 模型不是凭空产生能力，而是从数据中学习规律。数据质量往往决定模型上限。

常见说法：

数据是模型训练的基础。
标注质量影响监督学习效果。
训练集代表性不足会导致泛化差。
数据泄漏会导致评估虚高。

2. 数据类型

类型	特征	例子
结构化数据	表格化、字段固定	用户表、订单表、传感器表
半结构化数据	有一定结构但不严格	JSON、XML、日志
非结构化数据	无固定表结构	文本、图片、音频、视频

考试常问：图片、音频、视频通常属于非结构化数据；JSON 属于半结构化数据。

3. 数据采集

3.1 数据来源

业务系统数据库。
日志系统。
传感器和 IoT 设备。
摄像头、麦克风。
公开数据集。
合作方授权数据。
人工采集和问卷。

3.2 采集原则

合法授权：来源合法，不能非法爬取或越权使用。
目的明确：知道采集数据服务什么任务。
最小必要：只采任务需要的数据。
格式统一：字段、单位、编码一致。
可追溯：记录来源、时间、工具、版本。
安全保护：加密、脱敏、权限控制。

3.3 采集元数据

元数据是描述数据的数据。比如：

数据来源。
采集时间。
采集设备。
采集地点。
文件格式。
标注版本。
处理人员。

元数据有助于追溯问题和复现实验。

4. 数据清洗

数据清洗是把脏数据变成可用数据。

4.1 缺失值

处理方式：

删除缺失严重的样本或字段。
均值填充：适合数值型、分布较稳定。
中位数填充：对异常值更稳健。
众数填充：适合类别字段。
固定值填充：如“未知”。
模型预测填充。

注意：不能先用全量数据计算均值再划分训练/测试，否则可能数据泄漏。应在训练集上 fit，再用于验证/测试。

4.2 重复值

重复数据会导致模型偏向重复样本。处理方式：

完全重复：直接去重。
近似重复：根据业务规则或相似度判断。
保留策略：保留最新、最完整或最可信记录。

图像/视频任务中，近似重复帧会让测试集看起来很高，要小心。

4.3 异常值

识别方式：

业务规则：年龄 200 岁、负收入明显异常。
统计规则：3σ、箱线图 IQR。
模型方法：孤立森林、聚类距离。

处理方式：

删除。
修正。
截断到合理范围。
单独标记。
保留，因为异常可能是重要信号，如欺诈。

4.4 格式统一

常见处理：

日期格式统一。
单位统一，如 cm/m、元/万元。
大小写统一。
编码统一，如 UTF-8。
类别名称统一，如“男/M/male”。

5. 数据变换

5.1 标准化

公式：z = (x - mean) / std。
结果：均值为 0，标准差为 1。

适合：逻辑回归、SVM、KNN、神经网络等对尺度敏感的模型。

5.2 归一化

公式：x' = (x - min) / (max - min)。
结果：映射到 0 到 1。

适合：需要固定范围输入的模型。

5.3 类别编码

Label Encoding：把类别变成整数。
One-Hot Encoding：把类别拆成多个 0/1 列。
Embedding：把类别映射为稠密向量，深度学习中常见。

注意：没有大小关系的类别，用 Label Encoding 可能引入虚假的顺序关系。

6. 数据标注

6.1 文本标注

常见任务：

文本分类：情感正负、垃圾邮件。
命名实体识别：人名、地名、机构名。
意图识别：查询、投诉、购买。
语义匹配：两个句子是否等价。
问答标注：问题、答案、证据段落。

6.2 图像标注

标注类型	输出	例子
图像分类	整图标签	是否有缺陷
矩形框	类别 + 框坐标	行人、车辆检测
多边形	目标轮廓	道路区域
语义分割	每个像素类别	天空、道路、车辆
实例分割	每个对象实例	每一个行人
关键点	点坐标	人体姿态

6.3 音频和视频标注

音频：语音转写、说话人分离、情绪识别、关键词。
视频：目标跟踪、动作识别、事件检测、时间段标注。

7. 标注规范

一份好的标注规范应包括：

任务目标。
标签体系。
标签定义。
正例和反例。
边界规则。
特殊情况处理。
命名规范。
文件格式。
质量要求。
版本号和更新记录。

例子：目标检测中，遮挡目标是否标注？框到可见区域还是完整轮廓？小于多少像素不标？这些都应在规范中写清楚。

8. 标注质量控制

标准流程：

规范制定 -> 标注培训 -> 小批量试标 -> 反馈修订 -> 正式标注 -> 多人交叉审核 -> 专家仲裁 -> 抽检复核 -> 数据版本发布。

质量指标：

准确率。
完整率。
一致率。
Kappa 系数。
返工率。
抽检通过率。

Kappa 用于衡量标注者之间一致性，比简单一致率更考虑随机一致的影响。

9. 数据集划分

训练集：训练模型参数。
验证集：选择模型、调超参数。
测试集：最终评估泛化能力。

常见比例：

7:3：训练/测试。
8:2：训练/测试。
7:2:1：训练/验证/测试。
6:2:2：训练/验证/测试。

分类任务推荐分层划分，让各集合类别比例接近。

时间序列任务不能随机打乱，应按时间划分。

同一用户、同一设备、同一视频的高度相关样本，应避免同时进入训练集和测试集。

10. 数据增强

图像增强：

翻转。
旋转。
裁剪。
缩放。
颜色扰动。
加噪。
MixUp。
CutMix。

文本增强：

同义词替换。
回译。
随机删除。
模板生成。
大模型生成后人工审核。

音频增强：

加噪。
变速。
变调。
混响。

原则：增强不能改变标签语义。

11. 数据泄漏

数据泄漏是考试高频点。

典型情况：

先对全量数据做标准化，再划分训练/测试。
测试集参与特征选择或调参。
特征包含未来信息。
同一用户的多条记录同时出现在训练和测试。
重复图片同时出现在训练和测试。
用测试集表现选择最终模型。

正确做法：先划分数据集，再只用训练集拟合预处理器，然后应用到验证集和测试集。

12. 数据质量维度

维度	含义
准确性	数据是否真实正确
完整性	是否缺字段、缺记录
一致性	不同字段/系统是否冲突
唯一性	是否重复
有效性	是否符合格式和范围
及时性	数据是否足够新
代表性	是否覆盖真实场景
平衡性	类别是否严重偏斜

易错点

易错点	正确理解
数据越多一定越好	错。低质量、偏置、违法数据会伤害模型
标注只要速度快	错。标注一致性和准确性更关键
测试集可用于调参	错。会数据泄漏
One-Hot 和归一化是一回事	错。One-Hot 处理类别，归一化处理数值尺度
异常值一定删除	错。异常可能是业务中的重要风险信号

例题

例题 1

下列属于数据清洗任务的是：

A. 缺失值处理
B. 重复值处理
C. 异常值处理
D. 随意修改标签以提高准确率

答案：ABC。

例题 2

训练集的主要作用是：

A. 调整模型参数
B. 最终评估泛化能力
C. 保存考试成绩
D. 替代业务规则

答案：A。

例题 3

下列最可能导致数据泄漏的是：

A. 先划分训练集和测试集，再用训练集计算标准化参数
B. 用测试集反复选择超参数
C. 只在训练集训练模型
D. 在测试集上做最终一次评估

答案：B。

自测清单

能区分结构化、半结构化、非结构化数据。
能说出缺失值、重复值、异常值处理方法。
能区分标准化、归一化、One-Hot。
能列出标注质量控制流程。
能解释训练集、验证集、测试集。
能识别数据泄漏。

第 04 章 数据采集、清洗、标注与质量控制 ​

学习目标 ​

考点地图 ​

1. 数据在 AI 中的作用 ​

2. 数据类型 ​

3. 数据采集 ​

3.1 数据来源 ​

3.2 采集原则 ​

3.3 采集元数据 ​

4. 数据清洗 ​

4.1 缺失值 ​

4.2 重复值 ​

4.3 异常值 ​

4.4 格式统一 ​

5. 数据变换 ​

5.1 标准化 ​

5.2 归一化 ​

5.3 类别编码 ​

6. 数据标注 ​

6.1 文本标注 ​

6.2 图像标注 ​

6.3 音频和视频标注 ​

7. 标注规范 ​

8. 标注质量控制 ​

9. 数据集划分 ​

10. 数据增强 ​

11. 数据泄漏 ​

12. 数据质量维度 ​

易错点 ​

例题 ​

例题 1 ​

例题 2 ​

例题 3 ​

自测清单 ​