深色模式
人工智能训练师考前速记卡
适合考前 20-30 分钟快速翻。完整讲义见 人工智能训练师内部选拔赛复习资料.md。
1. 职业标准
- 职业名称:人工智能训练师。
- 职业编码:4-04-05-05。
- 包含工种:数据标注员、人工智能算法测试员。
- 工作关键词:数据库管理、算法参数设置、人机交互设计、性能测试跟踪。
- 职业守则:诚实公正、严谨求是;遵纪守法、恪尽职守;勤勉好学、追求卓越。
2. AI 项目流程
问题定义 -> 数据采集 -> 数据清洗 -> 数据标注 -> 数据划分 -> 特征工程 -> 模型选择 -> 训练 -> 验证调参 -> 测试评估 -> 部署 -> 监控 -> 反馈迭代。
训练集学参数;验证集调超参数;测试集最终评估。测试集不能反复调参。
3. 混淆矩阵和指标
| 预测正 | 预测负 | |
|---|---|---|
| 实际正 | TP | FN |
| 实际负 | FP | TN |
- Accuracy = (TP + TN) / 全部。
- Precision = TP / (TP + FP):防误报。
- Recall = TP / (TP + FN):防漏报。
- F1 = 2PR / (P + R):平衡 Precision 和 Recall。
- FPR = FP / (FP + TN)。
- AUC 越接近 1 越好,0.5 约等于随机。
- 类别不平衡:少看 Accuracy,多看 F1、PR-AUC、Recall/Precision。
4. 过拟合与欠拟合
- 过拟合:训练好,测试差。处理:增加数据、数据增强、正则化、Dropout、早停、降低复杂度、交叉验证。
- 欠拟合:训练和测试都差。处理:增加特征、提高模型复杂度、训练更久、降低正则化。
5. 机器学习三类
- 监督学习:有标签,分类、回归。
- 无监督学习:无标签,聚类、降维、关联规则。
- 强化学习:状态、动作、奖励、策略。
常见算法:
- 逻辑回归:分类。
- 线性回归:回归。
- K-Means:聚类。
- PCA:降维。
- 决策树:可解释,易过拟合。
- 随机森林:多树集成,Bagging。
- GBDT/XGBoost/LightGBM:Boosting,表格数据强。
6. 深度学习
- CNN:图像、局部特征、卷积核、池化。
- RNN/LSTM/GRU:序列数据。
- Transformer:自注意力、多头注意力、位置编码、残差、LayerNorm。
- ReLU:常用激活函数。
- Softmax:多分类概率。
- Cross Entropy:分类常用损失。
- Adam/SGD:优化器。
7. 生成式 AI
- BERT:Encoder-only,双向,理解类任务。
- GPT:Decoder-only,自回归,生成类任务。
- Diffusion:加噪再去噪,常用于图像生成。
- Prompt:提示词,引导模型输出。
- LoRA:冻结主体模型,只训练低秩增量参数。
- QLoRA:量化 + LoRA,更省显存。
- RLHF:SFT -> 奖励模型 -> 强化学习优化。
- RAG:文档切分 -> 向量化 -> 向量库 -> 检索 top-k -> 拼接上下文 -> 生成答案。
- Agent:规划、记忆、工具调用、执行和反馈。
- 幻觉:看似合理但不真实。缓解:RAG、引用、工具校验、人工审核。
8. 目标检测
- 分类:整图类别。
- 检测:类别 + 边界框。
- 分割:像素级。
- IoU = 交集面积 / 并集面积。
- AP:单类 PR 曲线面积。
- mAP:多类 AP 平均。
- NMS:去重复框。
- YOLO/SSD:一阶段,快。
- Faster R-CNN:两阶段,精度高。
9. 数据处理
- 结构化:表格。
- 半结构化:JSON、XML、日志。
- 非结构化:文本、图片、音频、视频。
- 缺失值:删除、均值/中位数/众数填充、模型填充。
- 异常值:箱线图、3σ、业务规则;删除、截断、修正、标记。
- 标准化:
(x - mean) / std。 - 归一化:
(x - min) / (max - min)。 - One-Hot:类别变量转 0/1。
- 数据质量:准确、完整、一致、唯一、有效、及时、代表、平衡。
- 标注流程:规范 -> 培训 -> 试标 -> 多人标注 -> 一致性评估 -> 仲裁 -> 抽检 -> 版本管理。
10. 数据库与网络
- SQL 逻辑顺序:FROM -> WHERE -> GROUP BY -> HAVING -> SELECT -> ORDER BY -> LIMIT。
- 主键:唯一标识一行。
- 外键:表间关联。
- 索引:加速查询,增加写入和存储成本。
- ACID:原子性、一致性、隔离性、持久性。
- TCP:可靠、面向连接。
- UDP:快、无连接、不保证可靠。
- HTTPS:HTTP + TLS,加密、认证、完整性。
- CIA:机密性、完整性、可用性。
11. 法规伦理
- 数据采集:合法、正当、必要、目的明确、最小够用。
- 敏感个人信息:生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹、未成年人信息等。
- 匿名化:无法识别且不能复原。
- 去标识化:不借助额外信息无法识别,但可能复原。
- 脱敏:遮盖、替换、泛化敏感字段。
- 安全措施:分类分级、最小权限、加密、脱敏、审计、备份、应急预案。
- AI 伦理:公平、透明、责任、安全、隐私、可控、有益。
- 生成式 AI:训练数据来源合法,保护个人信息和知识产权,生成内容按要求标识,防止违法有害信息。
12. 易混速查
| 易混点 | 区分 |
|---|---|
| 参数/超参数 | 参数训练得到;超参数人为设置 |
| 验证集/测试集 | 验证集调参;测试集最终评估 |
| Precision/Recall | Precision 防误报;Recall 防漏报 |
| 分类/回归 | 分类输出类别;回归输出连续值 |
| 聚类/分类 | 聚类无标签;分类有标签 |
| BERT/GPT | BERT 理解;GPT 生成 |
| 微调/RAG | 微调改参数;RAG 检索外部知识 |
| LoRA/全量微调 | LoRA 少量参数;全量微调全部参数 |
| 去标识化/匿名化 | 去标识化可复原;匿名化不可复原 |
| 数据漂移/概念漂移 | 输入分布变;输入和标签关系变 |