Skip to content

人工智能训练师考前速记卡

适合考前 20-30 分钟快速翻。完整讲义见 人工智能训练师内部选拔赛复习资料.md

1. 职业标准

  • 职业名称:人工智能训练师。
  • 职业编码:4-04-05-05。
  • 包含工种:数据标注员、人工智能算法测试员。
  • 工作关键词:数据库管理、算法参数设置、人机交互设计、性能测试跟踪。
  • 职业守则:诚实公正、严谨求是;遵纪守法、恪尽职守;勤勉好学、追求卓越。

2. AI 项目流程

问题定义 -> 数据采集 -> 数据清洗 -> 数据标注 -> 数据划分 -> 特征工程 -> 模型选择 -> 训练 -> 验证调参 -> 测试评估 -> 部署 -> 监控 -> 反馈迭代。

训练集学参数;验证集调超参数;测试集最终评估。测试集不能反复调参。

3. 混淆矩阵和指标

预测正预测负
实际正TPFN
实际负FPTN
  • Accuracy = (TP + TN) / 全部。
  • Precision = TP / (TP + FP):防误报。
  • Recall = TP / (TP + FN):防漏报。
  • F1 = 2PR / (P + R):平衡 Precision 和 Recall。
  • FPR = FP / (FP + TN)。
  • AUC 越接近 1 越好,0.5 约等于随机。
  • 类别不平衡:少看 Accuracy,多看 F1、PR-AUC、Recall/Precision。

4. 过拟合与欠拟合

  • 过拟合:训练好,测试差。处理:增加数据、数据增强、正则化、Dropout、早停、降低复杂度、交叉验证。
  • 欠拟合:训练和测试都差。处理:增加特征、提高模型复杂度、训练更久、降低正则化。

5. 机器学习三类

  • 监督学习:有标签,分类、回归。
  • 无监督学习:无标签,聚类、降维、关联规则。
  • 强化学习:状态、动作、奖励、策略。

常见算法:

  • 逻辑回归:分类。
  • 线性回归:回归。
  • K-Means:聚类。
  • PCA:降维。
  • 决策树:可解释,易过拟合。
  • 随机森林:多树集成,Bagging。
  • GBDT/XGBoost/LightGBM:Boosting,表格数据强。

6. 深度学习

  • CNN:图像、局部特征、卷积核、池化。
  • RNN/LSTM/GRU:序列数据。
  • Transformer:自注意力、多头注意力、位置编码、残差、LayerNorm。
  • ReLU:常用激活函数。
  • Softmax:多分类概率。
  • Cross Entropy:分类常用损失。
  • Adam/SGD:优化器。

7. 生成式 AI

  • BERT:Encoder-only,双向,理解类任务。
  • GPT:Decoder-only,自回归,生成类任务。
  • Diffusion:加噪再去噪,常用于图像生成。
  • Prompt:提示词,引导模型输出。
  • LoRA:冻结主体模型,只训练低秩增量参数。
  • QLoRA:量化 + LoRA,更省显存。
  • RLHF:SFT -> 奖励模型 -> 强化学习优化。
  • RAG:文档切分 -> 向量化 -> 向量库 -> 检索 top-k -> 拼接上下文 -> 生成答案。
  • Agent:规划、记忆、工具调用、执行和反馈。
  • 幻觉:看似合理但不真实。缓解:RAG、引用、工具校验、人工审核。

8. 目标检测

  • 分类:整图类别。
  • 检测:类别 + 边界框。
  • 分割:像素级。
  • IoU = 交集面积 / 并集面积。
  • AP:单类 PR 曲线面积。
  • mAP:多类 AP 平均。
  • NMS:去重复框。
  • YOLO/SSD:一阶段,快。
  • Faster R-CNN:两阶段,精度高。

9. 数据处理

  • 结构化:表格。
  • 半结构化:JSON、XML、日志。
  • 非结构化:文本、图片、音频、视频。
  • 缺失值:删除、均值/中位数/众数填充、模型填充。
  • 异常值:箱线图、3σ、业务规则;删除、截断、修正、标记。
  • 标准化:(x - mean) / std
  • 归一化:(x - min) / (max - min)
  • One-Hot:类别变量转 0/1。
  • 数据质量:准确、完整、一致、唯一、有效、及时、代表、平衡。
  • 标注流程:规范 -> 培训 -> 试标 -> 多人标注 -> 一致性评估 -> 仲裁 -> 抽检 -> 版本管理。

10. 数据库与网络

  • SQL 逻辑顺序:FROM -> WHERE -> GROUP BY -> HAVING -> SELECT -> ORDER BY -> LIMIT。
  • 主键:唯一标识一行。
  • 外键:表间关联。
  • 索引:加速查询,增加写入和存储成本。
  • ACID:原子性、一致性、隔离性、持久性。
  • TCP:可靠、面向连接。
  • UDP:快、无连接、不保证可靠。
  • HTTPS:HTTP + TLS,加密、认证、完整性。
  • CIA:机密性、完整性、可用性。

11. 法规伦理

  • 数据采集:合法、正当、必要、目的明确、最小够用。
  • 敏感个人信息:生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹、未成年人信息等。
  • 匿名化:无法识别且不能复原。
  • 去标识化:不借助额外信息无法识别,但可能复原。
  • 脱敏:遮盖、替换、泛化敏感字段。
  • 安全措施:分类分级、最小权限、加密、脱敏、审计、备份、应急预案。
  • AI 伦理:公平、透明、责任、安全、隐私、可控、有益。
  • 生成式 AI:训练数据来源合法,保护个人信息和知识产权,生成内容按要求标识,防止违法有害信息。

12. 易混速查

易混点区分
参数/超参数参数训练得到;超参数人为设置
验证集/测试集验证集调参;测试集最终评估
Precision/RecallPrecision 防误报;Recall 防漏报
分类/回归分类输出类别;回归输出连续值
聚类/分类聚类无标签;分类有标签
BERT/GPTBERT 理解;GPT 生成
微调/RAG微调改参数;RAG 检索外部知识
LoRA/全量微调LoRA 少量参数;全量微调全部参数
去标识化/匿名化去标识化可复原;匿名化不可复原
数据漂移/概念漂移输入分布变;输入和标签关系变