人工智能训练师学习站

人工智能训练师考前速记卡

适合考前 20-30 分钟快速翻。完整讲义见 人工智能训练师内部选拔赛复习资料.md。

1. 职业标准

职业名称：人工智能训练师。
职业编码：4-04-05-05。
包含工种：数据标注员、人工智能算法测试员。
工作关键词：数据库管理、算法参数设置、人机交互设计、性能测试跟踪。
职业守则：诚实公正、严谨求是；遵纪守法、恪尽职守；勤勉好学、追求卓越。

2. AI 项目流程

问题定义 -> 数据采集 -> 数据清洗 -> 数据标注 -> 数据划分 -> 特征工程 -> 模型选择 -> 训练 -> 验证调参 -> 测试评估 -> 部署 -> 监控 -> 反馈迭代。

训练集学参数；验证集调超参数；测试集最终评估。测试集不能反复调参。

3. 混淆矩阵和指标

	预测正	预测负
实际正	TP	FN
实际负	FP	TN

Accuracy = (TP + TN) / 全部。
Precision = TP / (TP + FP)：防误报。
Recall = TP / (TP + FN)：防漏报。
F1 = 2PR / (P + R)：平衡 Precision 和 Recall。
FPR = FP / (FP + TN)。
AUC 越接近 1 越好，0.5 约等于随机。
类别不平衡：少看 Accuracy，多看 F1、PR-AUC、Recall/Precision。

4. 过拟合与欠拟合

过拟合：训练好，测试差。处理：增加数据、数据增强、正则化、Dropout、早停、降低复杂度、交叉验证。
欠拟合：训练和测试都差。处理：增加特征、提高模型复杂度、训练更久、降低正则化。

5. 机器学习三类

监督学习：有标签，分类、回归。
无监督学习：无标签，聚类、降维、关联规则。
强化学习：状态、动作、奖励、策略。

常见算法：

逻辑回归：分类。
线性回归：回归。
K-Means：聚类。
PCA：降维。
决策树：可解释，易过拟合。
随机森林：多树集成，Bagging。
GBDT/XGBoost/LightGBM：Boosting，表格数据强。

6. 深度学习

CNN：图像、局部特征、卷积核、池化。
RNN/LSTM/GRU：序列数据。
Transformer：自注意力、多头注意力、位置编码、残差、LayerNorm。
ReLU：常用激活函数。
Softmax：多分类概率。
Cross Entropy：分类常用损失。
Adam/SGD：优化器。

7. 生成式 AI

BERT：Encoder-only，双向，理解类任务。
GPT：Decoder-only，自回归，生成类任务。
Diffusion：加噪再去噪，常用于图像生成。
Prompt：提示词，引导模型输出。
LoRA：冻结主体模型，只训练低秩增量参数。
QLoRA：量化 + LoRA，更省显存。
RLHF：SFT -> 奖励模型 -> 强化学习优化。
RAG：文档切分 -> 向量化 -> 向量库 -> 检索 top-k -> 拼接上下文 -> 生成答案。
Agent：规划、记忆、工具调用、执行和反馈。
幻觉：看似合理但不真实。缓解：RAG、引用、工具校验、人工审核。

8. 目标检测

分类：整图类别。
检测：类别 + 边界框。
分割：像素级。
IoU = 交集面积 / 并集面积。
AP：单类 PR 曲线面积。
mAP：多类 AP 平均。
NMS：去重复框。
YOLO/SSD：一阶段，快。
Faster R-CNN：两阶段，精度高。

9. 数据处理

结构化：表格。
半结构化：JSON、XML、日志。
非结构化：文本、图片、音频、视频。
缺失值：删除、均值/中位数/众数填充、模型填充。
异常值：箱线图、3σ、业务规则；删除、截断、修正、标记。
标准化：(x - mean) / std。
归一化：(x - min) / (max - min)。
One-Hot：类别变量转 0/1。
数据质量：准确、完整、一致、唯一、有效、及时、代表、平衡。
标注流程：规范 -> 培训 -> 试标 -> 多人标注 -> 一致性评估 -> 仲裁 -> 抽检 -> 版本管理。

10. 数据库与网络

SQL 逻辑顺序：FROM -> WHERE -> GROUP BY -> HAVING -> SELECT -> ORDER BY -> LIMIT。
主键：唯一标识一行。
外键：表间关联。
索引：加速查询，增加写入和存储成本。
ACID：原子性、一致性、隔离性、持久性。
TCP：可靠、面向连接。
UDP：快、无连接、不保证可靠。
HTTPS：HTTP + TLS，加密、认证、完整性。
CIA：机密性、完整性、可用性。

11. 法规伦理

数据采集：合法、正当、必要、目的明确、最小够用。
敏感个人信息：生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹、未成年人信息等。
匿名化：无法识别且不能复原。
去标识化：不借助额外信息无法识别，但可能复原。
脱敏：遮盖、替换、泛化敏感字段。
安全措施：分类分级、最小权限、加密、脱敏、审计、备份、应急预案。
AI 伦理：公平、透明、责任、安全、隐私、可控、有益。
生成式 AI：训练数据来源合法，保护个人信息和知识产权，生成内容按要求标识，防止违法有害信息。

12. 易混速查

易混点	区分
参数/超参数	参数训练得到；超参数人为设置
验证集/测试集	验证集调参；测试集最终评估
Precision/Recall	Precision 防误报；Recall 防漏报
分类/回归	分类输出类别；回归输出连续值
聚类/分类	聚类无标签；分类有标签
BERT/GPT	BERT 理解；GPT 生成
微调/RAG	微调改参数；RAG 检索外部知识
LoRA/全量微调	LoRA 少量参数；全量微调全部参数
去标识化/匿名化	去标识化可复原；匿名化不可复原
数据漂移/概念漂移	输入分布变；输入和标签关系变