深色模式
人工智能训练师内部选拔赛复习资料
适用场景:陕西省第五届“三秦工匠杯”职工职业技能大赛人工智能训练师省内选拔理论考试。
已知安排:2026-06-17 10:00,线下作答,理论题,60 分钟。
复习基准:以《人工智能训练师国家职业技能标准(2021 年版)》和第八届全国职工职业技能大赛人工智能训练师赛项技术文件为主,补充 2025 年以后仍有效的数据安全、生成式 AI 和内容标识要求。
使用建议:时间很紧时,先背第 1、2、11、12、13、14 章;有时间再系统过第 3-10 章;最后做第 15 章模拟题。
1. 考试定位与复习优先级
1.1 这类考试通常考什么
人工智能训练师不是单纯的“算法工程师”考试,而是围绕人工智能产品落地流程考察:
- 数据采集、清洗、标注、审核、划分。
- 机器学习、深度学习、生成式 AI 基础理论。
- 模型训练、调参、验证、评估、部署、运维。
- 数据库、SQL、Python、计算机网络、操作系统、数据结构等通用基础。
- 数据安全、隐私保护、知识产权、职业道德。
- 实际竞赛相关的新技术:大语言模型微调、LoRA、RAG、目标检测、自动驾驶场景应用。
1.2 官方权重的启示
国家职业标准中,人工智能训练师三级/高级工理论权重约为:
| 模块 | 三级/高级工理论权重 |
|---|---|
| 职业道德 | 5% |
| 基础知识 | 10% |
| 业务分析 | 20% |
| 智能训练 | 30% |
| 智能系统设计 | 30% |
| 培训与指导 | 5% |
第八届全国职工职业技能大赛赛项技术文件中,理论基础覆盖大致为:
| 模块 | 权重 |
|---|---|
| 基础理论知识 | 15% |
| 数据处理 | 20% |
| 机器学习 | 15% |
| 深度学习 | 15% |
| 生成式人工智能 | 15% |
| AI 应用开发 | 20% |
所以内部理论选拔最值得优先掌握的顺序是:
- 数据处理与标注:最贴合职业名称,最容易出定义题和流程题。
- 机器学习与模型评估:公式、指标、过拟合、数据划分几乎必考。
- 深度学习与目标检测:CNN、RNN、Transformer、mAP、IoU、NMS。
- 生成式 AI:BERT、GPT、Diffusion、Prompt、LoRA、RAG、RLHF、Agent。
- 数据安全与法规伦理:判断题、多选题高频。
- 计算机基础、数据库、网络、操作系统:覆盖广,但通常偏基础概念。
1.3 60 分钟理论题策略
- 先做确定题:单选、判断先快速拿分。
- 多选题宁可慢一点:多选少选都可能不得分,优先排除明显错误项。
- 看到公式题先写四格表:TP、FP、FN、TN;不要凭感觉算。
- 看到“模型好不好”先判断任务类型:分类看 Accuracy/Precision/Recall/F1/AUC,检测看 IoU/mAP,生成看 BLEU/ROUGE/人工评测/事实性。
- 看到“数据安全”先找关键词:个人信息、敏感个人信息、重要数据、最小必要、告知同意、脱敏、匿名化、备份恢复。
2. 一页速背
2.1 人工智能训练师职业要点
- 职业编码:4-04-05-05。
- 职业定义:使用智能训练软件,在 AI 产品实际使用过程中开展数据库管理、算法参数设置、人机交互设计、性能测试跟踪等辅助作业。
- 包含工种:数据标注员、人工智能算法测试员。
- 职业守则:诚实公正、严谨求是;遵纪守法、恪尽职守;勤勉好学、追求卓越。
- 理论考试合格标准在职业技能鉴定中通常为 60 分及以上。
2.2 AI 项目标准流程
问题定义 -> 数据采集 -> 数据清洗 -> 数据标注 -> 数据划分 -> 特征工程 -> 模型选择 -> 训练 -> 验证调参 -> 测试评估 -> 部署 -> 监控 -> 反馈迭代。
2.3 数据集划分
- 训练集:训练模型参数。
- 验证集:调超参数、选模型。
- 测试集:最终评估泛化能力。
- 常见比例:7:3、8:2、6:2:2、7:2:1。
- 禁忌:测试集参与训练或调参,造成数据泄漏。
2.4 分类指标公式
| 指标 | 公式 | 关注点 |
|---|---|---|
| Accuracy | (TP + TN) / 全部样本 | 整体正确率,类别均衡时更可靠 |
| Precision | TP / (TP + FP) | 预测为正的里面有多少真正 |
| Recall | TP / (TP + FN) | 真实为正的里面找回多少 |
| F1 | 2PR / (P + R) | Precision 与 Recall 的调和平均 |
| Specificity | TN / (TN + FP) | 负类识别能力 |
口诀:Precision 防误报,Recall 防漏报,F1 看平衡。
2.5 机器学习三大范式
- 监督学习:有标签,分类/回归。
- 无监督学习:无标签,聚类/降维/关联规则。
- 强化学习:智能体通过奖励学习策略,常见于控制、游戏、自动驾驶策略。
2.6 过拟合与欠拟合
- 过拟合:训练集好、验证/测试集差。处理:增加数据、数据增强、正则化、Dropout、早停、降低模型复杂度、交叉验证。
- 欠拟合:训练集和测试集都差。处理:增加特征、提高模型复杂度、训练更久、降低正则化。
2.7 深度学习结构
- CNN:卷积神经网络,擅长图像、局部特征、平移不变性。
- RNN/LSTM/GRU:序列模型,擅长文本、时间序列,但长依赖和并行效率较弱。
- Transformer:基于自注意力,适合 NLP、多模态、大模型。
- GAN:生成器和判别器对抗训练。
- Diffusion:逐步加噪再去噪,常用于图像生成。
2.8 生成式 AI 高频词
- BERT:Encoder-only,擅长理解类任务,双向上下文。
- GPT:Decoder-only,擅长生成类任务,自回归预测下一个 token。
- T5:Encoder-Decoder,把任务统一成 text-to-text。
- LoRA:冻结大模型主体,在低秩矩阵中训练少量参数。
- RAG:检索增强生成,先检索外部知识,再让模型生成答案。
- RLHF:人类反馈强化学习,用偏好数据对齐模型输出。
- Prompt Engineering:通过提示词引导模型行为。
- Agent:能感知、规划、调用工具并执行任务的智能体。
2.9 目标检测指标
- IoU:预测框与真实框交并比。
- mAP:不同类别 AP 的平均,检测比赛高频指标。
- NMS:非极大值抑制,用于去除重复框。
- Recall:漏检少。
- Precision:误检少。
2.10 数据安全口诀
合法正当必要、目的明确、最小够用、公开透明、质量保证、安全保障、主体权利保护、责任落实。
3. 职业标准与职业道德
3.1 职业活动范围
人工智能训练师的工作不是只“训练模型”,而是覆盖 AI 产品生命周期中的辅助训练和运营支撑:
- 数据库管理:数据导入、整理、质量审核、备份、恢复、权限管理。
- 数据采集与处理:收集业务数据,清洗缺失、重复、异常和错误数据。
- 数据标注:文本、图像、语音、视频等数据的分类、框选、分割、转写、审核。
- 算法参数设置:训练参数、超参数、阈值、模型版本配置。
- 人机交互设计:设计人工与智能系统协同流程,提高产品可用性。
- 性能测试跟踪:测试算法效果,记录错误案例,输出评估报告。
- 智能系统运维:部署、监控、反馈、优化、知识库维护。
3.2 等级理解
- 五级/初级工:会采集、清洗、标注、分类统计、基础运维。
- 四级/中级工:会数据质量检测、数据审核、流程优化、智能系统部署。
- 三级/高级工:会设计流程、制定清洗标注规范、维护训练/测试集、算法测试、单一产品解决方案。
- 二级/技师:会业务框架设计、高质量训练集/黄金测试集建设、多个智能产品方案设计。
- 一级/高级技师:会复杂业务创新、训练平台体系优化、跨业务智能产品方案设计。
内部选拔通常对标三级/高级工,同时吸收二级部分内容和新技术。
3.3 职业道德常考点
| 关键词 | 正确做法 | 常见错误选项 |
|---|---|---|
| 诚实公正 | 如实记录数据、测试结果和问题 | 为了成绩篡改指标 |
| 严谨求是 | 按规范标注、复核、留痕 | 凭经验随意修改数据 |
| 遵纪守法 | 遵守劳动、网安、数据、个人信息、知识产权法规 | 未授权爬取或传播数据 |
| 恪尽职守 | 按任务书提交材料,保护设备和资料 | 擅自带走赛题或数据 |
| 勤勉好学 | 持续学习新算法、新工具、新法规 | 固守旧方法,不验证 |
| 追求卓越 | 迭代优化模型和流程 | 只追求跑通,不看质量 |
3.4 考场规范常识
- 不带手机、存储设备、资料进入考场。
- 按平台要求登录和提交。
- 草稿纸由现场统一提供和回收。
- 不拍照、不传播赛题、不干扰他人。
- 结束铃响立即停止作答或操作。
- 实操中损坏设备、污染环境、流程混乱、资料归档不完整可能扣分。
4. 计算机基础
4.1 计算机组成
- CPU:运算器 + 控制器 + 寄存器,是执行指令的核心。
- 内存 RAM:断电丢失,速度快,存放运行中程序和数据。
- 外存:硬盘、SSD,断电不丢失,容量大。
- 输入设备:键盘、鼠标、摄像头、传感器。
- 输出设备:显示器、打印机、扬声器。
- 总线:数据总线、地址总线、控制总线。
- GPU:并行计算能力强,适合矩阵运算和深度学习训练。
4.2 存储层次
寄存器 -> Cache -> 内存 -> SSD/HDD -> 网络/云存储。
越靠前速度越快、容量越小、成本越高。
4.3 指令集
- x86:复杂指令集,PC/服务器常见。
- ARM:精简指令集,移动设备、边缘设备常见,能效高。
- GPU/CUDA:用于大规模并行计算。
4.4 操作系统
| 概念 | 要点 |
|---|---|
| 进程 | 正在运行的程序实例,有独立地址空间 |
| 线程 | 进程内的执行单元,共享进程资源 |
| 并发 | 多任务交替推进 |
| 并行 | 多任务同时执行 |
| 死锁 | 多进程互相等待资源,条件:互斥、占有并等待、不可剥夺、循环等待 |
| 虚拟内存 | 用磁盘扩展内存视图,提高内存管理能力 |
| 文件系统 | 组织、存储、检索文件 |
| I/O 管理 | 管理输入输出设备和缓冲 |
4.5 数据结构
| 数据结构 | 特点 | 常见应用 |
|---|---|---|
| 数组 | 连续存储,随机访问快,插入删除慢 | 向量、矩阵 |
| 链表 | 非连续存储,插入删除方便,随机访问慢 | 动态集合 |
| 栈 | 后进先出 LIFO | 函数调用、括号匹配 |
| 队列 | 先进先出 FIFO | 任务调度、消息队列 |
| 哈希表 | key-value,平均查找 O(1) | 字典、去重 |
| 树 | 层次结构 | 决策树、索引 |
| 图 | 节点与边 | 路径规划、社交网络 |
4.6 常见算法
- 排序:冒泡、选择、插入、快速、归并、堆排序。
- 查找:顺序查找、二分查找、哈希查找。
- 图遍历:BFS 广度优先、DFS 深度优先。
- 最短路径:Dijkstra 适合非负权图。
- 动态规划:把大问题拆成重叠子问题,保存中间结果。
4.7 网络基础
| 层次 | 典型协议/设备 | 作用 |
|---|---|---|
| 应用层 | HTTP、HTTPS、DNS、FTP、SMTP | 面向应用服务 |
| 传输层 | TCP、UDP | 端到端传输 |
| 网络层 | IP、ICMP、路由器 | 寻址与路由 |
| 数据链路层 | Ethernet、交换机 | 局域网帧传输 |
| 物理层 | 光纤、电缆、无线信号 | 比特传输 |
TCP 与 UDP:
- TCP:面向连接、可靠、按序、有拥塞控制,适合网页、文件传输。
- UDP:无连接、开销小、不保证可靠,适合直播、语音、实时游戏。
HTTP 与 HTTPS:
- HTTP 明文传输。
- HTTPS = HTTP + TLS,加密、认证、完整性保护。
4.8 信息安全基础
- CIA 三要素:机密性 Confidentiality、完整性 Integrity、可用性 Availability。
- 身份认证:确认你是谁。
- 授权:确认你能访问什么。
- 审计:记录谁在何时做了什么。
- 加密:对称加密快,非对称加密适合密钥交换和签名。
- 哈希:单向摘要,用于完整性校验和密码存储。
- 数字签名:验证身份和防抵赖。
5. 数据库、SQL 与数据仓库
5.1 数据库基本概念
- 数据库 DB:长期存储、有组织的数据集合。
- DBMS:数据库管理系统,如 MySQL、PostgreSQL、Oracle。
- 数据库系统 DBS:数据库 + DBMS + 应用 + 用户 + 管理制度。
- 表:二维结构,由行和列组成。
- 主键:唯一标识一行记录。
- 外键:建立表之间关联。
- 索引:提升查询速度,但会增加写入和存储成本。
5.2 关系型与非关系型
| 类型 | 特点 | 例子 |
|---|---|---|
| 关系型数据库 | 表结构、SQL、事务强 | MySQL、PostgreSQL |
| 文档数据库 | JSON/BSON 文档,结构灵活 | MongoDB |
| 键值数据库 | key-value,速度快 | Redis |
| 列式数据库 | 按列存储,适合分析 | ClickHouse |
| 图数据库 | 节点边关系 | Neo4j |
5.3 SQL 高频
sql
SELECT col1, COUNT(*)
FROM table_name
WHERE condition
GROUP BY col1
HAVING COUNT(*) > 10
ORDER BY COUNT(*) DESC
LIMIT 10;执行逻辑顺序可记为:FROM -> WHERE -> GROUP BY -> HAVING -> SELECT -> ORDER BY -> LIMIT。
常见 JOIN:
- INNER JOIN:两表匹配才保留。
- LEFT JOIN:保留左表全部,右表无匹配则 NULL。
- RIGHT JOIN:保留右表全部。
- FULL JOIN:两表都保留。
5.4 事务 ACID
- Atomicity 原子性:要么全做,要么全不做。
- Consistency 一致性:事务前后数据满足约束。
- Isolation 隔离性:并发事务互不干扰。
- Durability 持久性:提交后永久保存。
隔离级别从低到高:
- Read Uncommitted:可能脏读。
- Read Committed:避免脏读,可能不可重复读。
- Repeatable Read:避免不可重复读,可能幻读。
- Serializable:最高隔离,性能最低。
5.5 数据仓库与大数据
- OLTP:联机事务处理,面向业务增删改查,强调实时和事务。
- OLAP:联机分析处理,面向统计分析,强调复杂查询。
- 数据仓库:面向主题、集成、相对稳定、反映历史变化的数据集合。
- ETL:Extract 抽取、Transform 转换、Load 加载。
- ELT:先加载再转换,云数仓常用。
- Hadoop:HDFS 分布式存储 + MapReduce 计算。
- Spark:内存计算,适合批处理、机器学习、流处理。
6. 数据采集、清洗、标注与质量管理
6.1 数据类型
| 类型 | 说明 | 例子 |
|---|---|---|
| 结构化数据 | 表格化、字段固定 | 订单表、用户表 |
| 半结构化数据 | 有结构但不严格 | JSON、XML、日志 |
| 非结构化数据 | 无固定表结构 | 文本、图片、音频、视频 |
6.2 数据采集原则
- 合法授权:数据来源合法,符合授权范围。
- 目的明确:采集前明确任务目标。
- 最小必要:只采集完成任务所需数据。
- 质量可控:记录来源、时间、格式、采集工具。
- 可追溯:保留采集日志、版本、处理记录。
- 安全保护:权限控制、加密存储、脱敏处理。
6.3 数据清洗
常见问题和处理:
| 问题 | 处理方法 |
|---|---|
| 缺失值 | 删除、均值/中位数/众数填充、模型填充、特殊值填充 |
| 重复值 | 去重,保留最新或最可信记录 |
| 异常值 | 箱线图、3σ、业务规则识别;删除、截断、修正、保留并标记 |
| 格式不统一 | 日期、单位、编码、大小写统一 |
| 噪声数据 | 平滑、过滤、人工复核 |
| 不一致数据 | 规则校验、跨表核对 |
6.4 数据标准化与归一化
- 标准化 Z-score:
z = (x - mean) / std,均值 0、标准差 1。 - Min-Max 归一化:
x' = (x - min) / (max - min),映射到 0-1。 - Robust Scaling:用中位数和四分位距,对异常值更稳健。
- One-Hot 编码:把类别变量变成多个 0/1 特征。
- Label Encoding:类别映射为整数,树模型常可用,线性模型要谨慎。
6.5 数据标注类型
| 数据 | 常见标注任务 |
|---|---|
| 文本 | 分类、实体识别、情感、意图、摘要、问答、语义匹配 |
| 图像 | 分类、矩形框、关键点、语义分割、实例分割 |
| 音频 | 语音转写、说话人分离、情绪、关键词 |
| 视频 | 目标跟踪、动作识别、事件检测 |
| 多模态 | 图文匹配、视频问答、图像描述 |
6.6 标注质量控制
- 制定标注规范:标签定义、边界规则、正反例、疑难样例。
- 培训标注人员:统一理解,不靠个人感觉。
- 试标注:小批量试运行,发现歧义。
- 多人标注:同一样本由多人独立标注。
- 一致性评估:Kappa、交叉审核、一致率。
- 专家仲裁:处理冲突和疑难样本。
- 抽检复核:按比例抽样检查。
- 版本管理:记录规范版本、数据版本和模型版本。
6.7 数据质量维度
- 准确性:数据是否真实正确。
- 完整性:字段和记录是否缺失。
- 一致性:不同系统/字段间是否冲突。
- 唯一性:是否重复。
- 有效性:是否符合格式和取值范围。
- 及时性:是否足够新。
- 代表性:样本是否覆盖真实场景。
- 平衡性:类别分布是否严重偏斜。
6.8 数据增强
图像增强:翻转、旋转、裁剪、缩放、颜色扰动、噪声、MixUp、CutMix。
文本增强:同义词替换、回译、随机删除、模板生成、LLM 生成后人工审核。
音频增强:加噪、变速、变调、混响。
注意:增强不能改变标签语义,也不能把测试集信息泄漏到训练集。
6.9 数据泄漏
数据泄漏指训练过程中使用了本不该知道的信息,导致评估虚高。
常见场景:
- 测试集参与特征标准化拟合。
- 先全量去重/编码/填充,再划分数据集。
- 特征中包含未来信息,如“是否逾期后催收次数”预测“是否逾期”。
- 同一用户或同一视频帧同时出现在训练集和测试集。
- 用测试集反复调参。
正确做法:先划分,再只在训练集 fit 预处理器,然后 transform 验证/测试集。
7. Python 与常用工具
7.1 Python 基础
| 语法/结构 | 要点 |
|---|---|
| list | 有序可变列表 |
| tuple | 有序不可变元组 |
| dict | 键值对,查找快 |
| set | 去重集合 |
| function | 封装可复用逻辑 |
| class | 面向对象,封装属性和方法 |
| exception | try/except 处理异常 |
7.2 NumPy
- ndarray:多维数组。
- shape:数组形状。
- broadcasting:广播机制,让不同形状数组参与运算。
- axis=0:按列方向聚合;axis=1:按行方向聚合。
- 向量化计算通常比 Python 循环更快。
7.3 Pandas
| 操作 | 常用方法 |
|---|---|
| 读取 CSV | pd.read_csv() |
| 查看前几行 | df.head() |
| 缺失统计 | df.isna().sum() |
| 删除缺失 | df.dropna() |
| 填充缺失 | df.fillna() |
| 去重 | df.drop_duplicates() |
| 分组统计 | df.groupby() |
| 合并 | pd.merge() |
| One-Hot | pd.get_dummies() |
7.4 Scikit-learn 流程
典型流程:
train_test_split- 数据预处理:
StandardScaler、OneHotEncoder - 选模型:
LogisticRegression、RandomForestClassifier、SVC - 训练:
model.fit(X_train, y_train) - 预测:
model.predict(X_test) - 评估:
accuracy_score、classification_report、f1_score - 调参:
GridSearchCV、RandomizedSearchCV
7.5 PyTorch 基础
- Tensor:张量,类似 NumPy 数组,可放到 GPU。
- Autograd:自动求导。
- Dataset/DataLoader:数据集与批量加载。
- Module:神经网络模块。
- Loss:损失函数。
- Optimizer:优化器,如 SGD、Adam。
- 训练循环:前向传播 -> 计算损失 -> 反向传播 -> 参数更新。
8. 机器学习
8.1 基本概念
- 样本:一条数据记录。
- 特征:用于预测的输入变量。
- 标签:监督学习中的目标输出。
- 模型:从数据中学习到的映射关系。
- 参数:模型通过训练学到的值。
- 超参数:训练前人为设定,如学习率、树深、K 值。
- 损失函数:衡量预测与真实值差距。
- 优化器:通过更新参数降低损失。
8.2 监督学习
分类任务:
- 二分类:是否违约、是否垃圾邮件。
- 多分类:图片类别、意图类别。
- 多标签:一张图同时含多个标签。
回归任务:
- 房价预测、销量预测、温度预测。
常见算法:
| 算法 | 适合 | 特点 |
|---|---|---|
| 线性回归 | 回归 | 可解释,假设线性 |
| 逻辑回归 | 分类 | 输出概率,线性边界 |
| KNN | 分类/回归 | 简单,预测慢,受尺度影响 |
| 决策树 | 分类/回归 | 可解释,易过拟合 |
| 随机森林 | 分类/回归 | 多棵树集成,抗过拟合 |
| GBDT/XGBoost/LightGBM | 表格数据 | 强性能,常用于竞赛 |
| SVM | 分类 | 小中型数据有效,核函数强 |
| 朴素贝叶斯 | 文本分类 | 假设特征条件独立 |
8.3 无监督学习
- K-Means:按距离聚类,需要预设 K。
- 层次聚类:形成树状聚类结构。
- DBSCAN:基于密度,可识别噪声,不需预设簇数。
- PCA:主成分分析,线性降维,保留最大方差方向。
- Apriori:关联规则挖掘,常见支持度、置信度、提升度。
8.4 强化学习
- Agent:智能体。
- Environment:环境。
- State:状态。
- Action:动作。
- Reward:奖励。
- Policy:策略。
- Value:价值函数。
- Q-learning:学习状态-动作价值。
强化学习适合序列决策,不适合所有预测任务。题目中出现“奖励”“策略”“环境交互”,优先想到强化学习。
8.5 特征工程
常见方法:
- 缺失值处理。
- 类别编码。
- 数值缩放。
- 特征组合。
- 时间特征提取,如年、月、日、节假日、工作日。
- 文本特征,如词袋、TF-IDF、词向量。
- 图像特征,如颜色直方图、纹理、深度特征。
- 特征选择:过滤法、包装法、嵌入法。
8.6 采样与类别不平衡
问题:正负样本比例极不均衡时,Accuracy 可能误导。
处理方法:
- 欠采样多数类。
- 过采样少数类。
- SMOTE 合成少数类。
- class_weight 类别权重。
- 调整分类阈值。
- 使用 F1、AUC、PR-AUC 等指标。
8.7 交叉验证
- K 折交叉验证:把数据分成 K 份,每次用 K-1 份训练,1 份验证。
- 分层 K 折:保持每折类别比例一致,分类任务常用。
- 时间序列验证:不能随机打乱,应按时间向前验证。
8.8 调参方法
- 手动调参:凭经验调整。
- 网格搜索:遍历所有组合,耗时。
- 随机搜索:随机采样,效率更高。
- 贝叶斯优化:根据历史结果选择下一组参数。
- 早停 Early Stopping:验证集不再提升时停止训练。
9. 深度学习
9.1 神经网络基础
- 神经元:线性变换 + 激活函数。
- 激活函数:ReLU、Sigmoid、Tanh、Softmax。
- 前向传播:输入经网络得到预测。
- 反向传播:根据损失计算梯度。
- 梯度下降:沿损失下降方向更新参数。
- Epoch:完整遍历训练集一次。
- Batch:一次训练使用的一批样本。
- Learning Rate:学习率,太大不收敛,太小收敛慢。
9.2 常见损失函数
| 任务 | 常用损失 |
|---|---|
| 回归 | MSE、MAE、Huber |
| 二分类 | Binary Cross Entropy |
| 多分类 | Cross Entropy |
| 目标检测 | 分类损失 + 定位损失 |
| 语言模型 | Cross Entropy / Negative Log Likelihood |
9.3 CNN
关键概念:
- 卷积核:提取局部特征。
- 步幅 stride:卷积核移动步长。
- 填充 padding:边缘补零,控制输出尺寸。
- 池化 pooling:降采样,减少计算,增强鲁棒性。
- 通道 channel:RGB 图像有 3 通道。
常见模型:
- LeNet:早期手写数字识别。
- AlexNet:推动深度学习图像识别爆发。
- VGG:小卷积核堆叠。
- ResNet:残差连接,缓解深层网络退化。
- EfficientNet:复合缩放。
9.4 RNN、LSTM、GRU
- RNN 处理序列,但容易梯度消失/爆炸。
- LSTM 引入门控机制:输入门、遗忘门、输出门。
- GRU 结构更简单,参数更少。
- 现在 NLP 主流多由 Transformer 替代,但 RNN 仍是基础考点。
9.5 Transformer
核心:自注意力 Self-Attention。
作用:让序列中每个位置关注其他位置的信息,捕捉长距离依赖。
重要组件:
- Token Embedding:词/子词向量。
- Positional Encoding:位置编码,因为自注意力本身不含顺序。
- Multi-Head Attention:多头注意力,从多个子空间关注信息。
- Feed Forward Network:前馈网络。
- Residual Connection:残差连接。
- LayerNorm:层归一化。
9.6 正则化
- L1 正则:促使权重稀疏。
- L2 正则/权重衰减:限制权重过大。
- Dropout:训练时随机丢弃神经元。
- BatchNorm:稳定分布,加快训练。
- 数据增强:提升泛化。
- 早停:防止过拟合。
9.7 迁移学习
迁移学习指利用已在大数据上训练好的模型,再适配新任务。
- 冻结特征提取层,只训练分类头。
- 微调整个模型或部分层。
- 小数据场景下很常用。
- 视觉任务常用 ImageNet 预训练模型。
- NLP 常用 BERT/GPT 等预训练模型。
10. 生成式人工智能、大模型与 RAG
10.1 生成式模型基础
生成式 AI 可以生成文本、图片、音频、视频、代码等内容。
典型架构:
| 模型 | 类型 | 典型任务 |
|---|---|---|
| BERT | Encoder-only | 文本分类、实体识别、语义匹配 |
| GPT | Decoder-only | 文本生成、对话、代码生成 |
| T5/BART | Encoder-Decoder | 翻译、摘要、问答 |
| VAE | 概率生成模型 | 表征学习、生成 |
| GAN | 对抗生成 | 图像生成、风格迁移 |
| Diffusion | 扩散模型 | 高质量图像/视频/音频生成 |
10.2 BERT 与 GPT 区别
| 项目 | BERT | GPT |
|---|---|---|
| 结构 | Transformer Encoder | Transformer Decoder |
| 上下文 | 双向 | 单向/自回归 |
| 预训练任务 | Masked LM 等 | 下一 token 预测 |
| 擅长 | 理解类任务 | 生成类任务 |
| 例子 | 分类、NER、匹配 | 对话、写作、代码 |
10.3 Token 与上下文窗口
- Token 是模型处理文本的基本单位,可以是字、词、子词或符号。
- 上下文窗口是模型一次能处理的 token 数量上限。
- 超出窗口会截断或需要摘要、检索、分块。
- 中文一个字不一定等于一个 token,具体取决于分词器。
10.4 Prompt Engineering
常见提示方法:
- Zero-shot:不给示例,直接任务说明。
- Few-shot:给少量示例。
- Chain-of-Thought:引导模型分步推理。
- Role Prompt:指定角色。
- Constraint Prompt:限定格式、长度、风格。
- Self-Consistency:多次推理投票。
注意:提示词不是权限系统,不能替代安全控制。
10.5 微调与参数高效微调
全量微调:更新模型全部参数,效果强但显存和数据要求高。
参数高效微调 PEFT:冻结大部分参数,只训练少量新增参数。
常见 PEFT:
- Adapter Tuning:插入小型适配器模块。
- Prefix Tuning:给每层注意力加入可训练前缀。
- Prompt Tuning:训练软提示向量。
- LoRA:把权重更新表示为低秩矩阵乘积,只训练低秩矩阵。
- QLoRA:量化基础模型 + LoRA,进一步节省显存。
LoRA 高频点:
- 主模型权重冻结。
- 训练参数少。
- 适合资源受限下游任务。
- 推理时可合并权重。
10.6 对齐与 RLHF
RLHF 流程:
- 监督微调 SFT:用高质量指令数据训练。
- 奖励模型 RM:用人类偏好数据训练奖励模型。
- 强化学习优化:常用 PPO,让模型输出更符合偏好。
目标:有用、诚实、无害。
风险:过度迎合、奖励黑客、偏见固化。
10.7 RAG 检索增强生成
RAG = Retrieval-Augmented Generation。
基本流程:
- 文档收集。
- 清洗切分 chunk。
- 计算向量 embedding。
- 存入向量数据库。
- 用户提问向量化。
- 相似度检索 top-k 文档。
- 把检索内容与问题一起交给大模型生成答案。
- 返回答案和引用来源。
优点:
- 降低幻觉。
- 可接入私有知识。
- 更新知识无需重新训练大模型。
- 便于引用溯源。
风险:
- 检索不到会答错。
- 检索内容过长会稀释重点。
- 文档污染会导致错误。
- 权限控制不当会泄露敏感信息。
10.8 Agent
Agent 通常具备:
- 感知:接收用户需求和环境信息。
- 规划:拆解任务。
- 记忆:保存上下文和经验。
- 工具调用:搜索、代码执行、数据库查询、API 调用。
- 行动:执行并根据结果调整。
考题中出现“自主规划、调用工具、反馈迭代、多步任务”,优先想到 Agent。
10.9 生成式 AI 评估
| 任务 | 指标 |
|---|---|
| 文本生成 | BLEU、ROUGE、METEOR、人工评测 |
| 问答/RAG | 正确性、忠实性、引用命中率、召回率 |
| 分类任务微调 | Accuracy、F1 |
| 代码生成 | 单元测试通过率 |
| 图像生成 | FID、CLIP Score、人评 |
| 对话 | 有用性、安全性、流畅性、一致性 |
生成式 AI 不能只看流畅度,还要看事实性、安全性、可控性和版权风险。
10.10 幻觉与缓解
幻觉:模型生成看似合理但不真实的信息。
缓解方法:
- RAG 接入可信知识库。
- 要求引用来源。
- 限制模型只基于给定材料回答。
- 使用工具校验。
- 人工审核高风险输出。
- 对模型进行事实性评估。
11. 计算机视觉、目标检测与自动驾驶场景
11.1 图像任务
| 任务 | 输出 |
|---|---|
| 图像分类 | 整张图片的类别 |
| 目标检测 | 目标类别 + 边界框 |
| 语义分割 | 每个像素的类别 |
| 实例分割 | 每个对象实例的像素掩码 |
| 关键点检测 | 人体/物体关键点坐标 |
| 目标跟踪 | 视频中持续定位同一目标 |
11.2 目标检测算法
两阶段:
- R-CNN、Fast R-CNN、Faster R-CNN。
- 精度高,速度相对慢。
一阶段:
- YOLO、SSD、RetinaNet。
- 速度快,适合实时检测。
Anchor-based 与 Anchor-free:
- Anchor-based:预设锚框。
- Anchor-free:直接预测中心点或关键点。
11.3 IoU
IoU = 预测框与真实框交集面积 / 并集面积。
常用于判断检测框是否命中。比如 IoU >= 0.5 可认为检测正确,具体以任务要求为准。
11.4 AP 与 mAP
- AP:某一类别 Precision-Recall 曲线下的面积。
- mAP:多个类别 AP 的平均。
- mAP 越高,检测综合性能越好。
11.5 NMS
非极大值抑制用于去掉重复检测框:
- 按置信度排序。
- 保留最高置信度框。
- 删除与它 IoU 超过阈值的低分框。
- 重复直到没有框。
11.6 自动驾驶场景常见元素
- 红绿灯。
- 行人。
- 车辆。
- 交通标识。
- 车道线。
- 障碍物。
- 路口、斑马线、限速牌。
自动驾驶 AI 场景通常包括:数据采集 -> 数据标注 -> 模型训练评估 -> 模型部署 -> 场景验证 -> 策略控制。
11.7 视频数据注意事项
- 相邻帧高度相似,划分数据集时要避免同一视频相邻帧同时进入训练集和测试集。
- 标注要保持时序一致。
- 目标被遮挡时需要按规范处理。
- 推理速度 FPS 和检测精度同样重要。
12. 模型评估、部署与运维
12.1 混淆矩阵
| 预测正 | 预测负 | |
|---|---|---|
| 实际正 | TP | FN |
| 实际负 | FP | TN |
记忆:
- TP:真阳性,正类判正。
- FP:假阳性,负类误判正,误报。
- FN:假阴性,正类漏判负,漏报。
- TN:真阴性,负类判负。
12.2 指标选择
| 场景 | 更关注 |
|---|---|
| 疾病筛查、风险预警 | Recall,避免漏掉高风险 |
| 垃圾邮件拦截、司法风控 | Precision,避免误伤正常样本 |
| 类别不平衡 | F1、AUC、PR-AUC |
| 排序/推荐 | AUC、NDCG、MAP |
| 回归 | MAE、MSE、RMSE、R² |
| 目标检测 | mAP、IoU、FPS |
| 生成模型 | 事实性、安全性、人工评测 |
12.3 ROC 与 AUC
- ROC 横轴 FPR,纵轴 TPR。
- TPR = Recall = TP / (TP + FN)。
- FPR = FP / (FP + TN)。
- AUC 表示模型把正样本排在负样本前面的能力。
- AUC 越接近 1 越好,0.5 接近随机。
12.4 PR 曲线
- 横轴 Recall,纵轴 Precision。
- 类别极不平衡时,PR-AUC 往往比 ROC-AUC 更敏感。
12.5 回归指标
| 指标 | 公式/含义 |
|---|---|
| MAE | 平均绝对误差,直观稳健 |
| MSE | 平均平方误差,对大误差更敏感 |
| RMSE | MSE 开方,与原单位一致 |
| R² | 解释方差比例,越接近 1 越好 |
12.6 模型部署
常见部署方式:
- 批处理离线预测。
- 在线 API 服务。
- 边缘设备部署。
- 移动端部署。
- 容器化部署,如 Docker/Kubernetes。
部署前检查:
- 模型文件和依赖版本一致。
- 训练和推理预处理一致。
- 输入输出格式明确。
- 性能满足延迟和吞吐要求。
- 日志、监控、告警可用。
- 有回滚机制。
- 安全权限配置正确。
12.7 MLOps
MLOps 是机器学习工程化运维体系,关注:
- 数据版本管理。
- 代码版本管理。
- 模型版本管理。
- 实验追踪。
- 自动训练和评估。
- 持续集成/持续部署。
- 监控与告警。
- 回滚与审计。
12.8 模型监控
监控内容:
- 输入数据分布。
- 缺失率、异常率。
- 预测分布。
- 模型性能指标。
- 延迟、吞吐、错误率。
- 资源使用率。
12.9 数据漂移与概念漂移
- 数据漂移:输入特征分布变化,如用户群体变化。
- 概念漂移:特征与标签关系变化,如欺诈手法变化。
- 标签漂移:标签分布变化,如正负样本比例变化。
处理:
- 定期评估。
- 新数据重训。
- 在线学习。
- 阈值调整。
- 数据/模型版本回滚。
13. 安全、隐私、法律法规与伦理
13.1 考试常见法律法规
| 法规/规范 | 高频考点 |
|---|---|
| 劳动法、劳动合同法 | 劳动者权益、合同、职业规范 |
| 网络安全法 | 网络运行安全、关键信息基础设施、个人信息保护 |
| 数据安全法 | 数据分类分级、重要数据、风险监测 |
| 个人信息保护法 | 告知同意、最小必要、敏感个人信息、个人权利 |
| 知识产权相关法律 | 著作权、专利、商标、商业秘密 |
| 网络数据安全管理条例 | 网络数据处理活动、网络数据安全、个人信息和重要数据保护 |
| 生成式人工智能服务管理暂行办法 | 生成式 AI 服务提供和使用规范、训练数据、标识、备案、安全评估 |
| 人工智能生成合成内容标识办法 | 显式标识、隐式标识、生成合成内容标识责任 |
13.2 个人信息与敏感个人信息
个人信息:以电子或其他方式记录的、与已识别或可识别自然人有关的各种信息,不包括匿名化处理后的信息。
敏感个人信息:一旦泄露或非法使用,容易导致人格尊严受侵害或人身、财产安全受危害的信息。常见包括:
- 生物识别。
- 宗教信仰。
- 特定身份。
- 医疗健康。
- 金融账户。
- 行踪轨迹。
- 不满十四周岁未成年人个人信息。
13.3 匿名化、脱敏、去标识化
| 概念 | 含义 |
|---|---|
| 匿名化 | 处理后无法识别特定自然人,且不能复原 |
| 去标识化 | 不借助额外信息无法识别,但可能复原 |
| 脱敏 | 遮盖、替换、泛化敏感字段 |
| 加密 | 未授权者无法读取明文,但解密后可恢复 |
考点:匿名化后的信息通常不再属于个人信息;去标识化不等于匿名化。
13.4 数据安全措施
- 分类分级管理。
- 最小权限。
- 访问控制。
- 加密传输和存储。
- 数据脱敏。
- 日志审计。
- 备份恢复。
- 安全评估。
- 漏洞管理。
- 应急预案。
13.5 生成式 AI 合规要点
- 训练数据来源应合法。
- 涉及知识产权时不得侵权。
- 涉及个人信息应取得合法依据并保护隐私。
- 不得生成违法和有害信息。
- 应采取措施提高真实性、准确性和可靠性。
- 对图片、视频等生成内容按要求标识。
- 面向公众且具有舆论属性或社会动员能力的服务,关注备案和安全评估要求。
- 对未成年人用户应防止过度依赖或沉迷。
13.6 AI 伦理
| 原则 | 含义 |
|---|---|
| 公平 | 防止歧视和偏见 |
| 透明 | 重要决策应可解释、可追溯 |
| 责任 | 明确开发者、提供者、使用者责任 |
| 安全 | 防止滥用、攻击和失控 |
| 隐私 | 保护个人信息和敏感数据 |
| 可控 | 人类可监督、可干预、可关闭 |
| 有益 | 服务社会公共利益和人类福祉 |
13.7 常见安全风险
- 数据投毒:攻击训练数据,影响模型行为。
- 对抗样本:对输入加微小扰动误导模型。
- 模型窃取:通过查询接口复制模型能力。
- 成员推断:判断某条数据是否在训练集中。
- 提示注入:诱导大模型忽略原指令或泄露信息。
- 越权检索:RAG 系统检索到用户无权访问文档。
- 幻觉误导:生成错误内容被当作事实。
14. 高频易混概念
| 概念 A | 概念 B | 区别 |
|---|---|---|
| 参数 | 超参数 | 参数训练得到;超参数训练前设置 |
| 验证集 | 测试集 | 验证集调参;测试集最终评估 |
| 归一化 | 标准化 | 归一化缩放到区间;标准化变为均值 0 方差 1 |
| 欠拟合 | 过拟合 | 欠拟合训练也差;过拟合训练好测试差 |
| Precision | Recall | Precision 防误报;Recall 防漏报 |
| ROC-AUC | PR-AUC | 类别极不平衡更看 PR-AUC |
| 分类 | 回归 | 分类输出类别;回归输出连续值 |
| 聚类 | 分类 | 聚类无标签;分类有标签 |
| 特征选择 | 特征提取 | 选择原特征子集;构造新特征空间 |
| Bagging | Boosting | Bagging 并行降方差;Boosting 串行降偏差 |
| 随机森林 | GBDT | 随机森林多树并行投票;GBDT 逐步拟合残差 |
| CNN | RNN | CNN 擅长空间局部特征;RNN 擅长序列 |
| BERT | GPT | BERT 理解;GPT 生成 |
| 微调 | RAG | 微调改模型参数;RAG 不改参数而检索外部知识 |
| LoRA | 全量微调 | LoRA 只训练低秩增量;全量微调更新所有参数 |
| 去标识化 | 匿名化 | 去标识化可复原;匿名化不可复原 |
| 数据漂移 | 概念漂移 | 输入分布变;输入和标签关系变 |
| mAP | Accuracy | mAP 用于检测;Accuracy 多用于分类 |
15. 模拟题
15.1 单项选择题
人工智能训练师的职业编码是: A. 4-04-05-05
B. 4-07-02-04
C. 2-02-10-09
D. 6-31-01-03
答案:A下列最符合人工智能训练师工作内容的是: A. 只负责销售 AI 产品
B. 只负责硬件维修
C. 在 AI 产品使用过程中进行数据、参数、人机交互和性能测试等辅助作业
D. 只负责财务报销
答案:C训练集的主要作用是: A. 最终评估模型泛化能力
B. 学习模型参数
C. 发布模型
D. 替代业务规则
答案:B验证集的主要用途是: A. 调整超参数和选择模型
B. 存储原始数据
C. 替代训练集
D. 加密模型
答案:A测试集被反复用于调参会导致: A. 数据增强
B. 数据泄漏和评估偏乐观
C. 模型压缩
D. 匿名化
答案:BPrecision 的含义是: A. 真实正类中被找回的比例
B. 预测为正的样本中真正为正的比例
C. 所有样本中预测正确的比例
D. 负类识别比例
答案:BRecall 的含义是: A. 真实正类中被预测为正的比例
B. 预测正类中真实为正的比例
C. 预测负类中真实为负的比例
D. 所有样本预测正确的比例
答案:A当类别极不平衡时,单独使用下列哪个指标最可能误导? A. Accuracy
B. F1
C. PR-AUC
D. Recall
答案:A过拟合的典型表现是: A. 训练集和测试集都差
B. 训练集好,测试集差
C. 训练集差,测试集好
D. 不需要验证集
答案:B下列哪项不能缓解过拟合? A. 增加数据
B. 正则化
C. Dropout
D. 让测试集参与训练
答案:DK-Means 属于: A. 监督学习
B. 无监督学习
C. 强化学习
D. 规则系统
答案:B逻辑回归通常用于: A. 分类
B. 图像压缩
C. 数据库备份
D. 操作系统调度
答案:APCA 的主要作用是: A. 加密
B. 降维
C. 提高显示器亮度
D. 数据库事务提交
答案:B决策树容易出现的问题是: A. 无法解释
B. 易过拟合
C. 不能处理分类任务
D. 必须使用 GPU
答案:B随机森林的核心思想是: A. 单棵树拟合所有数据
B. 多棵决策树集成投票或平均
C. 只做线性回归
D. 只处理文本
答案:BCNN 最擅长处理: A. 图像空间特征
B. 数据库事务
C. 路由协议
D. 劳动合同
答案:ARNN/LSTM 常用于: A. 序列数据
B. 静态网页样式
C. 硬盘分区
D. 电源管理
答案:ATransformer 的关键机制是: A. 自注意力
B. 哈希索引
C. RAID 阵列
D. 排序算法
答案:ABERT 更典型的结构是: A. Encoder-only
B. Decoder-only
C. 纯 CNN
D. 纯 KNN
答案:AGPT 更典型的训练方式是: A. 预测下一个 token
B. 数据库索引重建
C. 图像边缘检测
D. 只做聚类
答案:ALoRA 的主要优势是: A. 训练全部参数,显存需求最大
B. 冻结主体模型,只训练低秩增量参数
C. 不需要数据
D. 只能用于数据库
答案:BRAG 的主要作用是: A. 通过检索外部知识增强生成
B. 删除所有训练数据
C. 替代网络安全
D. 只能用于图像压缩
答案:ADiffusion 模型常见于: A. 图像生成
B. 数据库事务隔离
C. TCP 握手
D. 文件压缩
答案:A下列属于目标检测评价指标的是: A. mAP
B. MAE
C. R²
D. SQL
答案:AIoU 表示: A. 预测框与真实框的交并比
B. 模型训练轮数
C. 数据库连接数
D. 文本长度
答案:ANMS 的作用是: A. 去除重复检测框
B. 生成文本
C. 加密数据
D. 划分线程
答案:ASQL 中用于分组统计的是: A. GROUP BY
B. ORDER BY
C. LIMIT
D. DROP
答案:A数据库事务的 ACID 中 I 表示: A. Isolation
B. Index
C. Internet
D. Input
答案:A下列哪项是脏读可能出现的隔离级别? A. Read Uncommitted
B. Serializable
C. Repeatable Read
D. 只读模式
答案:AHTTPS 相比 HTTP 主要增加了: A. 加密、认证和完整性保护
B. 数据库索引
C. 图片分割
D. 模型训练
答案:ATCP 的特点是: A. 面向连接、可靠传输
B. 不保证顺序
C. 不能拥塞控制
D. 只用于图像
答案:A哈希表的平均查找复杂度通常是: A. O(1)
B. O(n²)
C. O(log log log n)
D. O(n!)
答案:A栈的特点是: A. 后进先出
B. 先进先出
C. 随机散列
D. 图遍历
答案:A队列的特点是: A. 先进先出
B. 后进先出
C. 只读
D. 加密
答案:A数据清洗中,处理缺失值不包括: A. 均值填充
B. 删除缺失样本
C. 众数填充
D. 随意填写任意值且不记录
答案:DOne-Hot 编码主要用于: A. 类别变量编码
B. 磁盘分区
C. 网络路由
D. 模型删除
答案:A标注质量控制中,Kappa 常用于衡量: A. 标注一致性
B. 训练速度
C. GPU 温度
D. 数据库大小
答案:A个人信息匿名化的关键是: A. 无法识别且不能复原
B. 简单打码即可完全复原
C. 只换文件名
D. 只压缩文件
答案:A下列属于敏感个人信息的是: A. 生物识别信息
B. 普通天气信息
C. 公共节假日
D. 匿名统计总量
答案:A数据采集最基本的合规原则是: A. 合法、正当、必要
B. 越多越好
C. 不用告知
D. 不用保护
答案:A
15.2 判断题
- 测试集可以在模型调参过程中反复使用。答案:错误
- 数据标注规范应包含标签定义、边界规则和示例。答案:正确
- 类别不平衡时 Accuracy 仍然总是最可靠指标。答案:错误
- Dropout 是一种缓解过拟合的方法。答案:正确
- BERT 通常更适合理解类任务,GPT 通常更适合生成类任务。答案:正确
- LoRA 需要训练大模型的全部参数。答案:错误
- RAG 可以在不重新训练大模型的情况下接入外部知识。答案:正确
- 匿名化和去标识化完全等同。答案:错误
- HTTPS 可以提供加密传输。答案:正确
- 随机森林属于集成学习方法。答案:正确
- IoU 可用于目标检测框质量评估。答案:正确
- NMS 用于保留所有重复框。答案:错误
- 强化学习通过奖励信号学习策略。答案:正确
- 无监督学习一定需要标签。答案:错误
- SQL 的 WHERE 通常在 GROUP BY 前过滤行。答案:正确
- 主键可以唯一标识一行记录。答案:正确
- 训练和推理阶段的数据预处理应保持一致。答案:正确
- 生成式 AI 输出流畅就一定真实。答案:错误
- 数据漂移指输入数据分布发生变化。答案:正确
- 概念漂移指特征与标签之间关系发生变化。答案:正确
15.3 多项选择题
数据质量维度包括: A. 准确性
B. 完整性
C. 一致性
D. 随意性
答案:ABC下列属于数据清洗任务的是: A. 缺失值处理
B. 重复值处理
C. 异常值处理
D. 数据库断电
答案:ABC下列属于监督学习任务的是: A. 分类
B. 回归
C. 聚类
D. 有标签预测
答案:ABD缓解过拟合的方法包括: A. 正则化
B. 数据增强
C. Dropout
D. 泄露测试集标签
答案:ABC下列属于深度学习框架或工具的是: A. PyTorch
B. TensorFlow
C. Keras
D. HTTP
答案:ABC生成式 AI 的应用领域包括: A. 文本生成
B. 图像生成
C. 代码生成
D. 音频生成
答案:ABCDRAG 系统通常包括: A. 文档切分
B. 向量化
C. 相似度检索
D. 生成回答
答案:ABCD参数高效微调方法包括: A. LoRA
B. Adapter
C. Prefix Tuning
D. 文件压缩
答案:ABC目标检测任务中常见元素包括: A. 边界框
B. 类别标签
C. 置信度
D. 事务隔离级别
答案:ABC模型部署前应检查: A. 输入输出格式
B. 依赖版本
C. 监控和回滚机制
D. 是否删除所有日志
答案:ABC个人信息保护中常见安全措施包括: A. 加密
B. 脱敏
C. 最小权限
D. 随意共享
答案:ABCAI 伦理原则包括: A. 公平
B. 透明
C. 安全
D. 不负责任
答案:ABC数据库事务 ACID 包括: A. 原子性
B. 一致性
C. 隔离性
D. 持久性
答案:ABCD操作系统管理内容包括: A. 进程管理
B. 内存管理
C. 文件系统
D. 输入输出管理
答案:ABCD网络安全 CIA 三要素包括: A. 机密性
B. 完整性
C. 可用性
D. 随机性
答案:ABC
15.4 易错题解析
- Precision 与 Recall:Precision 看“预测为正的是否靠谱”,Recall 看“真实正类有没有被找全”。风控误伤正常用户时关注 Precision;疾病筛查漏掉患者时关注 Recall。
- Accuracy 的陷阱:如果 1000 个样本里只有 10 个正类,模型全预测负类也有 99% Accuracy,但正类完全没找出,所以类别不平衡时要看 F1、Recall、PR-AUC。
- 过拟合与欠拟合:过拟合是“背熟训练集,不会做新题”;欠拟合是“训练题也没学会”。前者降复杂度或增强泛化,后者提高表达能力。
- 验证集与测试集:验证集可以参与模型选择,测试集只在最终评估用。测试集反复使用,本质上会把测试集信息泄露给模型选择过程。
- LoRA 与全量微调:LoRA 不直接更新大模型主体权重,而是训练低秩增量矩阵,资源成本更低;全量微调更新全部或大部分参数。
- RAG 与微调:RAG 不改变模型参数,靠检索外部知识增强回答;微调通过训练改变模型行为。知识更新频繁、需要引用来源时优先想到 RAG。
- BERT 与 GPT:BERT 双向理解,适合分类、匹配、实体识别;GPT 自回归生成,适合续写、对话、代码生成。
- 匿名化与去标识化:匿名化不可识别且不可复原;去标识化在额外信息帮助下可能复原,所以仍需按个人信息保护思路管理。
- IoU 与 mAP:IoU 衡量单个预测框和真实框重叠程度;mAP 是目标检测整体指标,综合多个类别的 AP。
- 数据漂移与概念漂移:数据漂移是输入分布变了;概念漂移是输入和标签之间的关系变了。后者通常更危险,需要重新评估模型规律。
16. 最后 48 小时复习计划
第一天:补齐知识框架
上午:
- 背第 1-2 章,明确考试范围和速背表。
- 过第 6 章数据采集、清洗、标注、质量管理。
- 把“数据质量维度、数据泄漏、标注流程”背熟。
下午:
- 过第 8 章机器学习。
- 手写混淆矩阵和 Precision、Recall、F1 公式 3 遍。
- 总结过拟合、欠拟合、类别不平衡、交叉验证。
晚上:
- 过第 9-10 章深度学习和生成式 AI。
- 重点背 BERT/GPT 区别、LoRA、RAG、RLHF、Agent。
- 做模拟题单选 1-40 和判断 1-20。
第二天:押高频与查漏
上午:
- 过第 11 章目标检测与自动驾驶。
- 背 IoU、mAP、NMS、FPS。
- 过第 12 章模型评估、部署、运维。
下午:
- 过第 13 章安全法规伦理。
- 背个人信息、敏感个人信息、匿名化/去标识化区别。
- 做多选题 1-15,重点复盘错题。
考前 30 分钟:
- 看第 2 章一页速背。
- 看第 14 章易混概念。
- 只复习错题,不再扩展新知识。
17. 参考依据
- 《人工智能训练师国家职业技能标准(2021 年版)》,技能人才评价工作网:
https://www.osta.org.cn/api/sys/downloadFile/decrypt?fileName=4eNsZIOv3WFNDfbnldJHeA%2F2024%2F4%2F29%2F6761815658ea468cbc0caa8974357703.pdf - 《第八届全国职工职业技能大赛人工智能训练师赛项技术文件》,中国职工技术协会/全国职工数字化应用技术技能大赛相关文件:
https://ldjj.acftu.org/wjytzgg/202406/P020240604573052992218.pdf - 《生成式人工智能服务管理暂行办法》,中国网信网:
https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm - 《网络数据安全管理条例》(中华人民共和国国务院令第 790 号),中国政府网转载页面:
https://www.mee.gov.cn/zcwj/gwywj/202410/t20241003_1087417.shtml - 《人工智能生成合成内容标识办法》,中国网信网:
https://www.cac.gov.cn/2025-03/14/c_1743654684782215.htm - GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》,国家标准全文公开系统:
https://openstd.samr.gov.cn/bzgk/std/newGbInfo?hcno=F32EA2A561F1886CD8D606513512D547