Skip to content

人工智能训练师内部选拔赛复习资料

适用场景:陕西省第五届“三秦工匠杯”职工职业技能大赛人工智能训练师省内选拔理论考试。
已知安排:2026-06-17 10:00,线下作答,理论题,60 分钟。
复习基准:以《人工智能训练师国家职业技能标准(2021 年版)》和第八届全国职工职业技能大赛人工智能训练师赛项技术文件为主,补充 2025 年以后仍有效的数据安全、生成式 AI 和内容标识要求。

使用建议:时间很紧时,先背第 1、2、11、12、13、14 章;有时间再系统过第 3-10 章;最后做第 15 章模拟题。


1. 考试定位与复习优先级

1.1 这类考试通常考什么

人工智能训练师不是单纯的“算法工程师”考试,而是围绕人工智能产品落地流程考察:

  1. 数据采集、清洗、标注、审核、划分。
  2. 机器学习、深度学习、生成式 AI 基础理论。
  3. 模型训练、调参、验证、评估、部署、运维。
  4. 数据库、SQL、Python、计算机网络、操作系统、数据结构等通用基础。
  5. 数据安全、隐私保护、知识产权、职业道德。
  6. 实际竞赛相关的新技术:大语言模型微调、LoRA、RAG、目标检测、自动驾驶场景应用。

1.2 官方权重的启示

国家职业标准中,人工智能训练师三级/高级工理论权重约为:

模块三级/高级工理论权重
职业道德5%
基础知识10%
业务分析20%
智能训练30%
智能系统设计30%
培训与指导5%

第八届全国职工职业技能大赛赛项技术文件中,理论基础覆盖大致为:

模块权重
基础理论知识15%
数据处理20%
机器学习15%
深度学习15%
生成式人工智能15%
AI 应用开发20%

所以内部理论选拔最值得优先掌握的顺序是:

  1. 数据处理与标注:最贴合职业名称,最容易出定义题和流程题。
  2. 机器学习与模型评估:公式、指标、过拟合、数据划分几乎必考。
  3. 深度学习与目标检测:CNN、RNN、Transformer、mAP、IoU、NMS。
  4. 生成式 AI:BERT、GPT、Diffusion、Prompt、LoRA、RAG、RLHF、Agent。
  5. 数据安全与法规伦理:判断题、多选题高频。
  6. 计算机基础、数据库、网络、操作系统:覆盖广,但通常偏基础概念。

1.3 60 分钟理论题策略

  1. 先做确定题:单选、判断先快速拿分。
  2. 多选题宁可慢一点:多选少选都可能不得分,优先排除明显错误项。
  3. 看到公式题先写四格表:TP、FP、FN、TN;不要凭感觉算。
  4. 看到“模型好不好”先判断任务类型:分类看 Accuracy/Precision/Recall/F1/AUC,检测看 IoU/mAP,生成看 BLEU/ROUGE/人工评测/事实性。
  5. 看到“数据安全”先找关键词:个人信息、敏感个人信息、重要数据、最小必要、告知同意、脱敏、匿名化、备份恢复。

2. 一页速背

2.1 人工智能训练师职业要点

  • 职业编码:4-04-05-05。
  • 职业定义:使用智能训练软件,在 AI 产品实际使用过程中开展数据库管理、算法参数设置、人机交互设计、性能测试跟踪等辅助作业。
  • 包含工种:数据标注员、人工智能算法测试员。
  • 职业守则:诚实公正、严谨求是;遵纪守法、恪尽职守;勤勉好学、追求卓越。
  • 理论考试合格标准在职业技能鉴定中通常为 60 分及以上。

2.2 AI 项目标准流程

问题定义 -> 数据采集 -> 数据清洗 -> 数据标注 -> 数据划分 -> 特征工程 -> 模型选择 -> 训练 -> 验证调参 -> 测试评估 -> 部署 -> 监控 -> 反馈迭代。

2.3 数据集划分

  • 训练集:训练模型参数。
  • 验证集:调超参数、选模型。
  • 测试集:最终评估泛化能力。
  • 常见比例:7:3、8:2、6:2:2、7:2:1。
  • 禁忌:测试集参与训练或调参,造成数据泄漏。

2.4 分类指标公式

指标公式关注点
Accuracy(TP + TN) / 全部样本整体正确率,类别均衡时更可靠
PrecisionTP / (TP + FP)预测为正的里面有多少真正
RecallTP / (TP + FN)真实为正的里面找回多少
F12PR / (P + R)Precision 与 Recall 的调和平均
SpecificityTN / (TN + FP)负类识别能力

口诀:Precision 防误报,Recall 防漏报,F1 看平衡。

2.5 机器学习三大范式

  • 监督学习:有标签,分类/回归。
  • 无监督学习:无标签,聚类/降维/关联规则。
  • 强化学习:智能体通过奖励学习策略,常见于控制、游戏、自动驾驶策略。

2.6 过拟合与欠拟合

  • 过拟合:训练集好、验证/测试集差。处理:增加数据、数据增强、正则化、Dropout、早停、降低模型复杂度、交叉验证。
  • 欠拟合:训练集和测试集都差。处理:增加特征、提高模型复杂度、训练更久、降低正则化。

2.7 深度学习结构

  • CNN:卷积神经网络,擅长图像、局部特征、平移不变性。
  • RNN/LSTM/GRU:序列模型,擅长文本、时间序列,但长依赖和并行效率较弱。
  • Transformer:基于自注意力,适合 NLP、多模态、大模型。
  • GAN:生成器和判别器对抗训练。
  • Diffusion:逐步加噪再去噪,常用于图像生成。

2.8 生成式 AI 高频词

  • BERT:Encoder-only,擅长理解类任务,双向上下文。
  • GPT:Decoder-only,擅长生成类任务,自回归预测下一个 token。
  • T5:Encoder-Decoder,把任务统一成 text-to-text。
  • LoRA:冻结大模型主体,在低秩矩阵中训练少量参数。
  • RAG:检索增强生成,先检索外部知识,再让模型生成答案。
  • RLHF:人类反馈强化学习,用偏好数据对齐模型输出。
  • Prompt Engineering:通过提示词引导模型行为。
  • Agent:能感知、规划、调用工具并执行任务的智能体。

2.9 目标检测指标

  • IoU:预测框与真实框交并比。
  • mAP:不同类别 AP 的平均,检测比赛高频指标。
  • NMS:非极大值抑制,用于去除重复框。
  • Recall:漏检少。
  • Precision:误检少。

2.10 数据安全口诀

合法正当必要、目的明确、最小够用、公开透明、质量保证、安全保障、主体权利保护、责任落实。


3. 职业标准与职业道德

3.1 职业活动范围

人工智能训练师的工作不是只“训练模型”,而是覆盖 AI 产品生命周期中的辅助训练和运营支撑:

  1. 数据库管理:数据导入、整理、质量审核、备份、恢复、权限管理。
  2. 数据采集与处理:收集业务数据,清洗缺失、重复、异常和错误数据。
  3. 数据标注:文本、图像、语音、视频等数据的分类、框选、分割、转写、审核。
  4. 算法参数设置:训练参数、超参数、阈值、模型版本配置。
  5. 人机交互设计:设计人工与智能系统协同流程,提高产品可用性。
  6. 性能测试跟踪:测试算法效果,记录错误案例,输出评估报告。
  7. 智能系统运维:部署、监控、反馈、优化、知识库维护。

3.2 等级理解

  • 五级/初级工:会采集、清洗、标注、分类统计、基础运维。
  • 四级/中级工:会数据质量检测、数据审核、流程优化、智能系统部署。
  • 三级/高级工:会设计流程、制定清洗标注规范、维护训练/测试集、算法测试、单一产品解决方案。
  • 二级/技师:会业务框架设计、高质量训练集/黄金测试集建设、多个智能产品方案设计。
  • 一级/高级技师:会复杂业务创新、训练平台体系优化、跨业务智能产品方案设计。

内部选拔通常对标三级/高级工,同时吸收二级部分内容和新技术。

3.3 职业道德常考点

关键词正确做法常见错误选项
诚实公正如实记录数据、测试结果和问题为了成绩篡改指标
严谨求是按规范标注、复核、留痕凭经验随意修改数据
遵纪守法遵守劳动、网安、数据、个人信息、知识产权法规未授权爬取或传播数据
恪尽职守按任务书提交材料,保护设备和资料擅自带走赛题或数据
勤勉好学持续学习新算法、新工具、新法规固守旧方法,不验证
追求卓越迭代优化模型和流程只追求跑通,不看质量

3.4 考场规范常识

  • 不带手机、存储设备、资料进入考场。
  • 按平台要求登录和提交。
  • 草稿纸由现场统一提供和回收。
  • 不拍照、不传播赛题、不干扰他人。
  • 结束铃响立即停止作答或操作。
  • 实操中损坏设备、污染环境、流程混乱、资料归档不完整可能扣分。

4. 计算机基础

4.1 计算机组成

  • CPU:运算器 + 控制器 + 寄存器,是执行指令的核心。
  • 内存 RAM:断电丢失,速度快,存放运行中程序和数据。
  • 外存:硬盘、SSD,断电不丢失,容量大。
  • 输入设备:键盘、鼠标、摄像头、传感器。
  • 输出设备:显示器、打印机、扬声器。
  • 总线:数据总线、地址总线、控制总线。
  • GPU:并行计算能力强,适合矩阵运算和深度学习训练。

4.2 存储层次

寄存器 -> Cache -> 内存 -> SSD/HDD -> 网络/云存储。
越靠前速度越快、容量越小、成本越高。

4.3 指令集

  • x86:复杂指令集,PC/服务器常见。
  • ARM:精简指令集,移动设备、边缘设备常见,能效高。
  • GPU/CUDA:用于大规模并行计算。

4.4 操作系统

概念要点
进程正在运行的程序实例,有独立地址空间
线程进程内的执行单元,共享进程资源
并发多任务交替推进
并行多任务同时执行
死锁多进程互相等待资源,条件:互斥、占有并等待、不可剥夺、循环等待
虚拟内存用磁盘扩展内存视图,提高内存管理能力
文件系统组织、存储、检索文件
I/O 管理管理输入输出设备和缓冲

4.5 数据结构

数据结构特点常见应用
数组连续存储,随机访问快,插入删除慢向量、矩阵
链表非连续存储,插入删除方便,随机访问慢动态集合
后进先出 LIFO函数调用、括号匹配
队列先进先出 FIFO任务调度、消息队列
哈希表key-value,平均查找 O(1)字典、去重
层次结构决策树、索引
节点与边路径规划、社交网络

4.6 常见算法

  • 排序:冒泡、选择、插入、快速、归并、堆排序。
  • 查找:顺序查找、二分查找、哈希查找。
  • 图遍历:BFS 广度优先、DFS 深度优先。
  • 最短路径:Dijkstra 适合非负权图。
  • 动态规划:把大问题拆成重叠子问题,保存中间结果。

4.7 网络基础

层次典型协议/设备作用
应用层HTTP、HTTPS、DNS、FTP、SMTP面向应用服务
传输层TCP、UDP端到端传输
网络层IP、ICMP、路由器寻址与路由
数据链路层Ethernet、交换机局域网帧传输
物理层光纤、电缆、无线信号比特传输

TCP 与 UDP:

  • TCP:面向连接、可靠、按序、有拥塞控制,适合网页、文件传输。
  • UDP:无连接、开销小、不保证可靠,适合直播、语音、实时游戏。

HTTP 与 HTTPS:

  • HTTP 明文传输。
  • HTTPS = HTTP + TLS,加密、认证、完整性保护。

4.8 信息安全基础

  • CIA 三要素:机密性 Confidentiality、完整性 Integrity、可用性 Availability。
  • 身份认证:确认你是谁。
  • 授权:确认你能访问什么。
  • 审计:记录谁在何时做了什么。
  • 加密:对称加密快,非对称加密适合密钥交换和签名。
  • 哈希:单向摘要,用于完整性校验和密码存储。
  • 数字签名:验证身份和防抵赖。

5. 数据库、SQL 与数据仓库

5.1 数据库基本概念

  • 数据库 DB:长期存储、有组织的数据集合。
  • DBMS:数据库管理系统,如 MySQL、PostgreSQL、Oracle。
  • 数据库系统 DBS:数据库 + DBMS + 应用 + 用户 + 管理制度。
  • 表:二维结构,由行和列组成。
  • 主键:唯一标识一行记录。
  • 外键:建立表之间关联。
  • 索引:提升查询速度,但会增加写入和存储成本。

5.2 关系型与非关系型

类型特点例子
关系型数据库表结构、SQL、事务强MySQL、PostgreSQL
文档数据库JSON/BSON 文档,结构灵活MongoDB
键值数据库key-value,速度快Redis
列式数据库按列存储,适合分析ClickHouse
图数据库节点边关系Neo4j

5.3 SQL 高频

sql
SELECT col1, COUNT(*)
FROM table_name
WHERE condition
GROUP BY col1
HAVING COUNT(*) > 10
ORDER BY COUNT(*) DESC
LIMIT 10;

执行逻辑顺序可记为:FROM -> WHERE -> GROUP BY -> HAVING -> SELECT -> ORDER BY -> LIMIT。

常见 JOIN:

  • INNER JOIN:两表匹配才保留。
  • LEFT JOIN:保留左表全部,右表无匹配则 NULL。
  • RIGHT JOIN:保留右表全部。
  • FULL JOIN:两表都保留。

5.4 事务 ACID

  • Atomicity 原子性:要么全做,要么全不做。
  • Consistency 一致性:事务前后数据满足约束。
  • Isolation 隔离性:并发事务互不干扰。
  • Durability 持久性:提交后永久保存。

隔离级别从低到高:

  1. Read Uncommitted:可能脏读。
  2. Read Committed:避免脏读,可能不可重复读。
  3. Repeatable Read:避免不可重复读,可能幻读。
  4. Serializable:最高隔离,性能最低。

5.5 数据仓库与大数据

  • OLTP:联机事务处理,面向业务增删改查,强调实时和事务。
  • OLAP:联机分析处理,面向统计分析,强调复杂查询。
  • 数据仓库:面向主题、集成、相对稳定、反映历史变化的数据集合。
  • ETL:Extract 抽取、Transform 转换、Load 加载。
  • ELT:先加载再转换,云数仓常用。
  • Hadoop:HDFS 分布式存储 + MapReduce 计算。
  • Spark:内存计算,适合批处理、机器学习、流处理。

6. 数据采集、清洗、标注与质量管理

6.1 数据类型

类型说明例子
结构化数据表格化、字段固定订单表、用户表
半结构化数据有结构但不严格JSON、XML、日志
非结构化数据无固定表结构文本、图片、音频、视频

6.2 数据采集原则

  1. 合法授权:数据来源合法,符合授权范围。
  2. 目的明确:采集前明确任务目标。
  3. 最小必要:只采集完成任务所需数据。
  4. 质量可控:记录来源、时间、格式、采集工具。
  5. 可追溯:保留采集日志、版本、处理记录。
  6. 安全保护:权限控制、加密存储、脱敏处理。

6.3 数据清洗

常见问题和处理:

问题处理方法
缺失值删除、均值/中位数/众数填充、模型填充、特殊值填充
重复值去重,保留最新或最可信记录
异常值箱线图、3σ、业务规则识别;删除、截断、修正、保留并标记
格式不统一日期、单位、编码、大小写统一
噪声数据平滑、过滤、人工复核
不一致数据规则校验、跨表核对

6.4 数据标准化与归一化

  • 标准化 Z-score:z = (x - mean) / std,均值 0、标准差 1。
  • Min-Max 归一化:x' = (x - min) / (max - min),映射到 0-1。
  • Robust Scaling:用中位数和四分位距,对异常值更稳健。
  • One-Hot 编码:把类别变量变成多个 0/1 特征。
  • Label Encoding:类别映射为整数,树模型常可用,线性模型要谨慎。

6.5 数据标注类型

数据常见标注任务
文本分类、实体识别、情感、意图、摘要、问答、语义匹配
图像分类、矩形框、关键点、语义分割、实例分割
音频语音转写、说话人分离、情绪、关键词
视频目标跟踪、动作识别、事件检测
多模态图文匹配、视频问答、图像描述

6.6 标注质量控制

  1. 制定标注规范:标签定义、边界规则、正反例、疑难样例。
  2. 培训标注人员:统一理解,不靠个人感觉。
  3. 试标注:小批量试运行,发现歧义。
  4. 多人标注:同一样本由多人独立标注。
  5. 一致性评估:Kappa、交叉审核、一致率。
  6. 专家仲裁:处理冲突和疑难样本。
  7. 抽检复核:按比例抽样检查。
  8. 版本管理:记录规范版本、数据版本和模型版本。

6.7 数据质量维度

  • 准确性:数据是否真实正确。
  • 完整性:字段和记录是否缺失。
  • 一致性:不同系统/字段间是否冲突。
  • 唯一性:是否重复。
  • 有效性:是否符合格式和取值范围。
  • 及时性:是否足够新。
  • 代表性:样本是否覆盖真实场景。
  • 平衡性:类别分布是否严重偏斜。

6.8 数据增强

图像增强:翻转、旋转、裁剪、缩放、颜色扰动、噪声、MixUp、CutMix。
文本增强:同义词替换、回译、随机删除、模板生成、LLM 生成后人工审核。
音频增强:加噪、变速、变调、混响。
注意:增强不能改变标签语义,也不能把测试集信息泄漏到训练集。

6.9 数据泄漏

数据泄漏指训练过程中使用了本不该知道的信息,导致评估虚高。

常见场景:

  • 测试集参与特征标准化拟合。
  • 先全量去重/编码/填充,再划分数据集。
  • 特征中包含未来信息,如“是否逾期后催收次数”预测“是否逾期”。
  • 同一用户或同一视频帧同时出现在训练集和测试集。
  • 用测试集反复调参。

正确做法:先划分,再只在训练集 fit 预处理器,然后 transform 验证/测试集。


7. Python 与常用工具

7.1 Python 基础

语法/结构要点
list有序可变列表
tuple有序不可变元组
dict键值对,查找快
set去重集合
function封装可复用逻辑
class面向对象,封装属性和方法
exceptiontry/except 处理异常

7.2 NumPy

  • ndarray:多维数组。
  • shape:数组形状。
  • broadcasting:广播机制,让不同形状数组参与运算。
  • axis=0:按列方向聚合;axis=1:按行方向聚合。
  • 向量化计算通常比 Python 循环更快。

7.3 Pandas

操作常用方法
读取 CSVpd.read_csv()
查看前几行df.head()
缺失统计df.isna().sum()
删除缺失df.dropna()
填充缺失df.fillna()
去重df.drop_duplicates()
分组统计df.groupby()
合并pd.merge()
One-Hotpd.get_dummies()

7.4 Scikit-learn 流程

典型流程:

  1. train_test_split
  2. 数据预处理:StandardScalerOneHotEncoder
  3. 选模型:LogisticRegressionRandomForestClassifierSVC
  4. 训练:model.fit(X_train, y_train)
  5. 预测:model.predict(X_test)
  6. 评估:accuracy_scoreclassification_reportf1_score
  7. 调参:GridSearchCVRandomizedSearchCV

7.5 PyTorch 基础

  • Tensor:张量,类似 NumPy 数组,可放到 GPU。
  • Autograd:自动求导。
  • Dataset/DataLoader:数据集与批量加载。
  • Module:神经网络模块。
  • Loss:损失函数。
  • Optimizer:优化器,如 SGD、Adam。
  • 训练循环:前向传播 -> 计算损失 -> 反向传播 -> 参数更新。

8. 机器学习

8.1 基本概念

  • 样本:一条数据记录。
  • 特征:用于预测的输入变量。
  • 标签:监督学习中的目标输出。
  • 模型:从数据中学习到的映射关系。
  • 参数:模型通过训练学到的值。
  • 超参数:训练前人为设定,如学习率、树深、K 值。
  • 损失函数:衡量预测与真实值差距。
  • 优化器:通过更新参数降低损失。

8.2 监督学习

分类任务:

  • 二分类:是否违约、是否垃圾邮件。
  • 多分类:图片类别、意图类别。
  • 多标签:一张图同时含多个标签。

回归任务:

  • 房价预测、销量预测、温度预测。

常见算法:

算法适合特点
线性回归回归可解释,假设线性
逻辑回归分类输出概率,线性边界
KNN分类/回归简单,预测慢,受尺度影响
决策树分类/回归可解释,易过拟合
随机森林分类/回归多棵树集成,抗过拟合
GBDT/XGBoost/LightGBM表格数据强性能,常用于竞赛
SVM分类小中型数据有效,核函数强
朴素贝叶斯文本分类假设特征条件独立

8.3 无监督学习

  • K-Means:按距离聚类,需要预设 K。
  • 层次聚类:形成树状聚类结构。
  • DBSCAN:基于密度,可识别噪声,不需预设簇数。
  • PCA:主成分分析,线性降维,保留最大方差方向。
  • Apriori:关联规则挖掘,常见支持度、置信度、提升度。

8.4 强化学习

  • Agent:智能体。
  • Environment:环境。
  • State:状态。
  • Action:动作。
  • Reward:奖励。
  • Policy:策略。
  • Value:价值函数。
  • Q-learning:学习状态-动作价值。

强化学习适合序列决策,不适合所有预测任务。题目中出现“奖励”“策略”“环境交互”,优先想到强化学习。

8.5 特征工程

常见方法:

  • 缺失值处理。
  • 类别编码。
  • 数值缩放。
  • 特征组合。
  • 时间特征提取,如年、月、日、节假日、工作日。
  • 文本特征,如词袋、TF-IDF、词向量。
  • 图像特征,如颜色直方图、纹理、深度特征。
  • 特征选择:过滤法、包装法、嵌入法。

8.6 采样与类别不平衡

问题:正负样本比例极不均衡时,Accuracy 可能误导。

处理方法:

  • 欠采样多数类。
  • 过采样少数类。
  • SMOTE 合成少数类。
  • class_weight 类别权重。
  • 调整分类阈值。
  • 使用 F1、AUC、PR-AUC 等指标。

8.7 交叉验证

  • K 折交叉验证:把数据分成 K 份,每次用 K-1 份训练,1 份验证。
  • 分层 K 折:保持每折类别比例一致,分类任务常用。
  • 时间序列验证:不能随机打乱,应按时间向前验证。

8.8 调参方法

  • 手动调参:凭经验调整。
  • 网格搜索:遍历所有组合,耗时。
  • 随机搜索:随机采样,效率更高。
  • 贝叶斯优化:根据历史结果选择下一组参数。
  • 早停 Early Stopping:验证集不再提升时停止训练。

9. 深度学习

9.1 神经网络基础

  • 神经元:线性变换 + 激活函数。
  • 激活函数:ReLU、Sigmoid、Tanh、Softmax。
  • 前向传播:输入经网络得到预测。
  • 反向传播:根据损失计算梯度。
  • 梯度下降:沿损失下降方向更新参数。
  • Epoch:完整遍历训练集一次。
  • Batch:一次训练使用的一批样本。
  • Learning Rate:学习率,太大不收敛,太小收敛慢。

9.2 常见损失函数

任务常用损失
回归MSE、MAE、Huber
二分类Binary Cross Entropy
多分类Cross Entropy
目标检测分类损失 + 定位损失
语言模型Cross Entropy / Negative Log Likelihood

9.3 CNN

关键概念:

  • 卷积核:提取局部特征。
  • 步幅 stride:卷积核移动步长。
  • 填充 padding:边缘补零,控制输出尺寸。
  • 池化 pooling:降采样,减少计算,增强鲁棒性。
  • 通道 channel:RGB 图像有 3 通道。

常见模型:

  • LeNet:早期手写数字识别。
  • AlexNet:推动深度学习图像识别爆发。
  • VGG:小卷积核堆叠。
  • ResNet:残差连接,缓解深层网络退化。
  • EfficientNet:复合缩放。

9.4 RNN、LSTM、GRU

  • RNN 处理序列,但容易梯度消失/爆炸。
  • LSTM 引入门控机制:输入门、遗忘门、输出门。
  • GRU 结构更简单,参数更少。
  • 现在 NLP 主流多由 Transformer 替代,但 RNN 仍是基础考点。

9.5 Transformer

核心:自注意力 Self-Attention。
作用:让序列中每个位置关注其他位置的信息,捕捉长距离依赖。

重要组件:

  • Token Embedding:词/子词向量。
  • Positional Encoding:位置编码,因为自注意力本身不含顺序。
  • Multi-Head Attention:多头注意力,从多个子空间关注信息。
  • Feed Forward Network:前馈网络。
  • Residual Connection:残差连接。
  • LayerNorm:层归一化。

9.6 正则化

  • L1 正则:促使权重稀疏。
  • L2 正则/权重衰减:限制权重过大。
  • Dropout:训练时随机丢弃神经元。
  • BatchNorm:稳定分布,加快训练。
  • 数据增强:提升泛化。
  • 早停:防止过拟合。

9.7 迁移学习

迁移学习指利用已在大数据上训练好的模型,再适配新任务。

  • 冻结特征提取层,只训练分类头。
  • 微调整个模型或部分层。
  • 小数据场景下很常用。
  • 视觉任务常用 ImageNet 预训练模型。
  • NLP 常用 BERT/GPT 等预训练模型。

10. 生成式人工智能、大模型与 RAG

10.1 生成式模型基础

生成式 AI 可以生成文本、图片、音频、视频、代码等内容。

典型架构:

模型类型典型任务
BERTEncoder-only文本分类、实体识别、语义匹配
GPTDecoder-only文本生成、对话、代码生成
T5/BARTEncoder-Decoder翻译、摘要、问答
VAE概率生成模型表征学习、生成
GAN对抗生成图像生成、风格迁移
Diffusion扩散模型高质量图像/视频/音频生成

10.2 BERT 与 GPT 区别

项目BERTGPT
结构Transformer EncoderTransformer Decoder
上下文双向单向/自回归
预训练任务Masked LM 等下一 token 预测
擅长理解类任务生成类任务
例子分类、NER、匹配对话、写作、代码

10.3 Token 与上下文窗口

  • Token 是模型处理文本的基本单位,可以是字、词、子词或符号。
  • 上下文窗口是模型一次能处理的 token 数量上限。
  • 超出窗口会截断或需要摘要、检索、分块。
  • 中文一个字不一定等于一个 token,具体取决于分词器。

10.4 Prompt Engineering

常见提示方法:

  • Zero-shot:不给示例,直接任务说明。
  • Few-shot:给少量示例。
  • Chain-of-Thought:引导模型分步推理。
  • Role Prompt:指定角色。
  • Constraint Prompt:限定格式、长度、风格。
  • Self-Consistency:多次推理投票。

注意:提示词不是权限系统,不能替代安全控制。

10.5 微调与参数高效微调

全量微调:更新模型全部参数,效果强但显存和数据要求高。
参数高效微调 PEFT:冻结大部分参数,只训练少量新增参数。

常见 PEFT:

  • Adapter Tuning:插入小型适配器模块。
  • Prefix Tuning:给每层注意力加入可训练前缀。
  • Prompt Tuning:训练软提示向量。
  • LoRA:把权重更新表示为低秩矩阵乘积,只训练低秩矩阵。
  • QLoRA:量化基础模型 + LoRA,进一步节省显存。

LoRA 高频点:

  • 主模型权重冻结。
  • 训练参数少。
  • 适合资源受限下游任务。
  • 推理时可合并权重。

10.6 对齐与 RLHF

RLHF 流程:

  1. 监督微调 SFT:用高质量指令数据训练。
  2. 奖励模型 RM:用人类偏好数据训练奖励模型。
  3. 强化学习优化:常用 PPO,让模型输出更符合偏好。

目标:有用、诚实、无害。
风险:过度迎合、奖励黑客、偏见固化。

10.7 RAG 检索增强生成

RAG = Retrieval-Augmented Generation。

基本流程:

  1. 文档收集。
  2. 清洗切分 chunk。
  3. 计算向量 embedding。
  4. 存入向量数据库。
  5. 用户提问向量化。
  6. 相似度检索 top-k 文档。
  7. 把检索内容与问题一起交给大模型生成答案。
  8. 返回答案和引用来源。

优点:

  • 降低幻觉。
  • 可接入私有知识。
  • 更新知识无需重新训练大模型。
  • 便于引用溯源。

风险:

  • 检索不到会答错。
  • 检索内容过长会稀释重点。
  • 文档污染会导致错误。
  • 权限控制不当会泄露敏感信息。

10.8 Agent

Agent 通常具备:

  • 感知:接收用户需求和环境信息。
  • 规划:拆解任务。
  • 记忆:保存上下文和经验。
  • 工具调用:搜索、代码执行、数据库查询、API 调用。
  • 行动:执行并根据结果调整。

考题中出现“自主规划、调用工具、反馈迭代、多步任务”,优先想到 Agent。

10.9 生成式 AI 评估

任务指标
文本生成BLEU、ROUGE、METEOR、人工评测
问答/RAG正确性、忠实性、引用命中率、召回率
分类任务微调Accuracy、F1
代码生成单元测试通过率
图像生成FID、CLIP Score、人评
对话有用性、安全性、流畅性、一致性

生成式 AI 不能只看流畅度,还要看事实性、安全性、可控性和版权风险。

10.10 幻觉与缓解

幻觉:模型生成看似合理但不真实的信息。

缓解方法:

  • RAG 接入可信知识库。
  • 要求引用来源。
  • 限制模型只基于给定材料回答。
  • 使用工具校验。
  • 人工审核高风险输出。
  • 对模型进行事实性评估。

11. 计算机视觉、目标检测与自动驾驶场景

11.1 图像任务

任务输出
图像分类整张图片的类别
目标检测目标类别 + 边界框
语义分割每个像素的类别
实例分割每个对象实例的像素掩码
关键点检测人体/物体关键点坐标
目标跟踪视频中持续定位同一目标

11.2 目标检测算法

两阶段:

  • R-CNN、Fast R-CNN、Faster R-CNN。
  • 精度高,速度相对慢。

一阶段:

  • YOLO、SSD、RetinaNet。
  • 速度快,适合实时检测。

Anchor-based 与 Anchor-free:

  • Anchor-based:预设锚框。
  • Anchor-free:直接预测中心点或关键点。

11.3 IoU

IoU = 预测框与真实框交集面积 / 并集面积。
常用于判断检测框是否命中。比如 IoU >= 0.5 可认为检测正确,具体以任务要求为准。

11.4 AP 与 mAP

  • AP:某一类别 Precision-Recall 曲线下的面积。
  • mAP:多个类别 AP 的平均。
  • mAP 越高,检测综合性能越好。

11.5 NMS

非极大值抑制用于去掉重复检测框:

  1. 按置信度排序。
  2. 保留最高置信度框。
  3. 删除与它 IoU 超过阈值的低分框。
  4. 重复直到没有框。

11.6 自动驾驶场景常见元素

  • 红绿灯。
  • 行人。
  • 车辆。
  • 交通标识。
  • 车道线。
  • 障碍物。
  • 路口、斑马线、限速牌。

自动驾驶 AI 场景通常包括:数据采集 -> 数据标注 -> 模型训练评估 -> 模型部署 -> 场景验证 -> 策略控制。

11.7 视频数据注意事项

  • 相邻帧高度相似,划分数据集时要避免同一视频相邻帧同时进入训练集和测试集。
  • 标注要保持时序一致。
  • 目标被遮挡时需要按规范处理。
  • 推理速度 FPS 和检测精度同样重要。

12. 模型评估、部署与运维

12.1 混淆矩阵

预测正预测负
实际正TPFN
实际负FPTN

记忆:

  • TP:真阳性,正类判正。
  • FP:假阳性,负类误判正,误报。
  • FN:假阴性,正类漏判负,漏报。
  • TN:真阴性,负类判负。

12.2 指标选择

场景更关注
疾病筛查、风险预警Recall,避免漏掉高风险
垃圾邮件拦截、司法风控Precision,避免误伤正常样本
类别不平衡F1、AUC、PR-AUC
排序/推荐AUC、NDCG、MAP
回归MAE、MSE、RMSE、R²
目标检测mAP、IoU、FPS
生成模型事实性、安全性、人工评测

12.3 ROC 与 AUC

  • ROC 横轴 FPR,纵轴 TPR。
  • TPR = Recall = TP / (TP + FN)。
  • FPR = FP / (FP + TN)。
  • AUC 表示模型把正样本排在负样本前面的能力。
  • AUC 越接近 1 越好,0.5 接近随机。

12.4 PR 曲线

  • 横轴 Recall,纵轴 Precision。
  • 类别极不平衡时,PR-AUC 往往比 ROC-AUC 更敏感。

12.5 回归指标

指标公式/含义
MAE平均绝对误差,直观稳健
MSE平均平方误差,对大误差更敏感
RMSEMSE 开方,与原单位一致
解释方差比例,越接近 1 越好

12.6 模型部署

常见部署方式:

  • 批处理离线预测。
  • 在线 API 服务。
  • 边缘设备部署。
  • 移动端部署。
  • 容器化部署,如 Docker/Kubernetes。

部署前检查:

  1. 模型文件和依赖版本一致。
  2. 训练和推理预处理一致。
  3. 输入输出格式明确。
  4. 性能满足延迟和吞吐要求。
  5. 日志、监控、告警可用。
  6. 有回滚机制。
  7. 安全权限配置正确。

12.7 MLOps

MLOps 是机器学习工程化运维体系,关注:

  • 数据版本管理。
  • 代码版本管理。
  • 模型版本管理。
  • 实验追踪。
  • 自动训练和评估。
  • 持续集成/持续部署。
  • 监控与告警。
  • 回滚与审计。

12.8 模型监控

监控内容:

  • 输入数据分布。
  • 缺失率、异常率。
  • 预测分布。
  • 模型性能指标。
  • 延迟、吞吐、错误率。
  • 资源使用率。

12.9 数据漂移与概念漂移

  • 数据漂移:输入特征分布变化,如用户群体变化。
  • 概念漂移:特征与标签关系变化,如欺诈手法变化。
  • 标签漂移:标签分布变化,如正负样本比例变化。

处理:

  • 定期评估。
  • 新数据重训。
  • 在线学习。
  • 阈值调整。
  • 数据/模型版本回滚。

13. 安全、隐私、法律法规与伦理

13.1 考试常见法律法规

法规/规范高频考点
劳动法、劳动合同法劳动者权益、合同、职业规范
网络安全法网络运行安全、关键信息基础设施、个人信息保护
数据安全法数据分类分级、重要数据、风险监测
个人信息保护法告知同意、最小必要、敏感个人信息、个人权利
知识产权相关法律著作权、专利、商标、商业秘密
网络数据安全管理条例网络数据处理活动、网络数据安全、个人信息和重要数据保护
生成式人工智能服务管理暂行办法生成式 AI 服务提供和使用规范、训练数据、标识、备案、安全评估
人工智能生成合成内容标识办法显式标识、隐式标识、生成合成内容标识责任

13.2 个人信息与敏感个人信息

个人信息:以电子或其他方式记录的、与已识别或可识别自然人有关的各种信息,不包括匿名化处理后的信息。

敏感个人信息:一旦泄露或非法使用,容易导致人格尊严受侵害或人身、财产安全受危害的信息。常见包括:

  • 生物识别。
  • 宗教信仰。
  • 特定身份。
  • 医疗健康。
  • 金融账户。
  • 行踪轨迹。
  • 不满十四周岁未成年人个人信息。

13.3 匿名化、脱敏、去标识化

概念含义
匿名化处理后无法识别特定自然人,且不能复原
去标识化不借助额外信息无法识别,但可能复原
脱敏遮盖、替换、泛化敏感字段
加密未授权者无法读取明文,但解密后可恢复

考点:匿名化后的信息通常不再属于个人信息;去标识化不等于匿名化。

13.4 数据安全措施

  • 分类分级管理。
  • 最小权限。
  • 访问控制。
  • 加密传输和存储。
  • 数据脱敏。
  • 日志审计。
  • 备份恢复。
  • 安全评估。
  • 漏洞管理。
  • 应急预案。

13.5 生成式 AI 合规要点

  1. 训练数据来源应合法。
  2. 涉及知识产权时不得侵权。
  3. 涉及个人信息应取得合法依据并保护隐私。
  4. 不得生成违法和有害信息。
  5. 应采取措施提高真实性、准确性和可靠性。
  6. 对图片、视频等生成内容按要求标识。
  7. 面向公众且具有舆论属性或社会动员能力的服务,关注备案和安全评估要求。
  8. 对未成年人用户应防止过度依赖或沉迷。

13.6 AI 伦理

原则含义
公平防止歧视和偏见
透明重要决策应可解释、可追溯
责任明确开发者、提供者、使用者责任
安全防止滥用、攻击和失控
隐私保护个人信息和敏感数据
可控人类可监督、可干预、可关闭
有益服务社会公共利益和人类福祉

13.7 常见安全风险

  • 数据投毒:攻击训练数据,影响模型行为。
  • 对抗样本:对输入加微小扰动误导模型。
  • 模型窃取:通过查询接口复制模型能力。
  • 成员推断:判断某条数据是否在训练集中。
  • 提示注入:诱导大模型忽略原指令或泄露信息。
  • 越权检索:RAG 系统检索到用户无权访问文档。
  • 幻觉误导:生成错误内容被当作事实。

14. 高频易混概念

概念 A概念 B区别
参数超参数参数训练得到;超参数训练前设置
验证集测试集验证集调参;测试集最终评估
归一化标准化归一化缩放到区间;标准化变为均值 0 方差 1
欠拟合过拟合欠拟合训练也差;过拟合训练好测试差
PrecisionRecallPrecision 防误报;Recall 防漏报
ROC-AUCPR-AUC类别极不平衡更看 PR-AUC
分类回归分类输出类别;回归输出连续值
聚类分类聚类无标签;分类有标签
特征选择特征提取选择原特征子集;构造新特征空间
BaggingBoostingBagging 并行降方差;Boosting 串行降偏差
随机森林GBDT随机森林多树并行投票;GBDT 逐步拟合残差
CNNRNNCNN 擅长空间局部特征;RNN 擅长序列
BERTGPTBERT 理解;GPT 生成
微调RAG微调改模型参数;RAG 不改参数而检索外部知识
LoRA全量微调LoRA 只训练低秩增量;全量微调更新所有参数
去标识化匿名化去标识化可复原;匿名化不可复原
数据漂移概念漂移输入分布变;输入和标签关系变
mAPAccuracymAP 用于检测;Accuracy 多用于分类

15. 模拟题

15.1 单项选择题

  1. 人工智能训练师的职业编码是: A. 4-04-05-05
    B. 4-07-02-04
    C. 2-02-10-09
    D. 6-31-01-03
    答案:A

  2. 下列最符合人工智能训练师工作内容的是: A. 只负责销售 AI 产品
    B. 只负责硬件维修
    C. 在 AI 产品使用过程中进行数据、参数、人机交互和性能测试等辅助作业
    D. 只负责财务报销
    答案:C

  3. 训练集的主要作用是: A. 最终评估模型泛化能力
    B. 学习模型参数
    C. 发布模型
    D. 替代业务规则
    答案:B

  4. 验证集的主要用途是: A. 调整超参数和选择模型
    B. 存储原始数据
    C. 替代训练集
    D. 加密模型
    答案:A

  5. 测试集被反复用于调参会导致: A. 数据增强
    B. 数据泄漏和评估偏乐观
    C. 模型压缩
    D. 匿名化
    答案:B

  6. Precision 的含义是: A. 真实正类中被找回的比例
    B. 预测为正的样本中真正为正的比例
    C. 所有样本中预测正确的比例
    D. 负类识别比例
    答案:B

  7. Recall 的含义是: A. 真实正类中被预测为正的比例
    B. 预测正类中真实为正的比例
    C. 预测负类中真实为负的比例
    D. 所有样本预测正确的比例
    答案:A

  8. 当类别极不平衡时,单独使用下列哪个指标最可能误导? A. Accuracy
    B. F1
    C. PR-AUC
    D. Recall
    答案:A

  9. 过拟合的典型表现是: A. 训练集和测试集都差
    B. 训练集好,测试集差
    C. 训练集差,测试集好
    D. 不需要验证集
    答案:B

  10. 下列哪项不能缓解过拟合? A. 增加数据
    B. 正则化
    C. Dropout
    D. 让测试集参与训练
    答案:D

  11. K-Means 属于: A. 监督学习
    B. 无监督学习
    C. 强化学习
    D. 规则系统
    答案:B

  12. 逻辑回归通常用于: A. 分类
    B. 图像压缩
    C. 数据库备份
    D. 操作系统调度
    答案:A

  13. PCA 的主要作用是: A. 加密
    B. 降维
    C. 提高显示器亮度
    D. 数据库事务提交
    答案:B

  14. 决策树容易出现的问题是: A. 无法解释
    B. 易过拟合
    C. 不能处理分类任务
    D. 必须使用 GPU
    答案:B

  15. 随机森林的核心思想是: A. 单棵树拟合所有数据
    B. 多棵决策树集成投票或平均
    C. 只做线性回归
    D. 只处理文本
    答案:B

  16. CNN 最擅长处理: A. 图像空间特征
    B. 数据库事务
    C. 路由协议
    D. 劳动合同
    答案:A

  17. RNN/LSTM 常用于: A. 序列数据
    B. 静态网页样式
    C. 硬盘分区
    D. 电源管理
    答案:A

  18. Transformer 的关键机制是: A. 自注意力
    B. 哈希索引
    C. RAID 阵列
    D. 排序算法
    答案:A

  19. BERT 更典型的结构是: A. Encoder-only
    B. Decoder-only
    C. 纯 CNN
    D. 纯 KNN
    答案:A

  20. GPT 更典型的训练方式是: A. 预测下一个 token
    B. 数据库索引重建
    C. 图像边缘检测
    D. 只做聚类
    答案:A

  21. LoRA 的主要优势是: A. 训练全部参数,显存需求最大
    B. 冻结主体模型,只训练低秩增量参数
    C. 不需要数据
    D. 只能用于数据库
    答案:B

  22. RAG 的主要作用是: A. 通过检索外部知识增强生成
    B. 删除所有训练数据
    C. 替代网络安全
    D. 只能用于图像压缩
    答案:A

  23. Diffusion 模型常见于: A. 图像生成
    B. 数据库事务隔离
    C. TCP 握手
    D. 文件压缩
    答案:A

  24. 下列属于目标检测评价指标的是: A. mAP
    B. MAE
    C. R²
    D. SQL
    答案:A

  25. IoU 表示: A. 预测框与真实框的交并比
    B. 模型训练轮数
    C. 数据库连接数
    D. 文本长度
    答案:A

  26. NMS 的作用是: A. 去除重复检测框
    B. 生成文本
    C. 加密数据
    D. 划分线程
    答案:A

  27. SQL 中用于分组统计的是: A. GROUP BY
    B. ORDER BY
    C. LIMIT
    D. DROP
    答案:A

  28. 数据库事务的 ACID 中 I 表示: A. Isolation
    B. Index
    C. Internet
    D. Input
    答案:A

  29. 下列哪项是脏读可能出现的隔离级别? A. Read Uncommitted
    B. Serializable
    C. Repeatable Read
    D. 只读模式
    答案:A

  30. HTTPS 相比 HTTP 主要增加了: A. 加密、认证和完整性保护
    B. 数据库索引
    C. 图片分割
    D. 模型训练
    答案:A

  31. TCP 的特点是: A. 面向连接、可靠传输
    B. 不保证顺序
    C. 不能拥塞控制
    D. 只用于图像
    答案:A

  32. 哈希表的平均查找复杂度通常是: A. O(1)
    B. O(n²)
    C. O(log log log n)
    D. O(n!)
    答案:A

  33. 栈的特点是: A. 后进先出
    B. 先进先出
    C. 随机散列
    D. 图遍历
    答案:A

  34. 队列的特点是: A. 先进先出
    B. 后进先出
    C. 只读
    D. 加密
    答案:A

  35. 数据清洗中,处理缺失值不包括: A. 均值填充
    B. 删除缺失样本
    C. 众数填充
    D. 随意填写任意值且不记录
    答案:D

  36. One-Hot 编码主要用于: A. 类别变量编码
    B. 磁盘分区
    C. 网络路由
    D. 模型删除
    答案:A

  37. 标注质量控制中,Kappa 常用于衡量: A. 标注一致性
    B. 训练速度
    C. GPU 温度
    D. 数据库大小
    答案:A

  38. 个人信息匿名化的关键是: A. 无法识别且不能复原
    B. 简单打码即可完全复原
    C. 只换文件名
    D. 只压缩文件
    答案:A

  39. 下列属于敏感个人信息的是: A. 生物识别信息
    B. 普通天气信息
    C. 公共节假日
    D. 匿名统计总量
    答案:A

  40. 数据采集最基本的合规原则是: A. 合法、正当、必要
    B. 越多越好
    C. 不用告知
    D. 不用保护
    答案:A

15.2 判断题

  1. 测试集可以在模型调参过程中反复使用。答案:错误
  2. 数据标注规范应包含标签定义、边界规则和示例。答案:正确
  3. 类别不平衡时 Accuracy 仍然总是最可靠指标。答案:错误
  4. Dropout 是一种缓解过拟合的方法。答案:正确
  5. BERT 通常更适合理解类任务,GPT 通常更适合生成类任务。答案:正确
  6. LoRA 需要训练大模型的全部参数。答案:错误
  7. RAG 可以在不重新训练大模型的情况下接入外部知识。答案:正确
  8. 匿名化和去标识化完全等同。答案:错误
  9. HTTPS 可以提供加密传输。答案:正确
  10. 随机森林属于集成学习方法。答案:正确
  11. IoU 可用于目标检测框质量评估。答案:正确
  12. NMS 用于保留所有重复框。答案:错误
  13. 强化学习通过奖励信号学习策略。答案:正确
  14. 无监督学习一定需要标签。答案:错误
  15. SQL 的 WHERE 通常在 GROUP BY 前过滤行。答案:正确
  16. 主键可以唯一标识一行记录。答案:正确
  17. 训练和推理阶段的数据预处理应保持一致。答案:正确
  18. 生成式 AI 输出流畅就一定真实。答案:错误
  19. 数据漂移指输入数据分布发生变化。答案:正确
  20. 概念漂移指特征与标签之间关系发生变化。答案:正确

15.3 多项选择题

  1. 数据质量维度包括: A. 准确性
    B. 完整性
    C. 一致性
    D. 随意性
    答案:ABC

  2. 下列属于数据清洗任务的是: A. 缺失值处理
    B. 重复值处理
    C. 异常值处理
    D. 数据库断电
    答案:ABC

  3. 下列属于监督学习任务的是: A. 分类
    B. 回归
    C. 聚类
    D. 有标签预测
    答案:ABD

  4. 缓解过拟合的方法包括: A. 正则化
    B. 数据增强
    C. Dropout
    D. 泄露测试集标签
    答案:ABC

  5. 下列属于深度学习框架或工具的是: A. PyTorch
    B. TensorFlow
    C. Keras
    D. HTTP
    答案:ABC

  6. 生成式 AI 的应用领域包括: A. 文本生成
    B. 图像生成
    C. 代码生成
    D. 音频生成
    答案:ABCD

  7. RAG 系统通常包括: A. 文档切分
    B. 向量化
    C. 相似度检索
    D. 生成回答
    答案:ABCD

  8. 参数高效微调方法包括: A. LoRA
    B. Adapter
    C. Prefix Tuning
    D. 文件压缩
    答案:ABC

  9. 目标检测任务中常见元素包括: A. 边界框
    B. 类别标签
    C. 置信度
    D. 事务隔离级别
    答案:ABC

  10. 模型部署前应检查: A. 输入输出格式
    B. 依赖版本
    C. 监控和回滚机制
    D. 是否删除所有日志
    答案:ABC

  11. 个人信息保护中常见安全措施包括: A. 加密
    B. 脱敏
    C. 最小权限
    D. 随意共享
    答案:ABC

  12. AI 伦理原则包括: A. 公平
    B. 透明
    C. 安全
    D. 不负责任
    答案:ABC

  13. 数据库事务 ACID 包括: A. 原子性
    B. 一致性
    C. 隔离性
    D. 持久性
    答案:ABCD

  14. 操作系统管理内容包括: A. 进程管理
    B. 内存管理
    C. 文件系统
    D. 输入输出管理
    答案:ABCD

  15. 网络安全 CIA 三要素包括: A. 机密性
    B. 完整性
    C. 可用性
    D. 随机性
    答案:ABC

15.4 易错题解析

  1. Precision 与 Recall:Precision 看“预测为正的是否靠谱”,Recall 看“真实正类有没有被找全”。风控误伤正常用户时关注 Precision;疾病筛查漏掉患者时关注 Recall。
  2. Accuracy 的陷阱:如果 1000 个样本里只有 10 个正类,模型全预测负类也有 99% Accuracy,但正类完全没找出,所以类别不平衡时要看 F1、Recall、PR-AUC。
  3. 过拟合与欠拟合:过拟合是“背熟训练集,不会做新题”;欠拟合是“训练题也没学会”。前者降复杂度或增强泛化,后者提高表达能力。
  4. 验证集与测试集:验证集可以参与模型选择,测试集只在最终评估用。测试集反复使用,本质上会把测试集信息泄露给模型选择过程。
  5. LoRA 与全量微调:LoRA 不直接更新大模型主体权重,而是训练低秩增量矩阵,资源成本更低;全量微调更新全部或大部分参数。
  6. RAG 与微调:RAG 不改变模型参数,靠检索外部知识增强回答;微调通过训练改变模型行为。知识更新频繁、需要引用来源时优先想到 RAG。
  7. BERT 与 GPT:BERT 双向理解,适合分类、匹配、实体识别;GPT 自回归生成,适合续写、对话、代码生成。
  8. 匿名化与去标识化:匿名化不可识别且不可复原;去标识化在额外信息帮助下可能复原,所以仍需按个人信息保护思路管理。
  9. IoU 与 mAP:IoU 衡量单个预测框和真实框重叠程度;mAP 是目标检测整体指标,综合多个类别的 AP。
  10. 数据漂移与概念漂移:数据漂移是输入分布变了;概念漂移是输入和标签之间的关系变了。后者通常更危险,需要重新评估模型规律。

16. 最后 48 小时复习计划

第一天:补齐知识框架

上午:

  1. 背第 1-2 章,明确考试范围和速背表。
  2. 过第 6 章数据采集、清洗、标注、质量管理。
  3. 把“数据质量维度、数据泄漏、标注流程”背熟。

下午:

  1. 过第 8 章机器学习。
  2. 手写混淆矩阵和 Precision、Recall、F1 公式 3 遍。
  3. 总结过拟合、欠拟合、类别不平衡、交叉验证。

晚上:

  1. 过第 9-10 章深度学习和生成式 AI。
  2. 重点背 BERT/GPT 区别、LoRA、RAG、RLHF、Agent。
  3. 做模拟题单选 1-40 和判断 1-20。

第二天:押高频与查漏

上午:

  1. 过第 11 章目标检测与自动驾驶。
  2. 背 IoU、mAP、NMS、FPS。
  3. 过第 12 章模型评估、部署、运维。

下午:

  1. 过第 13 章安全法规伦理。
  2. 背个人信息、敏感个人信息、匿名化/去标识化区别。
  3. 做多选题 1-15,重点复盘错题。

考前 30 分钟:

  1. 看第 2 章一页速背。
  2. 看第 14 章易混概念。
  3. 只复习错题,不再扩展新知识。

17. 参考依据

  1. 《人工智能训练师国家职业技能标准(2021 年版)》,技能人才评价工作网:
    https://www.osta.org.cn/api/sys/downloadFile/decrypt?fileName=4eNsZIOv3WFNDfbnldJHeA%2F2024%2F4%2F29%2F6761815658ea468cbc0caa8974357703.pdf
  2. 《第八届全国职工职业技能大赛人工智能训练师赛项技术文件》,中国职工技术协会/全国职工数字化应用技术技能大赛相关文件:
    https://ldjj.acftu.org/wjytzgg/202406/P020240604573052992218.pdf
  3. 《生成式人工智能服务管理暂行办法》,中国网信网:
    https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
  4. 《网络数据安全管理条例》(中华人民共和国国务院令第 790 号),中国政府网转载页面:
    https://www.mee.gov.cn/zcwj/gwywj/202410/t20241003_1087417.shtml
  5. 《人工智能生成合成内容标识办法》,中国网信网:
    https://www.cac.gov.cn/2025-03/14/c_1743654684782215.htm
  6. GB 45438-2025《网络安全技术 人工智能生成合成内容标识方法》,国家标准全文公开系统:
    https://openstd.samr.gov.cn/bzgk/std/newGbInfo?hcno=F32EA2A561F1886CD8D606513512D547