第 11 章数据安全、法规伦理与职业素养

学习目标

掌握人工智能训练相关的数据安全、个人信息保护、网络安全、知识产权、生成式 AI 合规和职业伦理。此章多出判断题和多选题，容易凭常识拿分，也容易因概念混淆失分。

考点地图

高频：合法正当必要、最小必要、个人信息、敏感个人信息、匿名化/去标识化/脱敏、数据分类分级、访问控制、知识产权、生成式 AI 标识、AI 伦理。

1. 为什么 AI 考法规伦理

AI 训练离不开数据，而数据可能包含个人信息、商业秘密、版权内容和敏感信息。模型输出也可能产生歧视、侵权、虚假信息或安全风险。

人工智能训练师必须知道：

哪些数据能用。
如何保护个人信息。
如何避免越权和泄露。
如何处理生成式 AI 风险。
如何遵守职业规范。

2. 数据处理基本原则

常见原则：

合法：有合法依据。
正当：目的合理，不欺骗、不滥用。
必要：不超范围收集。
目的明确：说明为什么处理数据。
最小够用：够用即可，不贪多。
公开透明：必要时告知处理规则。
安全保障：采取技术和管理措施。
责任落实：明确责任主体。

口诀：合法正当必要，目的明确，最小够用，安全可追溯。

3. 个人信息

个人信息是与已识别或可识别自然人有关的信息，不包括匿名化处理后的信息。

例子：

姓名。
手机号。
身份证号。
人脸图像。
定位轨迹。
账号 ID。
设备标识。

4. 敏感个人信息

敏感个人信息一旦泄露或非法使用，容易导致人格尊严受侵害或人身、财产安全受危害。

常见类型：

生物识别。
宗教信仰。
特定身份。
医疗健康。
金融账户。
行踪轨迹。
不满十四周岁未成年人个人信息。

处理敏感个人信息通常要求更严格的保护措施和更明确的必要性。

5. 匿名化、去标识化、脱敏、加密

概念	含义	是否可复原
匿名化	无法识别个人且不能复原	不可复原
去标识化	不借助额外信息无法识别	可能复原
脱敏	遮盖、替换、泛化敏感字段	视方法而定
加密	用密钥保护内容	可解密复原

考试重点：匿名化不等于去标识化。匿名化后的信息通常不再属于个人信息；去标识化仍要谨慎保护。

6. 数据分类分级

数据分类分级是根据数据重要性、敏感程度、泄露影响进行管理。

常见分类：

一般数据。
个人信息。
敏感个人信息。
重要数据。
核心数据。

级别越高，保护要求越高。

7. 常见安全措施

技术措施：

加密存储和传输。
访问控制。
身份认证。
最小权限。
数据脱敏。
日志审计。
备份恢复。
漏洞扫描。
防火墙和入侵检测。

管理措施：

数据权限审批。
安全培训。
保密协议。
应急预案。
定期审计。
数据销毁制度。

8. 网络安全基础

网络安全关注系统和网络运行安全。

常见风险：

恶意软件。
钓鱼攻击。
弱口令。
越权访问。
SQL 注入。
XSS。
DDoS。
数据泄露。

AI 系统还要关注：提示注入、数据投毒、模型窃取、对抗样本。

9. 知识产权

AI 训练和生成内容可能涉及：

著作权。
专利权。
商标权。
商业秘密。
数据库权益。

注意：

未授权使用受版权保护数据可能侵权。
生成内容可能与已有作品相似，要审查风险。
公司内部数据、模型和标注规范可能属于商业秘密。

10. 生成式 AI 合规要点

常见要求：

训练数据来源合法。
不侵犯知识产权。
保护个人信息。
防止生成违法有害内容。
提高真实性、准确性、可靠性。
按要求对生成合成内容进行标识。
对未成年人使用加强保护。
建立投诉、举报和处置机制。

11. 生成合成内容标识

生成式 AI 生成的文本、图片、音频、视频、虚拟场景等，可能需要显式或隐式标识。

显式标识：用户能直接看到或听到，如水印、文字提示。
隐式标识：嵌入文件元数据或技术标记，不一定直接可见。

目的：防止深度伪造和误导传播。

12. AI 伦理

主要原则：

原则	含义
公平	避免歧视和偏见
透明	重要过程可解释、可追溯
责任	明确责任主体
安全	防止滥用和攻击
隐私	保护个人信息
可控	人类可监督、可干预
有益	服务社会公共利益

13. AI 安全风险

风险	含义
数据投毒	污染训练数据，影响模型行为
对抗样本	微小扰动误导模型
模型窃取	通过接口复制模型能力
成员推断	判断某样本是否在训练集中
提示注入	诱导大模型违反原指令
越权检索	RAG 检索到无权访问内容
幻觉	生成不真实内容

14. 职业素养

人工智能训练师应：

按规范处理数据。
如实记录测试结果。
不篡改数据或指标。
不泄露赛题、数据和模型。
遵守考场纪律和操作规程。
发现安全风险及时报告。
对疑难标注按流程仲裁。
保持学习，跟进新技术和新法规。

易错点

易错点	正确理解
公开网页数据一定能随便训练	错。仍可能涉及版权、个人信息和平台规则
去标识化等于匿名化	错。去标识化可能复原
加密后就不需要权限管理	错。仍需最小权限和审计
生成式 AI 输出不用标识	错。按场景可能需要显式或隐式标识
职业道德只影响主观评价	错。理论题也会考

例题

例题 1

下列属于敏感个人信息的是：

A. 生物识别信息
B. 医疗健康信息
C. 金融账户信息
D. 行踪轨迹

答案：ABCD。

例题 2

匿名化与去标识化的主要区别是：

A. 匿名化不可识别且不能复原，去标识化可能复原
B. 二者完全相同
C. 去标识化一定不是个人信息
D. 匿名化就是改文件名

答案：A。

例题 3

下列属于 AI 伦理原则的是：

A. 公平
B. 透明
C. 安全
D. 不负责任

答案：ABC。

自测清单

能解释个人信息和敏感个人信息。
能区分匿名化、去标识化、脱敏、加密。
能说出数据安全常见措施。
能列出生成式 AI 合规要点。
能说明 AI 伦理原则。

第 11 章 数据安全、法规伦理与职业素养 ​

学习目标 ​

考点地图 ​

1. 为什么 AI 考法规伦理 ​

2. 数据处理基本原则 ​

3. 个人信息 ​

4. 敏感个人信息 ​

5. 匿名化、去标识化、脱敏、加密 ​

6. 数据分类分级 ​

7. 常见安全措施 ​

8. 网络安全基础 ​

9. 知识产权 ​

10. 生成式 AI 合规要点 ​

11. 生成合成内容标识 ​

12. AI 伦理 ​

13. AI 安全风险 ​

14. 职业素养 ​

易错点 ​

例题 ​

例题 1 ​

例题 2 ​

例题 3 ​

自测清单 ​