深色模式
第 11 章 数据安全、法规伦理与职业素养
学习目标
掌握人工智能训练相关的数据安全、个人信息保护、网络安全、知识产权、生成式 AI 合规和职业伦理。此章多出判断题和多选题,容易凭常识拿分,也容易因概念混淆失分。
考点地图
高频:合法正当必要、最小必要、个人信息、敏感个人信息、匿名化/去标识化/脱敏、数据分类分级、访问控制、知识产权、生成式 AI 标识、AI 伦理。
1. 为什么 AI 考法规伦理
AI 训练离不开数据,而数据可能包含个人信息、商业秘密、版权内容和敏感信息。模型输出也可能产生歧视、侵权、虚假信息或安全风险。
人工智能训练师必须知道:
- 哪些数据能用。
- 如何保护个人信息。
- 如何避免越权和泄露。
- 如何处理生成式 AI 风险。
- 如何遵守职业规范。
2. 数据处理基本原则
常见原则:
- 合法:有合法依据。
- 正当:目的合理,不欺骗、不滥用。
- 必要:不超范围收集。
- 目的明确:说明为什么处理数据。
- 最小够用:够用即可,不贪多。
- 公开透明:必要时告知处理规则。
- 安全保障:采取技术和管理措施。
- 责任落实:明确责任主体。
口诀:合法正当必要,目的明确,最小够用,安全可追溯。
3. 个人信息
个人信息是与已识别或可识别自然人有关的信息,不包括匿名化处理后的信息。
例子:
- 姓名。
- 手机号。
- 身份证号。
- 人脸图像。
- 定位轨迹。
- 账号 ID。
- 设备标识。
4. 敏感个人信息
敏感个人信息一旦泄露或非法使用,容易导致人格尊严受侵害或人身、财产安全受危害。
常见类型:
- 生物识别。
- 宗教信仰。
- 特定身份。
- 医疗健康。
- 金融账户。
- 行踪轨迹。
- 不满十四周岁未成年人个人信息。
处理敏感个人信息通常要求更严格的保护措施和更明确的必要性。
5. 匿名化、去标识化、脱敏、加密
| 概念 | 含义 | 是否可复原 |
|---|---|---|
| 匿名化 | 无法识别个人且不能复原 | 不可复原 |
| 去标识化 | 不借助额外信息无法识别 | 可能复原 |
| 脱敏 | 遮盖、替换、泛化敏感字段 | 视方法而定 |
| 加密 | 用密钥保护内容 | 可解密复原 |
考试重点:匿名化不等于去标识化。匿名化后的信息通常不再属于个人信息;去标识化仍要谨慎保护。
6. 数据分类分级
数据分类分级是根据数据重要性、敏感程度、泄露影响进行管理。
常见分类:
- 一般数据。
- 个人信息。
- 敏感个人信息。
- 重要数据。
- 核心数据。
级别越高,保护要求越高。
7. 常见安全措施
技术措施:
- 加密存储和传输。
- 访问控制。
- 身份认证。
- 最小权限。
- 数据脱敏。
- 日志审计。
- 备份恢复。
- 漏洞扫描。
- 防火墙和入侵检测。
管理措施:
- 数据权限审批。
- 安全培训。
- 保密协议。
- 应急预案。
- 定期审计。
- 数据销毁制度。
8. 网络安全基础
网络安全关注系统和网络运行安全。
常见风险:
- 恶意软件。
- 钓鱼攻击。
- 弱口令。
- 越权访问。
- SQL 注入。
- XSS。
- DDoS。
- 数据泄露。
AI 系统还要关注:提示注入、数据投毒、模型窃取、对抗样本。
9. 知识产权
AI 训练和生成内容可能涉及:
- 著作权。
- 专利权。
- 商标权。
- 商业秘密。
- 数据库权益。
注意:
- 未授权使用受版权保护数据可能侵权。
- 生成内容可能与已有作品相似,要审查风险。
- 公司内部数据、模型和标注规范可能属于商业秘密。
10. 生成式 AI 合规要点
常见要求:
- 训练数据来源合法。
- 不侵犯知识产权。
- 保护个人信息。
- 防止生成违法有害内容。
- 提高真实性、准确性、可靠性。
- 按要求对生成合成内容进行标识。
- 对未成年人使用加强保护。
- 建立投诉、举报和处置机制。
11. 生成合成内容标识
生成式 AI 生成的文本、图片、音频、视频、虚拟场景等,可能需要显式或隐式标识。
- 显式标识:用户能直接看到或听到,如水印、文字提示。
- 隐式标识:嵌入文件元数据或技术标记,不一定直接可见。
目的:防止深度伪造和误导传播。
12. AI 伦理
主要原则:
| 原则 | 含义 |
|---|---|
| 公平 | 避免歧视和偏见 |
| 透明 | 重要过程可解释、可追溯 |
| 责任 | 明确责任主体 |
| 安全 | 防止滥用和攻击 |
| 隐私 | 保护个人信息 |
| 可控 | 人类可监督、可干预 |
| 有益 | 服务社会公共利益 |
13. AI 安全风险
| 风险 | 含义 |
|---|---|
| 数据投毒 | 污染训练数据,影响模型行为 |
| 对抗样本 | 微小扰动误导模型 |
| 模型窃取 | 通过接口复制模型能力 |
| 成员推断 | 判断某样本是否在训练集中 |
| 提示注入 | 诱导大模型违反原指令 |
| 越权检索 | RAG 检索到无权访问内容 |
| 幻觉 | 生成不真实内容 |
14. 职业素养
人工智能训练师应:
- 按规范处理数据。
- 如实记录测试结果。
- 不篡改数据或指标。
- 不泄露赛题、数据和模型。
- 遵守考场纪律和操作规程。
- 发现安全风险及时报告。
- 对疑难标注按流程仲裁。
- 保持学习,跟进新技术和新法规。
易错点
| 易错点 | 正确理解 |
|---|---|
| 公开网页数据一定能随便训练 | 错。仍可能涉及版权、个人信息和平台规则 |
| 去标识化等于匿名化 | 错。去标识化可能复原 |
| 加密后就不需要权限管理 | 错。仍需最小权限和审计 |
| 生成式 AI 输出不用标识 | 错。按场景可能需要显式或隐式标识 |
| 职业道德只影响主观评价 | 错。理论题也会考 |
例题
例题 1
下列属于敏感个人信息的是:
A. 生物识别信息
B. 医疗健康信息
C. 金融账户信息
D. 行踪轨迹
答案:ABCD。
例题 2
匿名化与去标识化的主要区别是:
A. 匿名化不可识别且不能复原,去标识化可能复原
B. 二者完全相同
C. 去标识化一定不是个人信息
D. 匿名化就是改文件名
答案:A。
例题 3
下列属于 AI 伦理原则的是:
A. 公平
B. 透明
C. 安全
D. 不负责任
答案:ABC。
自测清单
- 能解释个人信息和敏感个人信息。
- 能区分匿名化、去标识化、脱敏、加密。
- 能说出数据安全常见措施。
- 能列出生成式 AI 合规要点。
- 能说明 AI 伦理原则。