Skip to content

第 11 章 数据安全、法规伦理与职业素养

学习目标

掌握人工智能训练相关的数据安全、个人信息保护、网络安全、知识产权、生成式 AI 合规和职业伦理。此章多出判断题和多选题,容易凭常识拿分,也容易因概念混淆失分。

考点地图

高频:合法正当必要、最小必要、个人信息、敏感个人信息、匿名化/去标识化/脱敏、数据分类分级、访问控制、知识产权、生成式 AI 标识、AI 伦理。

1. 为什么 AI 考法规伦理

AI 训练离不开数据,而数据可能包含个人信息、商业秘密、版权内容和敏感信息。模型输出也可能产生歧视、侵权、虚假信息或安全风险。

人工智能训练师必须知道:

  • 哪些数据能用。
  • 如何保护个人信息。
  • 如何避免越权和泄露。
  • 如何处理生成式 AI 风险。
  • 如何遵守职业规范。

2. 数据处理基本原则

常见原则:

  1. 合法:有合法依据。
  2. 正当:目的合理,不欺骗、不滥用。
  3. 必要:不超范围收集。
  4. 目的明确:说明为什么处理数据。
  5. 最小够用:够用即可,不贪多。
  6. 公开透明:必要时告知处理规则。
  7. 安全保障:采取技术和管理措施。
  8. 责任落实:明确责任主体。

口诀:合法正当必要,目的明确,最小够用,安全可追溯。

3. 个人信息

个人信息是与已识别或可识别自然人有关的信息,不包括匿名化处理后的信息。

例子:

  • 姓名。
  • 手机号。
  • 身份证号。
  • 人脸图像。
  • 定位轨迹。
  • 账号 ID。
  • 设备标识。

4. 敏感个人信息

敏感个人信息一旦泄露或非法使用,容易导致人格尊严受侵害或人身、财产安全受危害。

常见类型:

  • 生物识别。
  • 宗教信仰。
  • 特定身份。
  • 医疗健康。
  • 金融账户。
  • 行踪轨迹。
  • 不满十四周岁未成年人个人信息。

处理敏感个人信息通常要求更严格的保护措施和更明确的必要性。

5. 匿名化、去标识化、脱敏、加密

概念含义是否可复原
匿名化无法识别个人且不能复原不可复原
去标识化不借助额外信息无法识别可能复原
脱敏遮盖、替换、泛化敏感字段视方法而定
加密用密钥保护内容可解密复原

考试重点:匿名化不等于去标识化。匿名化后的信息通常不再属于个人信息;去标识化仍要谨慎保护。

6. 数据分类分级

数据分类分级是根据数据重要性、敏感程度、泄露影响进行管理。

常见分类:

  • 一般数据。
  • 个人信息。
  • 敏感个人信息。
  • 重要数据。
  • 核心数据。

级别越高,保护要求越高。

7. 常见安全措施

技术措施:

  • 加密存储和传输。
  • 访问控制。
  • 身份认证。
  • 最小权限。
  • 数据脱敏。
  • 日志审计。
  • 备份恢复。
  • 漏洞扫描。
  • 防火墙和入侵检测。

管理措施:

  • 数据权限审批。
  • 安全培训。
  • 保密协议。
  • 应急预案。
  • 定期审计。
  • 数据销毁制度。

8. 网络安全基础

网络安全关注系统和网络运行安全。

常见风险:

  • 恶意软件。
  • 钓鱼攻击。
  • 弱口令。
  • 越权访问。
  • SQL 注入。
  • XSS。
  • DDoS。
  • 数据泄露。

AI 系统还要关注:提示注入、数据投毒、模型窃取、对抗样本。

9. 知识产权

AI 训练和生成内容可能涉及:

  • 著作权。
  • 专利权。
  • 商标权。
  • 商业秘密。
  • 数据库权益。

注意:

  • 未授权使用受版权保护数据可能侵权。
  • 生成内容可能与已有作品相似,要审查风险。
  • 公司内部数据、模型和标注规范可能属于商业秘密。

10. 生成式 AI 合规要点

常见要求:

  1. 训练数据来源合法。
  2. 不侵犯知识产权。
  3. 保护个人信息。
  4. 防止生成违法有害内容。
  5. 提高真实性、准确性、可靠性。
  6. 按要求对生成合成内容进行标识。
  7. 对未成年人使用加强保护。
  8. 建立投诉、举报和处置机制。

11. 生成合成内容标识

生成式 AI 生成的文本、图片、音频、视频、虚拟场景等,可能需要显式或隐式标识。

  • 显式标识:用户能直接看到或听到,如水印、文字提示。
  • 隐式标识:嵌入文件元数据或技术标记,不一定直接可见。

目的:防止深度伪造和误导传播。

12. AI 伦理

主要原则:

原则含义
公平避免歧视和偏见
透明重要过程可解释、可追溯
责任明确责任主体
安全防止滥用和攻击
隐私保护个人信息
可控人类可监督、可干预
有益服务社会公共利益

13. AI 安全风险

风险含义
数据投毒污染训练数据,影响模型行为
对抗样本微小扰动误导模型
模型窃取通过接口复制模型能力
成员推断判断某样本是否在训练集中
提示注入诱导大模型违反原指令
越权检索RAG 检索到无权访问内容
幻觉生成不真实内容

14. 职业素养

人工智能训练师应:

  • 按规范处理数据。
  • 如实记录测试结果。
  • 不篡改数据或指标。
  • 不泄露赛题、数据和模型。
  • 遵守考场纪律和操作规程。
  • 发现安全风险及时报告。
  • 对疑难标注按流程仲裁。
  • 保持学习,跟进新技术和新法规。

易错点

易错点正确理解
公开网页数据一定能随便训练错。仍可能涉及版权、个人信息和平台规则
去标识化等于匿名化错。去标识化可能复原
加密后就不需要权限管理错。仍需最小权限和审计
生成式 AI 输出不用标识错。按场景可能需要显式或隐式标识
职业道德只影响主观评价错。理论题也会考

例题

例题 1

下列属于敏感个人信息的是:

A. 生物识别信息
B. 医疗健康信息
C. 金融账户信息
D. 行踪轨迹

答案:ABCD。

例题 2

匿名化与去标识化的主要区别是:

A. 匿名化不可识别且不能复原,去标识化可能复原
B. 二者完全相同
C. 去标识化一定不是个人信息
D. 匿名化就是改文件名

答案:A。

例题 3

下列属于 AI 伦理原则的是:

A. 公平
B. 透明
C. 安全
D. 不负责任

答案:ABC。

自测清单

  • 能解释个人信息和敏感个人信息。
  • 能区分匿名化、去标识化、脱敏、加密。
  • 能说出数据安全常见措施。
  • 能列出生成式 AI 合规要点。
  • 能说明 AI 伦理原则。