跳到主要内容

AI安全风险与防护策略

目录

风险类型总览

在 AI 应用中,风险通常来自输入、模型、工具、输出和流程五个层面。安全方案必须覆盖全链路,而不是只做单点过滤。

提示注入与越权调用

  • 典型表现:用户输入诱导模型忽略系统约束,调用高权限工具。
  • 防护要点:
    • 固化系统指令优先级,拒绝覆盖核心安全规则。
    • 工具调用参数做 schema 校验和权限校验。
    • 高风险操作增加人工审批与二次确认。

数据泄露与隐私风险

  • 典型表现:模型输出敏感信息,或日志中记录了可识别个人数据。
  • 防护要点:
    • 输入输出脱敏,避免将原始敏感数据直接暴露给模型。
    • 分级存储日志,设置最小保留周期与访问控制。
    • 训练与微调数据集建立来源追踪和授权记录。

幻觉与事实错误风险

  • 典型表现:模型给出看似合理但错误的结论,影响业务决策。
  • 防护要点:
    • 对关键任务启用检索增强和引用来源输出。
    • 对高风险结论增加规则校验或二模型复核。
    • 建立“高风险答案降级策略”,必要时转人工。

内容安全与合规风险

  • 典型表现:输出违规、歧视、侵权或不当建议内容。
  • 防护要点:
    • 引入内容审核策略(输入审核 + 输出审核)。
    • 建立高风险主题黑白名单与拒答模板。
    • 维护可更新策略库,定期复盘误拦截和漏拦截。

分层防护策略

  1. 入口层:输入清洗、身份校验、速率限制。
  2. 执行层:工具白名单、权限分级、参数校验。
  3. 输出层:内容审核、事实检查、敏感信息检测。
  4. 治理层:日志审计、告警响应、持续评测与复盘。

落地检查清单

  • 是否定义了高风险操作列表与审批机制。
  • 是否具备任务级审计日志和回放能力。
  • 是否针对核心场景构建了安全测试样本集。
  • 是否建立了事故响应流程和责任分工。