跳到主要内容

AI安全风险与防护策略

目录

风险类型总览
提示注入与越权调用
数据泄露与隐私风险
幻觉与事实错误风险
内容安全与合规风险
分层防护策略
落地检查清单

风险类型总览

在 AI 应用中，风险通常来自输入、模型、工具、输出和流程五个层面。安全方案必须覆盖全链路，而不是只做单点过滤。

提示注入与越权调用

典型表现：用户输入诱导模型忽略系统约束，调用高权限工具。
防护要点：
- 固化系统指令优先级，拒绝覆盖核心安全规则。
- 工具调用参数做 schema 校验和权限校验。
- 高风险操作增加人工审批与二次确认。

数据泄露与隐私风险

典型表现：模型输出敏感信息，或日志中记录了可识别个人数据。
防护要点：
- 输入输出脱敏，避免将原始敏感数据直接暴露给模型。
- 分级存储日志，设置最小保留周期与访问控制。
- 训练与微调数据集建立来源追踪和授权记录。

幻觉与事实错误风险

典型表现：模型给出看似合理但错误的结论，影响业务决策。
防护要点：
- 对关键任务启用检索增强和引用来源输出。
- 对高风险结论增加规则校验或二模型复核。
- 建立“高风险答案降级策略”，必要时转人工。

内容安全与合规风险

典型表现：输出违规、歧视、侵权或不当建议内容。
防护要点：
- 引入内容审核策略（输入审核 + 输出审核）。
- 建立高风险主题黑白名单与拒答模板。
- 维护可更新策略库，定期复盘误拦截和漏拦截。

分层防护策略

入口层：输入清洗、身份校验、速率限制。
执行层：工具白名单、权限分级、参数校验。
输出层：内容审核、事实检查、敏感信息检测。
治理层：日志审计、告警响应、持续评测与复盘。

落地检查清单

是否定义了高风险操作列表与审批机制。
是否具备任务级审计日志和回放能力。
是否针对核心场景构建了安全测试样本集。
是否建立了事故响应流程和责任分工。

目录
风险类型总览
提示注入与越权调用
数据泄露与隐私风险
幻觉与事实错误风险
内容安全与合规风险
分层防护策略
落地检查清单