AI安全风险与防护策略
目录
风险类型总览
在 AI 应用中,风险通常来自输入、模型、工具、输出和流程五个层面。安全方案必须覆盖全链路,而不是只做单点过滤。
提示注入与越权调用
- 典型表现:用户输入诱导模型忽略系统约束,调用高权限工具。
- 防护要点:
- 固化系统指令优先级,拒绝覆盖核心安全规则。
- 工具调用参数做 schema 校验和权限校验。
- 高风险操作增加人工审批与二次确认。
数据泄露与隐私风险
- 典型表现:模型输出敏感信息,或日志中记录了可识别个人数据。
- 防护要点:
- 输入输出脱敏,避免将原始敏感数据直接暴露给模型。
- 分级存储日志,设置最小保留周期与访问控制。
- 训练与微调数据集建立来源追踪和授权记录。
幻觉与事实错误风险
- 典型表现:模型给出看似合理但错误的结论,影响业务决策。
- 防护要点:
- 对关键任务启用检索增强和引用来源输出。
- 对高风险结论增加规则校验或二模型复核。
- 建立“高风险答案降级策略”,必要时转人工。
内容安全与合规风险
- 典型表现:输出违规、歧视、侵权或不当建议内容。
- 防护要点:
- 引入内容审核策略(输入审核 + 输出审核)。
- 建立高风险主题黑白名单与拒答模板。
- 维护可更新策略库,定期复盘误拦截和漏拦截。
分层防护策略
- 入口层:输入清洗、身份校验、速率限制。
- 执行层:工具白名单、权限分级、参数校验。
- 输出层:内容审核、事实检查、敏感信息检测。
- 治理层:日志审计、告警响应、持续评测与复盘。
落地检查清单
- 是否定义了高风险操作列表与审批机制。
- 是否具备任务级审计日志和回放能力。
- 是否针对核心场景构建了安全测试样本集。
- 是否建立了事故响应流程和责任分工。