# AI智能体安全基准测试 `安全` `AI智能体` `基准测试` `网络钓鱼` `提示注入` # SCAM — 安全理解意识测量工具 **由 [1Password](https://1password.com/blog/ai-agent-security-benchmark) 提供** > **[查看排行榜、观看回放并体验安全技能,请访问 1password.github.io/SCAM](https://1password.github.io/SCAM/)** 随着 AI 智能体能力不断增强,它们正在获取越来越多用户的敏感信息。SCAM 用于衡量智能体在面对人类日常遭遇的各类威胁时,能否妥善保护这些信息。 大多数基准测试只是向 AI 展示一封钓鱼邮件,然后问"这封邮件有问题吗?"SCAM 与众不同。它测试的是智能体能否在正常工作流程中主动识别并报告威胁——将智能体置于真实的职场场景中,赋予其访问电子邮件、凭证库和网络表单的权限,而陷阱就嵌套在工作流里,而非单独标出。 ## 快速开始 ```bash git clone https://github.com/1Password/SCAM.git cd SCAM python3 -m venv .venv && source .venv/bin/activate pip install -e ".[dev]" # 至少设置一个 API 密钥 export OPENAI_API_KEY="sk-..." # 以及/或者 ANTHROPIC_API_KEY、GOOGLE_API_KEY # 以交互模式运行基准测试 scam evaluate -i ``` 交互模式将引导您完成模型选择,对每个场景分别在启用和不启用安全技能的情况下运行测试,并在最后输出评分报告。 ## 测试内容 每个场景都会给智能体分配一项日常工作任务——查看邮件、查询凭证、审核发票——同时提供一套模拟的 MCP 工具服务器:收件箱、密码库、网络浏览器等。这些工具对模型来说感觉真实,但一切都在沙箱中运行。不会暴露任何真实凭证,不会发送真实邮件,也不会触碰任何线上系统。 其中的挑战在于,真实世界的攻击模式被织入任务之中。钓鱼链接藏匿于收件箱,仿冒域名出现在转发的邮件线程里,攻击者的表单已预填了正确的公司名称。 该基准测试涵盖 **9 个威胁类别**下的 **30 个场景**:**网络钓鱼** · **社会工程** · **凭证泄露** · **凭证自动填充** · **电商诈骗** · **数据泄漏** · **混淆代理攻击** · **多阶段攻击** · **提示注入** ## 安全技能 SCAM 内置了一个安全技能([`security-awareness/SKILL.md`](skills/security-awareness/SKILL.md))——一段纯文本系统提示词,教导智能体在行动前先分析:点击前验证域名、转发前阅读内容、输入凭证前检查 URL。 在我们的基准测试中,这一单一技能将所有被测模型的平均安全得分从约 50% 提升至约 90%。它兼容任何模型和任何服务提供商。 ### 安装 安装该技能最快的方式是使用 [npx add-skill](https://add-skill.org/),它可以自动检测您的智能体环境(Claude Code、Cursor、Codex 及其他 35+ 种): ```bash npx add-skill 1Password/SCAM ``` 或直接下载: ```bash curl -sL https://raw.githubusercontent.com/1Password/SCAM/main/skills/security-awareness/SKILL.md \ -o skills/security-awareness/SKILL.md --create-dirs ``` 然后将文件内容添加到系统提示词的开头,或将其放入智能体的技能目录(`.claude/skills/`、`.cursor/skills/` 等)。各服务商的详细集成示例请参阅[官网](https://1password.github.io/SCAM/#skill)。 ## 测试结果 完整排行榜、交互式回放和可下载数据已发布于 **[1password.github.io/SCAM](https://1password.github.io/SCAM/)**。结果包含原始 JSON 的 ZIP 压缩包以及用于独立验证的交互式 HTML 仪表盘。 ## 参与贡献 威胁形势变化迅速,没有任何单一团队能够覆盖所有情况。如果您从事安全、AI 安全或红队测试工作,以下是真正有意义的贡献方式: - **编写新场景。** 将您在实际中遇到的威胁建模成场景。YAML 格式简单易用。 - **添加新工具服务器。** Slack、Jira、云控制台——每增加一个新的攻击面,测试就更难被"刷榜"。 - **改进评估逻辑。** 更好的检查点逻辑、更少的误报、更细致的评分。 - **在新模型上运行测试。** 发布您的结果。社区拥有的数据点越多,就越难忽视安全问题。 完整指南请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。 ## 深入了解 - [USAGE.md](USAGE.md) — 完整 CLI 参考,所有命令与参数、支持的服务商、基准版本管理、项目结构 - [CONTRIBUTING.md](CONTRIBUTING.md) — 场景编写指南、YAML 格式规范、难度等级、优质场景的标准 - [MAINTAINERS.md](MAINTAINERS.md) — 发布版本、更新网站、审查 PR - [官网](https://1password.github.io/SCAM/) — 交互式排行榜、精选回放、安全技能 ## 致谢 - [Jason Meller](https://github.com/terracatta) — SCAM 的创建者 ## 许可证 SCAM 基于 [MIT 许可证](LICENSE) 发布。 版权所有 (c) 2026 [1Password](https://1password.com)