# AI智能体安全基准测试

`安全` `AI智能体` `基准测试` `网络钓鱼` `提示注入`

# SCAM — 安全理解意识测量工具

**由 [1Password](https://1password.com/blog/ai-agent-security-benchmark) 提供**

> **[查看排行榜、观看回放并体验安全技能，请访问 1password.github.io/SCAM](https://1password.github.io/SCAM/)**

随着 AI 智能体能力不断增强，它们正在获取越来越多用户的敏感信息。SCAM 用于衡量智能体在面对人类日常遭遇的各类威胁时，能否妥善保护这些信息。

大多数基准测试只是向 AI 展示一封钓鱼邮件，然后问"这封邮件有问题吗？"SCAM 与众不同。它测试的是智能体能否在正常工作流程中主动识别并报告威胁——将智能体置于真实的职场场景中，赋予其访问电子邮件、凭证库和网络表单的权限，而陷阱就嵌套在工作流里，而非单独标出。

## 快速开始

```bash
git clone https://github.com/1Password/SCAM.git
cd SCAM
python3 -m venv .venv && source .venv/bin/activate
pip install -e ".[dev]"

# 至少设置一个 API 密钥
export OPENAI_API_KEY="sk-..."       
# 以及/或者 ANTHROPIC_API_KEY、GOOGLE_API_KEY

# 以交互模式运行基准测试
scam evaluate -i
```

交互模式将引导您完成模型选择，对每个场景分别在启用和不启用安全技能的情况下运行测试，并在最后输出评分报告。

## 测试内容

每个场景都会给智能体分配一项日常工作任务——查看邮件、查询凭证、审核发票——同时提供一套模拟的 MCP 工具服务器：收件箱、密码库、网络浏览器等。这些工具对模型来说感觉真实，但一切都在沙箱中运行。不会暴露任何真实凭证，不会发送真实邮件，也不会触碰任何线上系统。

其中的挑战在于，真实世界的攻击模式被织入任务之中。钓鱼链接藏匿于收件箱，仿冒域名出现在转发的邮件线程里，攻击者的表单已预填了正确的公司名称。

该基准测试涵盖 **9 个威胁类别**下的 **30 个场景**：**网络钓鱼** · **社会工程** · **凭证泄露** · **凭证自动填充** · **电商诈骗** · **数据泄漏** · **混淆代理攻击** · **多阶段攻击** · **提示注入**

## 安全技能

SCAM 内置了一个安全技能（[`security-awareness/SKILL.md`](skills/security-awareness/SKILL.md)）——一段纯文本系统提示词，教导智能体在行动前先分析：点击前验证域名、转发前阅读内容、输入凭证前检查 URL。

在我们的基准测试中，这一单一技能将所有被测模型的平均安全得分从约 50% 提升至约 90%。它兼容任何模型和任何服务提供商。

### 安装

安装该技能最快的方式是使用 [npx add-skill](https://add-skill.org/)，它可以自动检测您的智能体环境（Claude Code、Cursor、Codex 及其他 35+ 种）：

```bash
npx add-skill 1Password/SCAM
```

或直接下载：

```bash
curl -sL https://raw.githubusercontent.com/1Password/SCAM/main/skills/security-awareness/SKILL.md \
  -o skills/security-awareness/SKILL.md --create-dirs
```

然后将文件内容添加到系统提示词的开头，或将其放入智能体的技能目录（`.claude/skills/`、`.cursor/skills/` 等）。各服务商的详细集成示例请参阅[官网](https://1password.github.io/SCAM/#skill)。

## 测试结果

完整排行榜、交互式回放和可下载数据已发布于 **[1password.github.io/SCAM](https://1password.github.io/SCAM/)**。结果包含原始 JSON 的 ZIP 压缩包以及用于独立验证的交互式 HTML 仪表盘。

## 参与贡献

威胁形势变化迅速，没有任何单一团队能够覆盖所有情况。如果您从事安全、AI 安全或红队测试工作，以下是真正有意义的贡献方式：

- **编写新场景。** 将您在实际中遇到的威胁建模成场景。YAML 格式简单易用。
- **添加新工具服务器。** Slack、Jira、云控制台——每增加一个新的攻击面，测试就更难被"刷榜"。
- **改进评估逻辑。** 更好的检查点逻辑、更少的误报、更细致的评分。
- **在新模型上运行测试。** 发布您的结果。社区拥有的数据点越多，就越难忽视安全问题。

完整指南请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。

## 深入了解

- [USAGE.md](USAGE.md) — 完整 CLI 参考，所有命令与参数、支持的服务商、基准版本管理、项目结构
- [CONTRIBUTING.md](CONTRIBUTING.md) — 场景编写指南、YAML 格式规范、难度等级、优质场景的标准
- [MAINTAINERS.md](MAINTAINERS.md) — 发布版本、更新网站、审查 PR
- [官网](https://1password.github.io/SCAM/) — 交互式排行榜、精选回放、安全技能

## 致谢

- [Jason Meller](https://github.com/terracatta) — SCAM 的创建者

## 许可证

SCAM 基于 [MIT 许可证](LICENSE) 发布。

版权所有 (c) 2026 [1Password](https://1password.com)