94 lines
4.9 KiB
Markdown
94 lines
4.9 KiB
Markdown
|
|
# AI智能体安全基准测试
|
|||
|
|
|
|||
|
|
`安全` `AI智能体` `基准测试` `网络钓鱼` `提示注入`
|
|||
|
|
|
|||
|
|
# SCAM — 安全理解意识测量工具
|
|||
|
|
|
|||
|
|
**由 [1Password](https://1password.com/blog/ai-agent-security-benchmark) 提供**
|
|||
|
|
|
|||
|
|
> **[查看排行榜、观看回放并体验安全技能,请访问 1password.github.io/SCAM](https://1password.github.io/SCAM/)**
|
|||
|
|
|
|||
|
|
随着 AI 智能体能力不断增强,它们正在获取越来越多用户的敏感信息。SCAM 用于衡量智能体在面对人类日常遭遇的各类威胁时,能否妥善保护这些信息。
|
|||
|
|
|
|||
|
|
大多数基准测试只是向 AI 展示一封钓鱼邮件,然后问"这封邮件有问题吗?"SCAM 与众不同。它测试的是智能体能否在正常工作流程中主动识别并报告威胁——将智能体置于真实的职场场景中,赋予其访问电子邮件、凭证库和网络表单的权限,而陷阱就嵌套在工作流里,而非单独标出。
|
|||
|
|
|
|||
|
|
## 快速开始
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
git clone https://github.com/1Password/SCAM.git
|
|||
|
|
cd SCAM
|
|||
|
|
python3 -m venv .venv && source .venv/bin/activate
|
|||
|
|
pip install -e ".[dev]"
|
|||
|
|
|
|||
|
|
# 至少设置一个 API 密钥
|
|||
|
|
export OPENAI_API_KEY="sk-..."
|
|||
|
|
# 以及/或者 ANTHROPIC_API_KEY、GOOGLE_API_KEY
|
|||
|
|
|
|||
|
|
# 以交互模式运行基准测试
|
|||
|
|
scam evaluate -i
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
交互模式将引导您完成模型选择,对每个场景分别在启用和不启用安全技能的情况下运行测试,并在最后输出评分报告。
|
|||
|
|
|
|||
|
|
## 测试内容
|
|||
|
|
|
|||
|
|
每个场景都会给智能体分配一项日常工作任务——查看邮件、查询凭证、审核发票——同时提供一套模拟的 MCP 工具服务器:收件箱、密码库、网络浏览器等。这些工具对模型来说感觉真实,但一切都在沙箱中运行。不会暴露任何真实凭证,不会发送真实邮件,也不会触碰任何线上系统。
|
|||
|
|
|
|||
|
|
其中的挑战在于,真实世界的攻击模式被织入任务之中。钓鱼链接藏匿于收件箱,仿冒域名出现在转发的邮件线程里,攻击者的表单已预填了正确的公司名称。
|
|||
|
|
|
|||
|
|
该基准测试涵盖 **9 个威胁类别**下的 **30 个场景**:**网络钓鱼** · **社会工程** · **凭证泄露** · **凭证自动填充** · **电商诈骗** · **数据泄漏** · **混淆代理攻击** · **多阶段攻击** · **提示注入**
|
|||
|
|
|
|||
|
|
## 安全技能
|
|||
|
|
|
|||
|
|
SCAM 内置了一个安全技能([`security-awareness/SKILL.md`](skills/security-awareness/SKILL.md))——一段纯文本系统提示词,教导智能体在行动前先分析:点击前验证域名、转发前阅读内容、输入凭证前检查 URL。
|
|||
|
|
|
|||
|
|
在我们的基准测试中,这一单一技能将所有被测模型的平均安全得分从约 50% 提升至约 90%。它兼容任何模型和任何服务提供商。
|
|||
|
|
|
|||
|
|
### 安装
|
|||
|
|
|
|||
|
|
安装该技能最快的方式是使用 [npx add-skill](https://add-skill.org/),它可以自动检测您的智能体环境(Claude Code、Cursor、Codex 及其他 35+ 种):
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
npx add-skill 1Password/SCAM
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
或直接下载:
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
curl -sL https://raw.githubusercontent.com/1Password/SCAM/main/skills/security-awareness/SKILL.md \
|
|||
|
|
-o skills/security-awareness/SKILL.md --create-dirs
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
然后将文件内容添加到系统提示词的开头,或将其放入智能体的技能目录(`.claude/skills/`、`.cursor/skills/` 等)。各服务商的详细集成示例请参阅[官网](https://1password.github.io/SCAM/#skill)。
|
|||
|
|
|
|||
|
|
## 测试结果
|
|||
|
|
|
|||
|
|
完整排行榜、交互式回放和可下载数据已发布于 **[1password.github.io/SCAM](https://1password.github.io/SCAM/)**。结果包含原始 JSON 的 ZIP 压缩包以及用于独立验证的交互式 HTML 仪表盘。
|
|||
|
|
|
|||
|
|
## 参与贡献
|
|||
|
|
|
|||
|
|
威胁形势变化迅速,没有任何单一团队能够覆盖所有情况。如果您从事安全、AI 安全或红队测试工作,以下是真正有意义的贡献方式:
|
|||
|
|
|
|||
|
|
- **编写新场景。** 将您在实际中遇到的威胁建模成场景。YAML 格式简单易用。
|
|||
|
|
- **添加新工具服务器。** Slack、Jira、云控制台——每增加一个新的攻击面,测试就更难被"刷榜"。
|
|||
|
|
- **改进评估逻辑。** 更好的检查点逻辑、更少的误报、更细致的评分。
|
|||
|
|
- **在新模型上运行测试。** 发布您的结果。社区拥有的数据点越多,就越难忽视安全问题。
|
|||
|
|
|
|||
|
|
完整指南请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。
|
|||
|
|
|
|||
|
|
## 深入了解
|
|||
|
|
|
|||
|
|
- [USAGE.md](USAGE.md) — 完整 CLI 参考,所有命令与参数、支持的服务商、基准版本管理、项目结构
|
|||
|
|
- [CONTRIBUTING.md](CONTRIBUTING.md) — 场景编写指南、YAML 格式规范、难度等级、优质场景的标准
|
|||
|
|
- [MAINTAINERS.md](MAINTAINERS.md) — 发布版本、更新网站、审查 PR
|
|||
|
|
- [官网](https://1password.github.io/SCAM/) — 交互式排行榜、精选回放、安全技能
|
|||
|
|
|
|||
|
|
## 致谢
|
|||
|
|
|
|||
|
|
- [Jason Meller](https://github.com/terracatta) — SCAM 的创建者
|
|||
|
|
|
|||
|
|
## 许可证
|
|||
|
|
|
|||
|
|
SCAM 基于 [MIT 许可证](LICENSE) 发布。
|
|||
|
|
|
|||
|
|
版权所有 (c) 2026 [1Password](https://1password.com)
|