catalog/repos/1password--scam.md

94 lines
4.9 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# AI智能体安全基准测试
`安全` `AI智能体` `基准测试` `网络钓鱼` `提示注入`
# SCAM — 安全理解意识测量工具
**由 [1Password](https://1password.com/blog/ai-agent-security-benchmark) 提供**
> **[查看排行榜、观看回放并体验安全技能,请访问 1password.github.io/SCAM](https://1password.github.io/SCAM/)**
随着 AI 智能体能力不断增强它们正在获取越来越多用户的敏感信息。SCAM 用于衡量智能体在面对人类日常遭遇的各类威胁时,能否妥善保护这些信息。
大多数基准测试只是向 AI 展示一封钓鱼邮件,然后问"这封邮件有问题吗?"SCAM 与众不同。它测试的是智能体能否在正常工作流程中主动识别并报告威胁——将智能体置于真实的职场场景中,赋予其访问电子邮件、凭证库和网络表单的权限,而陷阱就嵌套在工作流里,而非单独标出。
## 快速开始
```bash
git clone https://github.com/1Password/SCAM.git
cd SCAM
python3 -m venv .venv && source .venv/bin/activate
pip install -e ".[dev]"
# 至少设置一个 API 密钥
export OPENAI_API_KEY="sk-..."
# 以及/或者 ANTHROPIC_API_KEY、GOOGLE_API_KEY
# 以交互模式运行基准测试
scam evaluate -i
```
交互模式将引导您完成模型选择,对每个场景分别在启用和不启用安全技能的情况下运行测试,并在最后输出评分报告。
## 测试内容
每个场景都会给智能体分配一项日常工作任务——查看邮件、查询凭证、审核发票——同时提供一套模拟的 MCP 工具服务器:收件箱、密码库、网络浏览器等。这些工具对模型来说感觉真实,但一切都在沙箱中运行。不会暴露任何真实凭证,不会发送真实邮件,也不会触碰任何线上系统。
其中的挑战在于,真实世界的攻击模式被织入任务之中。钓鱼链接藏匿于收件箱,仿冒域名出现在转发的邮件线程里,攻击者的表单已预填了正确的公司名称。
该基准测试涵盖 **9 个威胁类别**下的 **30 个场景****网络钓鱼** · **社会工程** · **凭证泄露** · **凭证自动填充** · **电商诈骗** · **数据泄漏** · **混淆代理攻击** · **多阶段攻击** · **提示注入**
## 安全技能
SCAM 内置了一个安全技能([`security-awareness/SKILL.md`](skills/security-awareness/SKILL.md))——一段纯文本系统提示词,教导智能体在行动前先分析:点击前验证域名、转发前阅读内容、输入凭证前检查 URL。
在我们的基准测试中,这一单一技能将所有被测模型的平均安全得分从约 50% 提升至约 90%。它兼容任何模型和任何服务提供商。
### 安装
安装该技能最快的方式是使用 [npx add-skill](https://add-skill.org/)它可以自动检测您的智能体环境Claude Code、Cursor、Codex 及其他 35+ 种):
```bash
npx add-skill 1Password/SCAM
```
或直接下载:
```bash
curl -sL https://raw.githubusercontent.com/1Password/SCAM/main/skills/security-awareness/SKILL.md \
-o skills/security-awareness/SKILL.md --create-dirs
```
然后将文件内容添加到系统提示词的开头,或将其放入智能体的技能目录(`.claude/skills/``.cursor/skills/` 等)。各服务商的详细集成示例请参阅[官网](https://1password.github.io/SCAM/#skill)。
## 测试结果
完整排行榜、交互式回放和可下载数据已发布于 **[1password.github.io/SCAM](https://1password.github.io/SCAM/)**。结果包含原始 JSON 的 ZIP 压缩包以及用于独立验证的交互式 HTML 仪表盘。
## 参与贡献
威胁形势变化迅速没有任何单一团队能够覆盖所有情况。如果您从事安全、AI 安全或红队测试工作,以下是真正有意义的贡献方式:
- **编写新场景。** 将您在实际中遇到的威胁建模成场景。YAML 格式简单易用。
- **添加新工具服务器。** Slack、Jira、云控制台——每增加一个新的攻击面测试就更难被"刷榜"。
- **改进评估逻辑。** 更好的检查点逻辑、更少的误报、更细致的评分。
- **在新模型上运行测试。** 发布您的结果。社区拥有的数据点越多,就越难忽视安全问题。
完整指南请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)。
## 深入了解
- [USAGE.md](USAGE.md) — 完整 CLI 参考,所有命令与参数、支持的服务商、基准版本管理、项目结构
- [CONTRIBUTING.md](CONTRIBUTING.md) — 场景编写指南、YAML 格式规范、难度等级、优质场景的标准
- [MAINTAINERS.md](MAINTAINERS.md) — 发布版本、更新网站、审查 PR
- [官网](https://1password.github.io/SCAM/) — 交互式排行榜、精选回放、安全技能
## 致谢
- [Jason Meller](https://github.com/terracatta) — SCAM 的创建者
## 许可证
SCAM 基于 [MIT 许可证](LICENSE) 发布。
版权所有 (c) 2026 [1Password](https://1password.com)