catalog/repos/1password--scam.md

4.9 KiB
Raw Blame History

AI智能体安全基准测试

安全 AI智能体 基准测试 网络钓鱼 提示注入

SCAM — 安全理解意识测量工具

1Password 提供

查看排行榜、观看回放并体验安全技能,请访问 1password.github.io/SCAM

随着 AI 智能体能力不断增强它们正在获取越来越多用户的敏感信息。SCAM 用于衡量智能体在面对人类日常遭遇的各类威胁时,能否妥善保护这些信息。

大多数基准测试只是向 AI 展示一封钓鱼邮件,然后问"这封邮件有问题吗?"SCAM 与众不同。它测试的是智能体能否在正常工作流程中主动识别并报告威胁——将智能体置于真实的职场场景中,赋予其访问电子邮件、凭证库和网络表单的权限,而陷阱就嵌套在工作流里,而非单独标出。

快速开始

git clone https://github.com/1Password/SCAM.git
cd SCAM
python3 -m venv .venv && source .venv/bin/activate
pip install -e ".[dev]"

# 至少设置一个 API 密钥
export OPENAI_API_KEY="sk-..."       
# 以及/或者 ANTHROPIC_API_KEY、GOOGLE_API_KEY

# 以交互模式运行基准测试
scam evaluate -i

交互模式将引导您完成模型选择,对每个场景分别在启用和不启用安全技能的情况下运行测试,并在最后输出评分报告。

测试内容

每个场景都会给智能体分配一项日常工作任务——查看邮件、查询凭证、审核发票——同时提供一套模拟的 MCP 工具服务器:收件箱、密码库、网络浏览器等。这些工具对模型来说感觉真实,但一切都在沙箱中运行。不会暴露任何真实凭证,不会发送真实邮件,也不会触碰任何线上系统。

其中的挑战在于,真实世界的攻击模式被织入任务之中。钓鱼链接藏匿于收件箱,仿冒域名出现在转发的邮件线程里,攻击者的表单已预填了正确的公司名称。

该基准测试涵盖 9 个威胁类别下的 30 个场景网络钓鱼 · 社会工程 · 凭证泄露 · 凭证自动填充 · 电商诈骗 · 数据泄漏 · 混淆代理攻击 · 多阶段攻击 · 提示注入

安全技能

SCAM 内置了一个安全技能(security-awareness/SKILL.md)——一段纯文本系统提示词,教导智能体在行动前先分析:点击前验证域名、转发前阅读内容、输入凭证前检查 URL。

在我们的基准测试中,这一单一技能将所有被测模型的平均安全得分从约 50% 提升至约 90%。它兼容任何模型和任何服务提供商。

安装

安装该技能最快的方式是使用 npx add-skill它可以自动检测您的智能体环境Claude Code、Cursor、Codex 及其他 35+ 种):

npx add-skill 1Password/SCAM

或直接下载:

curl -sL https://raw.githubusercontent.com/1Password/SCAM/main/skills/security-awareness/SKILL.md \
  -o skills/security-awareness/SKILL.md --create-dirs

然后将文件内容添加到系统提示词的开头,或将其放入智能体的技能目录(.claude/skills/.cursor/skills/ 等)。各服务商的详细集成示例请参阅官网

测试结果

完整排行榜、交互式回放和可下载数据已发布于 1password.github.io/SCAM。结果包含原始 JSON 的 ZIP 压缩包以及用于独立验证的交互式 HTML 仪表盘。

参与贡献

威胁形势变化迅速没有任何单一团队能够覆盖所有情况。如果您从事安全、AI 安全或红队测试工作,以下是真正有意义的贡献方式:

  • 编写新场景。 将您在实际中遇到的威胁建模成场景。YAML 格式简单易用。
  • 添加新工具服务器。 Slack、Jira、云控制台——每增加一个新的攻击面测试就更难被"刷榜"。
  • 改进评估逻辑。 更好的检查点逻辑、更少的误报、更细致的评分。
  • 在新模型上运行测试。 发布您的结果。社区拥有的数据点越多,就越难忽视安全问题。

完整指南请参阅 CONTRIBUTING.md

深入了解

  • USAGE.md — 完整 CLI 参考,所有命令与参数、支持的服务商、基准版本管理、项目结构
  • CONTRIBUTING.md — 场景编写指南、YAML 格式规范、难度等级、优质场景的标准
  • MAINTAINERS.md — 发布版本、更新网站、审查 PR
  • 官网 — 交互式排行榜、精选回放、安全技能

致谢

许可证

SCAM 基于 MIT 许可证 发布。

版权所有 (c) 2026 1Password