7.8 KiB
AI技能自动生成工具
Agent技能 代码助手 自动化 评估框架 AI工作流
skill-maker
一个用于创建其他 Agent 技能的 Agent Skill。它引导 AI 编程助手完成完整的技能生命周期:捕获意图、起草 SKILL.md、通过子 Agent 运行评估循环、根据评分信号进行优化,以及优化描述以提高触发准确性。
访问 skill-maker.pages.dev 查看交互式工作原理概览、基准测试结果和快速安装命令。
评估循环是核心所在——它为每个测试用例生成独立的子 Agent,使用内置的 Bun TypeScript 脚本对断言进行评分,聚合基准测试数据,并持续迭代直到通过率趋于平稳(连续 3 次迭代的增量 < 2%)或达到 20 次迭代上限。
包含内容
skill-maker/
├── SKILL.md # 主技能指令
├── scripts/
│ ├── grade.ts # 对评估输出的断言进行评分
│ ├── aggregate-benchmark.ts # 将评分聚合为 benchmark.json
│ ├── detect-plateau.ts # 检测多次迭代中的通过率平稳
│ └── validate-skill.ts # 根据规范验证 SKILL.md
├── references/
│ ├── schemas.md # 所有评估产物类型的 JSON Schema
│ └── spec-summary.md # Agent Skills 规范的快速参考
├── assets/
│ └── skill-template.md # 含 {{PLACEHOLDER}} 标记的起始模板
└── evals/
└── evals.json # 含质量导向断言的测试提示
前置条件
- Bun — 运行所有内置脚本所必需
快速安装
npx skills add accolver/skill-maker
此命令会自动检测你的 AI 编程助手(Claude Code、Cursor、Windsurf、OpenCode 等),并将 skill-maker 安装到每一个。
安装选项
# 全局安装(用户级别,在所有项目中可用)
npx skills add accolver/skill-maker -g
# 仅安装到指定 Agent
npx skills add accolver/skill-maker --agent claude-code opencode
# 列出可用技能而不安装
npx skills add accolver/skill-maker --list
手动安装
如果不想使用 skills CLI:
git clone https://github.com/accolver/skill-maker.git
cd skill-maker
mkdir -p ~/.agents/skills
cp -r skill-maker ~/.agents/skills/skill-maker
验证安装
npx skills list
或运行内置验证器:
bun run skill-maker/scripts/validate-skill.ts skill-maker
使用方法
安装完成后,向你的编程助手发出创建技能的请求。该技能会在以下类型的提示下触发:
- "创建一个用于编写 git 提交信息的技能"
- "构建一个帮助数据管道验证的 SKILL.md"
- "为部署到 AWS 制作一个可复用的 Agent 工作流"
- "将这个调试流程打包为一个技能"
Agent 将自动遵循 5 个阶段的工作流:
- 捕获意图 — 询问关于技能用途的澄清性问题
- 起草 — 生成 SKILL.md、脚本、参考资料和资产文件
- 评估循环 — 带/不带技能分别运行测试用例,对输出评分,检测平稳
- 优化 — 根据失败的断言改进技能
- 定稿 — 运行验证,优化描述,安装技能
基准测试结果
使用 skill-maker 构建的技能在 23 个领域与未经指导的 Agent 进行了对比评估。每个技能均经历完整的评估循环:独立的子 Agent 配对(有技能 vs 无技能)、断言评分,以及持续迭代直至平稳。
| 指标 | 数值 |
|---|---|
| 评估技能数量 | 21 |
| 评估断言总数 | ~504 |
| 有技能通过率 | 100% |
| 无技能平均通过率 | 37.1% |
| 平均提升幅度 | +62.9% |
| 达到 100% 的平均迭代次数 | 2.1 |
各技能结果
| 技能 | 有技能 | 无技能 | 提升幅度 |
|---|---|---|---|
| nostr-client-patterns | 100% | 0% | +100% |
| nostr-social-graph | 100% | 0% | +100% |
| nostr-dvms | 100% | 0% | +100% |
| database-migration | 100% | 4.2% | +95.8% |
| nostr-crypto-guide | 100% | 4.2% | +95.8% |
| pdf-toolkit | 100% | 4.2% | +95.8% |
| error-handling | 100% | 8.3% | +91.7% |
| api-doc-generator | 100% | 16.7% | +83.3% |
| pr-description | 100% | 20.8% | +79.2% |
| changelog-generator | 100% | 20.8% | +79.2% |
| nostr-marketplace-builder | 100% | 25.0% | +75.0% |
| monitoring-setup | 100% | 26.1% | +73.9% |
| nostr-event-builder | 100% | 41.7% | +58.3% |
| code-reviewer | 100% | 41.7% | +58.3% |
| nostr-filter-designer | 100% | 54.8% | +45.2% |
| gcp-foundation-fabric | 100% | 70.8% | +29.2% |
| git-conventional-commits | 100% | 72.3% | +27.7% |
| nostr-nip05-setup | 100% | 83.3% | +16.7% |
| nostr-zap-integration | 100% | 91.7% | +8.3% |
| nostr-relay-builder | 100% | 95.8% | +4.2% |
| nostr-nip-advisor | 100% | 100%* | 0%* |
*评分器启发式限制——详见 AGENTS.md。
技能在以下场景中带来的价值最为突出:Agent 具备知识但缺乏结构——输出格式化、安全检查清单、全面覆盖以及特定约定的规则,在没有技能指导的情况下持续失败。
详细的各技能分析、收敛数据以及高价值技能使用场景的选择指南,请参见 AGENTS.md。
正面对决:skill-maker vs Anthropic 官方 skill-creator
我们将 skill-maker 与 Anthropic 官方 skill-creator 进行了基准对比,以评估哪种方案能生成更好的技能。两者均使用相同的领域简报,针对我们 3 个最高增益领域(database-migration、error-handling、pdf-toolkit)起草 SKILL.md,然后对相同的评估提示和断言(共 72 个)进行测试。
| 方案 | 通过数 | 总数 | 通过率 |
|---|---|---|---|
| skill-maker | 72 | 72 | 100% |
| 官方方案 | 67 | 72 | 93.1% |
| 领域 | skill-maker | 官方方案 | 差距 |
|---|---|---|---|
| database-migration | 24/24 (100%) | 21/24 (87.5%) | +12.5% |
| error-handling | 24/24 (100%) | 22/24 (91.7%) | +8.3% |
| pdf-toolkit | 24/24 (100%) | 24/24 (100%) | 0% |
skill-maker 的优势来自**"常见错误"章节**(能捕获边界情况的防御性护栏)以及基于推理的指令("因为 Y,所以做 X",而非命令式的"做 X")。官方方案有时能产出更好的工程建议(例如 PG15 专属优化),但这些建议会在保守的断言测试中失败。两种方案均表现强劲——5 个断言的差距相当微小,且存在争议空间。
完整的对比报告(含逐断言分析、失败原因分析和方法论说明)请参见完整对比报告。
自我评估
skill-maker 也对自身进行了测试(元评估):
| 指标 | 分数 |
|---|---|
| 有技能通过率 | 100% |
| 无技能通过率 | 57.3% |
| 提升幅度 | +42.7% |
| 达到平稳的迭代 | 第 6 次 |
完整的迭代历史请参见 workspaces/skill-maker-workspace/FINAL-BENCHMARK.md。
许可证
MIT