catalog/repos/accolver--skill-maker.md

# AI技能自动生成工具

`Agent技能` `代码助手` `自动化` `评估框架` `AI工作流`

# <img src="web/src/lib/assets/favicon.svg" width="32" height="32" align="center" alt="skill-maker logo"> skill-maker

一个用于创建其他 Agent 技能的 [Agent Skill](https://agentskills.io)。它引导 AI 编程助手完成完整的技能生命周期：捕获意图、起草 SKILL.md、通过子 Agent 运行评估循环、根据评分信号进行优化，以及优化描述以提高触发准确性。

**[访问 skill-maker.pages.dev](https://skill-maker.pages.dev)** 查看交互式工作原理概览、基准测试结果和快速安装命令。

评估循环是核心所在——它为每个测试用例生成独立的子 Agent，使用内置的 Bun TypeScript 脚本对断言进行评分，聚合基准测试数据，并持续迭代直到通过率趋于平稳（连续 3 次迭代的增量 < 2%）或达到 20 次迭代上限。

## 包含内容

```
skill-maker/
├── SKILL.md                        # 主技能指令
├── scripts/
│   ├── grade.ts                    # 对评估输出的断言进行评分
│   ├── aggregate-benchmark.ts      # 将评分聚合为 benchmark.json
│   ├── detect-plateau.ts           # 检测多次迭代中的通过率平稳
│   └── validate-skill.ts           # 根据规范验证 SKILL.md
├── references/
│   ├── schemas.md                  # 所有评估产物类型的 JSON Schema
│   └── spec-summary.md             # Agent Skills 规范的快速参考
├── assets/
│   └── skill-template.md           # 含 {{PLACEHOLDER}} 标记的起始模板
└── evals/
    └── evals.json                  # 含质量导向断言的测试提示
```

## 前置条件

- [Bun](https://bun.sh) — 运行所有内置脚本所必需

## 快速安装

```bash
npx skills add accolver/skill-maker
```

此命令会自动检测你的 AI 编程助手（Claude Code、Cursor、Windsurf、OpenCode 等），并将 skill-maker 安装到每一个。

### 安装选项

```bash
# 全局安装（用户级别，在所有项目中可用）
npx skills add accolver/skill-maker -g

# 仅安装到指定 Agent
npx skills add accolver/skill-maker --agent claude-code opencode

# 列出可用技能而不安装
npx skills add accolver/skill-maker --list
```

### 手动安装

如果不想使用 skills CLI：

```bash
git clone https://github.com/accolver/skill-maker.git
cd skill-maker
mkdir -p ~/.agents/skills
cp -r skill-maker ~/.agents/skills/skill-maker
```

### 验证安装

```bash
npx skills list
```

或运行内置验证器：

```bash
bun run skill-maker/scripts/validate-skill.ts skill-maker
```

## 使用方法

安装完成后，向你的编程助手发出创建技能的请求。该技能会在以下类型的提示下触发：

- "创建一个用于编写 git 提交信息的技能"
- "构建一个帮助数据管道验证的 SKILL.md"
- "为部署到 AWS 制作一个可复用的 Agent 工作流"
- "将这个调试流程打包为一个技能"

Agent 将自动遵循 5 个阶段的工作流：

1. **捕获意图** — 询问关于技能用途的澄清性问题
2. **起草** — 生成 SKILL.md、脚本、参考资料和资产文件
3. **评估循环** — 带/不带技能分别运行测试用例，对输出评分，检测平稳
4. **优化** — 根据失败的断言改进技能
5. **定稿** — 运行验证，优化描述，安装技能

## 基准测试结果

使用 skill-maker 构建的技能在 23 个领域与未经指导的 Agent 进行了对比评估。每个技能均经历完整的评估循环：独立的子 Agent 配对（有技能 vs 无技能）、断言评分，以及持续迭代直至平稳。

| 指标                     | 数值       |
| ------------------------ | ---------- |
| 评估技能数量             | 21         |
| 评估断言总数             | ~504       |
| 有技能通过率             | 100%       |
| 无技能平均通过率         | 37.1%      |
| **平均提升幅度**         | **+62.9%** |
| 达到 100% 的平均迭代次数 | 2.1        |

### 各技能结果

| 技能                      | 有技能 | 无技能 | 提升幅度   |
| ------------------------- | ------ | ------ | ---------- |
| nostr-client-patterns     | 100%   | 0%     | **+100%**  |
| nostr-social-graph        | 100%   | 0%     | **+100%**  |
| nostr-dvms                | 100%   | 0%     | **+100%**  |
| database-migration        | 100%   | 4.2%   | **+95.8%** |
| nostr-crypto-guide        | 100%   | 4.2%   | **+95.8%** |
| pdf-toolkit               | 100%   | 4.2%   | **+95.8%** |
| error-handling            | 100%   | 8.3%   | **+91.7%** |
| api-doc-generator         | 100%   | 16.7%  | **+83.3%** |
| pr-description            | 100%   | 20.8%  | **+79.2%** |
| changelog-generator       | 100%   | 20.8%  | **+79.2%** |
| nostr-marketplace-builder | 100%   | 25.0%  | **+75.0%** |
| monitoring-setup          | 100%   | 26.1%  | **+73.9%** |
| nostr-event-builder       | 100%   | 41.7%  | **+58.3%** |
| code-reviewer             | 100%   | 41.7%  | **+58.3%** |
| nostr-filter-designer     | 100%   | 54.8%  | **+45.2%** |
| gcp-foundation-fabric     | 100%   | 70.8%  | **+29.2%** |
| git-conventional-commits  | 100%   | 72.3%  | **+27.7%** |
| nostr-nip05-setup         | 100%   | 83.3%  | **+16.7%** |
| nostr-zap-integration     | 100%   | 91.7%  | **+8.3%**  |
| nostr-relay-builder       | 100%   | 95.8%  | **+4.2%**  |
| nostr-nip-advisor         | 100%   | 100%*  | 0%*        |

_*评分器启发式限制——详见 AGENTS.md。_

技能在以下场景中带来的价值最为突出：Agent 具备知识但缺乏结构——输出格式化、安全检查清单、全面覆盖以及特定约定的规则，在没有技能指导的情况下持续失败。

详细的各技能分析、收敛数据以及高价值技能使用场景的选择指南，请参见 [AGENTS.md](AGENTS.md)。

### 正面对决：skill-maker vs Anthropic 官方 skill-creator

我们将 skill-maker 与 [Anthropic 官方 skill-creator](https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator) 进行了基准对比，以评估哪种方案能生成更好的技能。两者均使用相同的领域简报，针对我们 3 个最高增益领域（database-migration、error-handling、pdf-toolkit）起草 SKILL.md，然后对相同的评估提示和断言（共 72 个）进行测试。

| 方案            | 通过数 | 总数 | 通过率    |
| --------------- | ------ | ---- | --------- |
| **skill-maker** | 72     | 72   | **100%**  |
| **官方方案**    | 67     | 72   | **93.1%** |

| 领域               | skill-maker  | 官方方案      | 差距   |
| ------------------ | ------------ | ------------- | ------ |
| database-migration | 24/24 (100%) | 21/24 (87.5%) | +12.5% |
| error-handling     | 24/24 (100%) | 22/24 (91.7%) | +8.3%  |
| pdf-toolkit        | 24/24 (100%) | 24/24 (100%)  | 0%     |

skill-maker 的优势来自**"常见错误"章节**（能捕获边界情况的防御性护栏）以及**基于推理的指令**（"因为 Y，所以做 X"，而非命令式的"做 X"）。官方方案有时能产出更好的工程建议（例如 PG15 专属优化），但这些建议会在保守的断言测试中失败。两种方案均表现强劲——5 个断言的差距相当微小，且存在争议空间。

完整的对比报告（含逐断言分析、失败原因分析和方法论说明）请参见[完整对比报告](workspaces/head-to-head/REPORT.md)。

### 自我评估

skill-maker 也对自身进行了测试（元评估）：

| 指标             | 分数   |
| ---------------- | ------ |
| 有技能通过率     | 100%   |
| 无技能通过率     | 57.3%  |
| 提升幅度         | +42.7% |
| 达到平稳的迭代   | 第 6 次 |

完整的迭代历史请参见 `workspaces/skill-maker-workspace/FINAL-BENCHMARK.md`。

## 许可证

MIT