catalog/repos/accolver--skill-maker.md

176 lines
7.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# AI技能自动生成工具
`Agent技能` `代码助手` `自动化` `评估框架` `AI工作流`
# <img src="web/src/lib/assets/favicon.svg" width="32" height="32" align="center" alt="skill-maker logo"> skill-maker
一个用于创建其他 Agent 技能的 [Agent Skill](https://agentskills.io)。它引导 AI 编程助手完成完整的技能生命周期:捕获意图、起草 SKILL.md、通过子 Agent 运行评估循环、根据评分信号进行优化,以及优化描述以提高触发准确性。
**[访问 skill-maker.pages.dev](https://skill-maker.pages.dev)** 查看交互式工作原理概览、基准测试结果和快速安装命令。
评估循环是核心所在——它为每个测试用例生成独立的子 Agent使用内置的 Bun TypeScript 脚本对断言进行评分,聚合基准测试数据,并持续迭代直到通过率趋于平稳(连续 3 次迭代的增量 < 2%或达到 20 次迭代上限
## 包含内容
```
skill-maker/
├── SKILL.md # 主技能指令
├── scripts/
│ ├── grade.ts # 对评估输出的断言进行评分
│ ├── aggregate-benchmark.ts # 将评分聚合为 benchmark.json
│ ├── detect-plateau.ts # 检测多次迭代中的通过率平稳
│ └── validate-skill.ts # 根据规范验证 SKILL.md
├── references/
│ ├── schemas.md # 所有评估产物类型的 JSON Schema
│ └── spec-summary.md # Agent Skills 规范的快速参考
├── assets/
│ └── skill-template.md # 含 {{PLACEHOLDER}} 标记的起始模板
└── evals/
└── evals.json # 含质量导向断言的测试提示
```
## 前置条件
- [Bun](https://bun.sh) 运行所有内置脚本所必需
## 快速安装
```bash
npx skills add accolver/skill-maker
```
此命令会自动检测你的 AI 编程助手Claude CodeCursorWindsurfOpenCode 并将 skill-maker 安装到每一个
### 安装选项
```bash
# 全局安装(用户级别,在所有项目中可用)
npx skills add accolver/skill-maker -g
# 仅安装到指定 Agent
npx skills add accolver/skill-maker --agent claude-code opencode
# 列出可用技能而不安装
npx skills add accolver/skill-maker --list
```
### 手动安装
如果不想使用 skills CLI
```bash
git clone https://github.com/accolver/skill-maker.git
cd skill-maker
mkdir -p ~/.agents/skills
cp -r skill-maker ~/.agents/skills/skill-maker
```
### 验证安装
```bash
npx skills list
```
或运行内置验证器
```bash
bun run skill-maker/scripts/validate-skill.ts skill-maker
```
## 使用方法
安装完成后向你的编程助手发出创建技能的请求该技能会在以下类型的提示下触发
- "创建一个用于编写 git 提交信息的技能"
- "构建一个帮助数据管道验证的 SKILL.md"
- "为部署到 AWS 制作一个可复用的 Agent 工作流"
- "将这个调试流程打包为一个技能"
Agent 将自动遵循 5 个阶段的工作流
1. **捕获意图** 询问关于技能用途的澄清性问题
2. **起草** 生成 SKILL.md脚本参考资料和资产文件
3. **评估循环** /不带技能分别运行测试用例对输出评分检测平稳
4. **优化** 根据失败的断言改进技能
5. **定稿** 运行验证优化描述安装技能
## 基准测试结果
使用 skill-maker 构建的技能在 23 个领域与未经指导的 Agent 进行了对比评估每个技能均经历完整的评估循环独立的子 Agent 配对有技能 vs 无技能)、断言评分以及持续迭代直至平稳
| 指标 | 数值 |
| ------------------------ | ---------- |
| 评估技能数量 | 21 |
| 评估断言总数 | ~504 |
| 有技能通过率 | 100% |
| 无技能平均通过率 | 37.1% |
| **平均提升幅度** | **+62.9%** |
| 达到 100% 的平均迭代次数 | 2.1 |
### 各技能结果
| 技能 | 有技能 | 无技能 | 提升幅度 |
| ------------------------- | ------ | ------ | ---------- |
| nostr-client-patterns | 100% | 0% | **+100%** |
| nostr-social-graph | 100% | 0% | **+100%** |
| nostr-dvms | 100% | 0% | **+100%** |
| database-migration | 100% | 4.2% | **+95.8%** |
| nostr-crypto-guide | 100% | 4.2% | **+95.8%** |
| pdf-toolkit | 100% | 4.2% | **+95.8%** |
| error-handling | 100% | 8.3% | **+91.7%** |
| api-doc-generator | 100% | 16.7% | **+83.3%** |
| pr-description | 100% | 20.8% | **+79.2%** |
| changelog-generator | 100% | 20.8% | **+79.2%** |
| nostr-marketplace-builder | 100% | 25.0% | **+75.0%** |
| monitoring-setup | 100% | 26.1% | **+73.9%** |
| nostr-event-builder | 100% | 41.7% | **+58.3%** |
| code-reviewer | 100% | 41.7% | **+58.3%** |
| nostr-filter-designer | 100% | 54.8% | **+45.2%** |
| gcp-foundation-fabric | 100% | 70.8% | **+29.2%** |
| git-conventional-commits | 100% | 72.3% | **+27.7%** |
| nostr-nip05-setup | 100% | 83.3% | **+16.7%** |
| nostr-zap-integration | 100% | 91.7% | **+8.3%** |
| nostr-relay-builder | 100% | 95.8% | **+4.2%** |
| nostr-nip-advisor | 100% | 100%* | 0%* |
_*评分器启发式限制——详见 AGENTS.md。_
技能在以下场景中带来的价值最为突出Agent 具备知识但缺乏结构——输出格式化安全检查清单全面覆盖以及特定约定的规则在没有技能指导的情况下持续失败
详细的各技能分析收敛数据以及高价值技能使用场景的选择指南请参见 [AGENTS.md](AGENTS.md)
### 正面对决skill-maker vs Anthropic 官方 skill-creator
我们将 skill-maker [Anthropic 官方 skill-creator](https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator) 进行了基准对比以评估哪种方案能生成更好的技能两者均使用相同的领域简报针对我们 3 个最高增益领域database-migrationerror-handlingpdf-toolkit起草 SKILL.md然后对相同的评估提示和断言 72 进行测试
| 方案 | 通过数 | 总数 | 通过率 |
| --------------- | ------ | ---- | --------- |
| **skill-maker** | 72 | 72 | **100%** |
| **官方方案** | 67 | 72 | **93.1%** |
| 领域 | skill-maker | 官方方案 | 差距 |
| ------------------ | ------------ | ------------- | ------ |
| database-migration | 24/24 (100%) | 21/24 (87.5%) | +12.5% |
| error-handling | 24/24 (100%) | 22/24 (91.7%) | +8.3% |
| pdf-toolkit | 24/24 (100%) | 24/24 (100%) | 0% |
skill-maker 的优势来自**"常见错误"章节**能捕获边界情况的防御性护栏以及**基于推理的指令**"因为 Y所以做 X"而非命令式的" X")。官方方案有时能产出更好的工程建议例如 PG15 专属优化但这些建议会在保守的断言测试中失败两种方案均表现强劲——5 个断言的差距相当微小且存在争议空间
完整的对比报告含逐断言分析失败原因分析和方法论说明请参见[完整对比报告](workspaces/head-to-head/REPORT.md)
### 自我评估
skill-maker 也对自身进行了测试元评估
| 指标 | 分数 |
| ---------------- | ------ |
| 有技能通过率 | 100% |
| 无技能通过率 | 57.3% |
| 提升幅度 | +42.7% |
| 达到平稳的迭代 | 6 |
完整的迭代历史请参见 `workspaces/skill-maker-workspace/FINAL-BENCHMARK.md`
## 许可证
MIT