catalog/repos/ai-evos--agent-skills.md

9.1 KiB
Raw Blame History

AI代理运营能力库

AI代理 运营能力 物流 制造业 能源采购 开源

Evos 能力库

面向 AI 代理的开源运营能力 — 由拥有数十年实战经验的领域专家编码提炼。兼容 Claude Code、OpenClaw、Codex CLI、Cursor 及任何 Agent Skills 兼容平台。

License Capabilities Agent Skills Eval Verified Avg Score Lift vs Baseline

这是什么

Evos 将来自传统行业从业者数十年积累的专业经验转化并编码成可调用的知识。这个库是让 evos 智能体系统表现得像经验丰富的操作员的知识层——不依赖提示词工程而是将一位20年老兵区别于新员工的判断准则、边界案例、上报逻辑和领域专业知识加以编码固化。每项能力均包含来自拥有10至20年以上实操经验的真实专业人员的知识。我们将其开源让任何平台上的任何 AI 代理都能使用。

能力列表

能力 行业 场景数 评测得分 描述
物流异常管理 物流 30 95.0% 货运异常、货物延误、损坏、丢失、承运商纠纷
承运商关系管理 物流 22 99.3% 费率谈判、承运商评分、运力组合策略、招标流程
海关与贸易合规 物流 28 90.4% 税则分类、关税优化、受限方筛查
库存需求规划 零售 24 93.0% 需求预测、安全库存、补货、促销规划
退货与逆向物流 零售 24 88.0% 退货授权、处置决策、欺诈检测、供应商追偿
生产排程 制造业 23 92.4% 工单排序、换线优化、瓶颈解决
质量与不合格品管理 制造业 26 91.9% NCR调查、根因分析、CAPA、SPC、供应商质量
能源采购 能源 24 95.4% 电价优化、需量费用管理、PPA评估

基准对比

能力上下文真的有差别吗我们在同一模型Claude Sonnet 4上对每个场景进行了两次测试——一次加载完整能力一次不提供任何领域上下文。基准测试不使用任何系统提示仅将原始场景作为用户消息输入与直接粘贴到 Claude 应用中完全一样。相同场景、相同评分标准、相同评审模型,唯一的变量是代理是否加载了 SKILL.md 和参考文件。

能力 裸模型 加载能力后 提升
物流异常管理 85.2% 95.0% +9.8pp
承运商关系管理 90.3% 99.3% +9.0pp
海关与贸易合规 74.6% 90.4% +15.8pp
库存需求规划 84.7% 93.0% +8.3pp
退货与逆向物流 70.3% 88.0% +17.7pp
生产排程 85.0% 92.4% +7.4pp
质量与不合格品管理 83.7% 91.9% +8.2pp
能源采购 77.4% 95.4% +18.0pp
平均 81.4% 93.2% +11.8pp

提升幅度最大的领域,往往是那些需要特定法规知识、财务阈值和程序流程的场景,而通用模型并未将这些内容记忆化。能源采购(+18.0pp)、退货与逆向物流(+17.7pp)、海关与贸易合规(+15.8pp)提升最为显著——在这些领域,错误答案不只是模糊,更会造成实际危害。

自行运行基准测试:python3 capabilities/<slug>/evals/run_evals.py --baseline --api-key $ANTHROPIC_API_KEY

快速开始

每项能力都是一个独立的 Agent Skills 目录,可安装在任何兼容平台上:

Claude Code

git clone https://github.com/evos-ai/evos-capabilities.git
cp -r evos-capabilities/capabilities/logistics-exception-management ~/.claude/skills/

ClawHub / OpenClaw

clawhub install logistics-exception-management

Cursor

git clone https://github.com/evos-ai/evos-capabilities.git
cp -r evos-capabilities/capabilities/logistics-exception-management .cursor/skills/

logistics-exception-management 替换为上表中的任意能力标识符即可。

为什么与众不同

  • 源自专家经验,而非提示词工程。 每项能力均由该领域拥有10至20年以上经验的专业人员的实操知识构建而成。边界案例、阈值与判断框架来自真实经验而非教科书的改写。

  • 配备自动化测试套件,经评测验证。 每项能力附带20至30个真实运营场景依据领域专属评分标准进行评判。其他开源代理技能库均未提供可验证的评测结果。

  • 涵盖领域专属边界案例与判断准则。 每项能力中的 references/edge-cases.md 文件记录了非专家容易踩坑的棘手情况——那些显而易见的做法反而是错的、只有经验才能告诉你该怎么办的场景。

  • 全平台通用——一种格式26+ 平台。 基于 Agent Skills 开放标准 构建。单一的 SKILL.md 文件即可在 Claude Code、OpenClaw/ClawHub、Codex CLI、Cursor、VS Code Copilot、Gemini CLI 及其他26个以上平台上运行。

对比示例

场景: 一批温控医药货物抵达承运商声称冷藏单元在运输全程维持了正确温度但你方设施的收货检验显示产品温度比要求的2-8°C高出了12°C。

通用代理的回应:

"就温度问题联系承运商。提交损坏索赔。通知客户延误情况。考虑寻找替换货物。"

加载物流异常管理能力后的代理回应:

"这是4级严重事件受监管产品+温度偏差。立即行动1隔离货物——暂不拒收需留作证据。2从货物上下载连续温度记录仪数据Sensitech/Emerson——这是你的主要证据而非冷藏单元的设定点读数。承运商会指向其设定点你需要显示偏差起始时间的回风温度趋势数据。3索取承运商的出发前检查报告和冷藏单元下载数据——若对方拒绝这本身就是警示信号。4按照你方医药SOP要求30分钟内通知质量/法规团队。52小时内向承运商发出正式温度偏差通知而非普通损坏索赔——这将同时保留你在《卡马克修正案》及任何医药专项合同条款下的权利。6切勿在未对比你方码头温度记录和运输前30分钟记录仪数据的情况下接受承运商"产品装载时已偏温"的说辞。若记录仪显示起运时温度正常、运输中途出现温度峰值,承运商的抗辩理由即告瓦解。"

运行评测

每项能力均包含自动化评测套件,用于测试代理在领域专属评分标准下的表现。评测使用 Claude Sonnet 4 同时作为被测代理和评审模型——涵盖全部8项能力的201个场景加载能力后平均得分 93.2%,裸模型为 81.4%

# 安装依赖
pip install anthropic

# 使用能力上下文运行
python3 capabilities/logistics-exception-management/evals/run_evals.py \
  --api-key $ANTHROPIC_API_KEY

# 运行基准测试(无能力上下文)以便对比
python3 capabilities/logistics-exception-management/evals/run_evals.py \
  --baseline --api-key $ANTHROPIC_API_KEY

# 运行单个场景
python3 capabilities/logistics-exception-management/evals/run_evals.py \
  --scenario LEM-001 --api-key $ANTHROPIC_API_KEY

结果以 JSON 和 Markdown 格式保存在每项能力的 evals/results/ 目录下。我们最新一次运行的技能装备版和基准版结果均已提交至仓库。

仓库结构

evos-capabilities/
├── capabilities/
│   └── <capability-slug>/     # 每项均为独立的 Agent Skill
│       ├── SKILL.md            # 核心指令(<500行
│       ├── references/         # 深度领域知识(按需加载)
│       └── evals/              # 自动化评测套件
├── shared/                     # 共享评测框架
├── docs/                       # 架构与方法论文档
├── CONTRIBUTING.md             # 领域专家如何贡献
└── BLOG.md                     # 我们为何构建这个项目

贡献

我们欢迎领域专家贡献——不需要具备开发背景。如果你拥有10年以上实操经验并希望改进某项能力或新增能力请参阅 CONTRIBUTING.md

关于 Evos

Evos 将数十年的运营专业知识转化为自主 AI 系统7×24小时处理你的工作负载。了解更多请访问 getevos.ai