catalog/repos/ahmedasmar--devops-claude-skills.md

5.3 KiB
Raw Blame History

DevOps技能集合

DevOps Terraform Kubernetes AWS CI/CD GitOps 监控

DevOps 技能集

面向 DevOps 的 Claude Code 社区技能仓库。

可用技能

iac-terraform

使用 Terraform 和 Terragrunt 的基础设施即代码

用于创建、验证、排查和管理 Terraform 配置、模块及状态。包含状态检查工具、模块验证器和全面的故障排查指南。

k8s-troubleshooter

系统化的 Kubernetes 故障排查与事故响应

诊断 Pod 故障、集群问题、性能问题和生产事故。提供集群健康检查、Pod 诊断和结构化事故响应手册。

aws-cost-optimization

AWS 成本优化与 FinOps 工作流

查找闲置资源、分析预留实例机会、检测成本异常、合理调整实例规格、评估竞价实例,并实施 FinOps 最佳实践。

功能特性:

  • 🔍 6 个自动化分析脚本(发现浪费、分析 RI、检测旧代机型、评估竞价实例、调整资源规格、检测异常
  • 📊 全面的参考指南最佳实践、服务替代方案、FinOps 治理)
  • 📝 月度成本报告模板
  • 💰 首次运行即可发现实际节省空间
  • 与 AWS API 完整集成EC2、RDS、EBS、S3、CloudWatch、Cost Explorer

ci-cd

CI/CD 流水线设计、优化、安全与故障排查

创建工作流、优化构建性能、实现缓存、保障流水线安全,并在 GitHub Actions、GitLab CI 及其他平台上调试问题。

gitops-workflows

使用 ArgoCD 和 Flux CD 的 GitOps 工作流

实施 GitOps 实践、部署到多集群环境、安全管理密钥、实现渐进式交付,并排查同步问题。

功能特性:

  • 🚀 8 个自动化 Python 脚本ArgoCD/Flux 健康检查、仓库验证、漂移检测、密钥审计、ApplicationSet 生成)
  • 📚 8 份全面的参考指南ArgoCD vs Flux 对比、仓库模式、密钥管理、多集群、渐进式交付、OCI 制品、最佳实践、故障排查)
  • 📋 生产就绪模板ArgoCD 3.x 安装、Flux 引导、ApplicationSets、SOPS+age 配置、Argo Rollouts 金丝雀、OCI 制品)
  • 已更新支持 ArgoCD 3.x 和 Flux 2.72024-2025
  • 🔐 现代密钥管理SOPS+age、External Secrets Operator、Sealed Secrets
  • 🌐 基于 ApplicationSets 的多集群部署模式

monitoring-observability

监控与可观测性策略及实施

设计指标体系、实施分布式追踪、创建告警和仪表盘、计算 SLO 和错误预算,并为您的需求选择合适的监控工具。

功能特性:

  • 📊 6 个自动化分析脚本(分析指标、检查告警质量、计算 SLO、分析日志、生成仪表盘、验证健康检查
  • 📚 全面的参考指南指标设计、告警最佳实践、日志、追踪、SLO/SLA、工具对比
  • 📋 生产就绪模板Web 应用和 Kubernetes 的 Prometheus 告警、OpenTelemetry 采集器配置、事故处理手册)
  • 🎯 四大黄金信号、RED/USE 方法、OpenTelemetry 集成
  • 🔍 监控工具对比Prometheus、Datadog、ELK、Loki、CloudWatch

安装

添加应用市场:

/plugin marketplace add https://github.com/ahmedasmar/devops-claude-skills

安装技能:

/plugin install iac-terraform@devops-skills
/plugin install k8s-troubleshooter@devops-skills
/plugin install aws-cost-optimization@devops-skills
/plugin install ci-cd@devops-skills
/plugin install gitops-workflows@devops-skills
/plugin install monitoring-observability@devops-skills

使用方式

安装完成后,通过 Claude Code 描述您的需求来使用这些技能:

监控与可观测性:

  • "帮我为 Web 应用配置 Prometheus 监控"
  • "根据 SLO 最佳实践为我的服务创建告警"
  • "计算 99.9% 可用性目标下的错误预算消耗"
  • "为我的 Kubernetes 集群设计 Grafana 仪表盘"
  • "我的初创公司该用 Prometheus 还是 Datadog"
  • "在我的 Node.js 应用中实现 OpenTelemetry 分布式追踪"
  • "检查我的 Prometheus 告警规则质量"

AWS 成本优化:

  • "查找正在产生费用的 AWS 闲置资源"
  • "分析我的 EC2 实例,寻找预留实例机会"
  • "在 S3 中存储不常访问的数据最便宜的方式是什么?"
  • "帮我建立月度 AWS 成本审查流程"
  • "检测我 AWS 支出中的成本异常"

Terraform

  • "帮我创建一个可复用的 VPC Terraform 模块"
  • "检查我的 Terraform 状态是否存在漂移"
  • "排查这个 Terraform 报错"

Kubernetes

  • "这个 Pod 处于 CrashLoopBackOff 状态,帮我诊断"
  • "检查我的 Kubernetes 集群健康状况"
  • "帮我排查这个部署问题"

GitOps

  • "为我的 Kubernetes 集群配置 ArgoCD"
  • "帮我设计一个适合多环境部署的 GitOps 仓库结构"
  • "我的 ArgoCD 应用处于 OutOfSync 状态,帮我排查"
  • "使用金丝雀部署实现渐进式交付"
  • "在 GitOps 中如何管理密钥?"
  • "使用 Flux 配置多集群部署"
  • "我的平台该用 ArgoCD 还是 Flux"

贡献

贡献新的 DevOps 技能:

  1. Fork 此仓库
  2. 以技能名称(小写,用连字符分隔)创建新目录
  3. 添加 .claude-plugin/plugin.json 清单文件
  4. 添加带有适当前置元数据的 skills/SKILL.md
  5. 更新 .claude-plugin/marketplace.json 以包含您的技能
  6. 提交 Pull Request

许可证

MIT