5.3 KiB
5.3 KiB
DevOps技能集合
DevOps Terraform Kubernetes AWS CI/CD GitOps 监控
DevOps 技能集
面向 DevOps 的 Claude Code 社区技能仓库。
可用技能
iac-terraform
使用 Terraform 和 Terragrunt 的基础设施即代码
用于创建、验证、排查和管理 Terraform 配置、模块及状态。包含状态检查工具、模块验证器和全面的故障排查指南。
k8s-troubleshooter
系统化的 Kubernetes 故障排查与事故响应
诊断 Pod 故障、集群问题、性能问题和生产事故。提供集群健康检查、Pod 诊断和结构化事故响应手册。
aws-cost-optimization
AWS 成本优化与 FinOps 工作流
查找闲置资源、分析预留实例机会、检测成本异常、合理调整实例规格、评估竞价实例,并实施 FinOps 最佳实践。
功能特性:
- 🔍 6 个自动化分析脚本(发现浪费、分析 RI、检测旧代机型、评估竞价实例、调整资源规格、检测异常)
- 📊 全面的参考指南(最佳实践、服务替代方案、FinOps 治理)
- 📝 月度成本报告模板
- 💰 首次运行即可发现实际节省空间
- ⚡ 与 AWS API 完整集成(EC2、RDS、EBS、S3、CloudWatch、Cost Explorer)
ci-cd
CI/CD 流水线设计、优化、安全与故障排查
创建工作流、优化构建性能、实现缓存、保障流水线安全,并在 GitHub Actions、GitLab CI 及其他平台上调试问题。
gitops-workflows
使用 ArgoCD 和 Flux CD 的 GitOps 工作流
实施 GitOps 实践、部署到多集群环境、安全管理密钥、实现渐进式交付,并排查同步问题。
功能特性:
- 🚀 8 个自动化 Python 脚本(ArgoCD/Flux 健康检查、仓库验证、漂移检测、密钥审计、ApplicationSet 生成)
- 📚 8 份全面的参考指南(ArgoCD vs Flux 对比、仓库模式、密钥管理、多集群、渐进式交付、OCI 制品、最佳实践、故障排查)
- 📋 生产就绪模板(ArgoCD 3.x 安装、Flux 引导、ApplicationSets、SOPS+age 配置、Argo Rollouts 金丝雀、OCI 制品)
- ✨ 已更新支持 ArgoCD 3.x 和 Flux 2.7(2024-2025)
- 🔐 现代密钥管理(SOPS+age、External Secrets Operator、Sealed Secrets)
- 🌐 基于 ApplicationSets 的多集群部署模式
monitoring-observability
监控与可观测性策略及实施
设计指标体系、实施分布式追踪、创建告警和仪表盘、计算 SLO 和错误预算,并为您的需求选择合适的监控工具。
功能特性:
- 📊 6 个自动化分析脚本(分析指标、检查告警质量、计算 SLO、分析日志、生成仪表盘、验证健康检查)
- 📚 全面的参考指南(指标设计、告警最佳实践、日志、追踪、SLO/SLA、工具对比)
- 📋 生产就绪模板(Web 应用和 Kubernetes 的 Prometheus 告警、OpenTelemetry 采集器配置、事故处理手册)
- 🎯 四大黄金信号、RED/USE 方法、OpenTelemetry 集成
- 🔍 监控工具对比(Prometheus、Datadog、ELK、Loki、CloudWatch)
安装
添加应用市场:
/plugin marketplace add https://github.com/ahmedasmar/devops-claude-skills
安装技能:
/plugin install iac-terraform@devops-skills
/plugin install k8s-troubleshooter@devops-skills
/plugin install aws-cost-optimization@devops-skills
/plugin install ci-cd@devops-skills
/plugin install gitops-workflows@devops-skills
/plugin install monitoring-observability@devops-skills
使用方式
安装完成后,通过 Claude Code 描述您的需求来使用这些技能:
监控与可观测性:
- "帮我为 Web 应用配置 Prometheus 监控"
- "根据 SLO 最佳实践为我的服务创建告警"
- "计算 99.9% 可用性目标下的错误预算消耗"
- "为我的 Kubernetes 集群设计 Grafana 仪表盘"
- "我的初创公司该用 Prometheus 还是 Datadog?"
- "在我的 Node.js 应用中实现 OpenTelemetry 分布式追踪"
- "检查我的 Prometheus 告警规则质量"
AWS 成本优化:
- "查找正在产生费用的 AWS 闲置资源"
- "分析我的 EC2 实例,寻找预留实例机会"
- "在 S3 中存储不常访问的数据最便宜的方式是什么?"
- "帮我建立月度 AWS 成本审查流程"
- "检测我 AWS 支出中的成本异常"
Terraform:
- "帮我创建一个可复用的 VPC Terraform 模块"
- "检查我的 Terraform 状态是否存在漂移"
- "排查这个 Terraform 报错"
Kubernetes:
- "这个 Pod 处于 CrashLoopBackOff 状态,帮我诊断"
- "检查我的 Kubernetes 集群健康状况"
- "帮我排查这个部署问题"
GitOps:
- "为我的 Kubernetes 集群配置 ArgoCD"
- "帮我设计一个适合多环境部署的 GitOps 仓库结构"
- "我的 ArgoCD 应用处于 OutOfSync 状态,帮我排查"
- "使用金丝雀部署实现渐进式交付"
- "在 GitOps 中如何管理密钥?"
- "使用 Flux 配置多集群部署"
- "我的平台该用 ArgoCD 还是 Flux?"
贡献
贡献新的 DevOps 技能:
- Fork 此仓库
- 以技能名称(小写,用连字符分隔)创建新目录
- 添加
.claude-plugin/plugin.json清单文件 - 添加带有适当前置元数据的
skills/SKILL.md - 更新
.claude-plugin/marketplace.json以包含您的技能 - 提交 Pull Request
许可证
MIT