# DevOps技能集合 `DevOps` `Terraform` `Kubernetes` `AWS` `CI/CD` `GitOps` `监控` # DevOps 技能集 面向 DevOps 的 [Claude Code](https://claude.com/claude-code) 社区技能仓库。 ## 可用技能 ### iac-terraform **使用 Terraform 和 Terragrunt 的基础设施即代码** 用于创建、验证、排查和管理 Terraform 配置、模块及状态。包含状态检查工具、模块验证器和全面的故障排查指南。 ### k8s-troubleshooter **系统化的 Kubernetes 故障排查与事故响应** 诊断 Pod 故障、集群问题、性能问题和生产事故。提供集群健康检查、Pod 诊断和结构化事故响应手册。 ### aws-cost-optimization **AWS 成本优化与 FinOps 工作流** 查找闲置资源、分析预留实例机会、检测成本异常、合理调整实例规格、评估竞价实例,并实施 FinOps 最佳实践。 **功能特性:** - 🔍 6 个自动化分析脚本(发现浪费、分析 RI、检测旧代机型、评估竞价实例、调整资源规格、检测异常) - 📊 全面的参考指南(最佳实践、服务替代方案、FinOps 治理) - 📝 月度成本报告模板 - 💰 首次运行即可发现实际节省空间 - ⚡ 与 AWS API 完整集成(EC2、RDS、EBS、S3、CloudWatch、Cost Explorer) ### ci-cd **CI/CD 流水线设计、优化、安全与故障排查** 创建工作流、优化构建性能、实现缓存、保障流水线安全,并在 GitHub Actions、GitLab CI 及其他平台上调试问题。 ### gitops-workflows **使用 ArgoCD 和 Flux CD 的 GitOps 工作流** 实施 GitOps 实践、部署到多集群环境、安全管理密钥、实现渐进式交付,并排查同步问题。 **功能特性:** - 🚀 8 个自动化 Python 脚本(ArgoCD/Flux 健康检查、仓库验证、漂移检测、密钥审计、ApplicationSet 生成) - 📚 8 份全面的参考指南(ArgoCD vs Flux 对比、仓库模式、密钥管理、多集群、渐进式交付、OCI 制品、最佳实践、故障排查) - 📋 生产就绪模板(ArgoCD 3.x 安装、Flux 引导、ApplicationSets、SOPS+age 配置、Argo Rollouts 金丝雀、OCI 制品) - ✨ 已更新支持 ArgoCD 3.x 和 Flux 2.7(2024-2025) - 🔐 现代密钥管理(SOPS+age、External Secrets Operator、Sealed Secrets) - 🌐 基于 ApplicationSets 的多集群部署模式 ### monitoring-observability **监控与可观测性策略及实施** 设计指标体系、实施分布式追踪、创建告警和仪表盘、计算 SLO 和错误预算,并为您的需求选择合适的监控工具。 **功能特性:** - 📊 6 个自动化分析脚本(分析指标、检查告警质量、计算 SLO、分析日志、生成仪表盘、验证健康检查) - 📚 全面的参考指南(指标设计、告警最佳实践、日志、追踪、SLO/SLA、工具对比) - 📋 生产就绪模板(Web 应用和 Kubernetes 的 Prometheus 告警、OpenTelemetry 采集器配置、事故处理手册) - 🎯 四大黄金信号、RED/USE 方法、OpenTelemetry 集成 - 🔍 监控工具对比(Prometheus、Datadog、ELK、Loki、CloudWatch) ## 安装 添加应用市场: ```bash /plugin marketplace add https://github.com/ahmedasmar/devops-claude-skills ``` 安装技能: ```bash /plugin install iac-terraform@devops-skills /plugin install k8s-troubleshooter@devops-skills /plugin install aws-cost-optimization@devops-skills /plugin install ci-cd@devops-skills /plugin install gitops-workflows@devops-skills /plugin install monitoring-observability@devops-skills ``` ## 使用方式 安装完成后,通过 Claude Code 描述您的需求来使用这些技能: **监控与可观测性:** - "帮我为 Web 应用配置 Prometheus 监控" - "根据 SLO 最佳实践为我的服务创建告警" - "计算 99.9% 可用性目标下的错误预算消耗" - "为我的 Kubernetes 集群设计 Grafana 仪表盘" - "我的初创公司该用 Prometheus 还是 Datadog?" - "在我的 Node.js 应用中实现 OpenTelemetry 分布式追踪" - "检查我的 Prometheus 告警规则质量" **AWS 成本优化:** - "查找正在产生费用的 AWS 闲置资源" - "分析我的 EC2 实例,寻找预留实例机会" - "在 S3 中存储不常访问的数据最便宜的方式是什么?" - "帮我建立月度 AWS 成本审查流程" - "检测我 AWS 支出中的成本异常" **Terraform:** - "帮我创建一个可复用的 VPC Terraform 模块" - "检查我的 Terraform 状态是否存在漂移" - "排查这个 Terraform 报错" **Kubernetes:** - "这个 Pod 处于 CrashLoopBackOff 状态,帮我诊断" - "检查我的 Kubernetes 集群健康状况" - "帮我排查这个部署问题" **GitOps:** - "为我的 Kubernetes 集群配置 ArgoCD" - "帮我设计一个适合多环境部署的 GitOps 仓库结构" - "我的 ArgoCD 应用处于 OutOfSync 状态,帮我排查" - "使用金丝雀部署实现渐进式交付" - "在 GitOps 中如何管理密钥?" - "使用 Flux 配置多集群部署" - "我的平台该用 ArgoCD 还是 Flux?" ## 贡献 贡献新的 DevOps 技能: 1. Fork 此仓库 2. 以技能名称(小写,用连字符分隔)创建新目录 3. 添加 `.claude-plugin/plugin.json` 清单文件 4. 添加带有适当前置元数据的 `skills/SKILL.md` 5. 更新 `.claude-plugin/marketplace.json` 以包含您的技能 6. 提交 Pull Request ## 许可证 MIT