mc-skills/catalog

Fork 0

mc-skills 6e3f9bab06 catalog: 更新 2026-04-06 22:24

2026-04-06 22:24:03 +08:00

12 KiB

Raw Blame History

开源音乐生成模型

音乐生成 AI音乐 扩散模型 LoRA微调 多语言

ACE-Step 1.5

突破开源音乐生成的边界

📝 摘要

🚀 我们推出 ACE-Step v1.5，一款高效的开源音乐基础模型，能在消费级硬件上实现商业级音乐生成。在常用评估指标上，ACE-Step v1.5 的质量超越了大多数商业音乐模型，同时速度极快——在 A100 上每首完整歌曲不到 2 秒，在 RTX 3090 上不到 10 秒。该模型在本地运行仅需不到 4GB 显存，并支持轻量级个性化：用户只需少量歌曲即可训练 LoRA 来捕捉自己的风格。

🌉 其核心是一种新颖的混合架构，其中语言模型（LM）作为全能规划器：将简单的用户请求转化为完整的歌曲蓝图——从短循环到 10 分钟的作品——同时通过思维链（Chain-of-Thought）合成元数据、歌词和说明文字，以引导扩散Transformer（DiT）。⚡ 独特的是，这种对齐完全通过内在强化学习实现，仅依赖模型自身机制，从而消除了外部奖励模型或人类偏好所带来的偏差。🎚️

🔮 除标准合成外，ACE-Step v1.5 将精确的风格控制与多样化编辑能力统一起来——如翻唱生成、重绘和人声转伴奏——同时严格遵循 50 多种语言的提示词。这为音乐创作者、制作人和内容创作者提供了能无缝融入创作流程的强大工具。🎸

✨ 特性

⚡ 性能

✅ 超快生成 — A100 上每首完整歌曲不到 2 秒，RTX 3090 不到 10 秒（A100 上根据思考模式和扩散步数，0.5 秒到 10 秒不等）
✅ 灵活时长 — 支持 10 秒到 10 分钟（600 秒）的音频生成
✅ 批量生成 — 最多同时生成 8 首歌曲

🎵 生成质量

✅ 商业级输出 — 质量超越大多数商业音乐模型（介于 Suno v4.5 和 Suno v5 之间）
✅ 丰富风格支持 — 支持 1000 多种乐器和风格，具备精细的音色描述
✅ 多语言歌词 — 支持 50 多种语言的歌词提示，用于结构和风格控制

🎛️ 多功能与控制

功能	描述
✅ 参考音频输入	使用参考音频引导生成风格
✅ 翻唱生成	基于现有音频创建翻唱版本
✅ 重绘与编辑	选择性局部音频编辑与重新生成
✅ 音轨分离	将音频分离为独立音轨
✅ 多轨生成	类似 Suno Studio 的"添加图层"功能叠加音层
✅ 人声转伴奏	自动为人声轨道生成伴奏
✅ 元数据控制	控制时长、BPM、调性/音阶、拍号
✅ 简单模式	通过简单描述生成完整歌曲
✅ 查询改写	自动 LM 扩展标签和歌词
✅ 音频理解	从音频中提取 BPM、调性/音阶、拍号及描述
✅ LRC 生成	为生成的音乐自动生成歌词时间戳
✅ LoRA 训练	在 Gradio 中一键标注和训练。8 首歌曲，3090（12GB 显存）上约 1 小时
✅ 质量评分	对生成音频进行自动质量评估

保持关注

Star ACE-Step 的 GitHub 仓库，即时获得新版本通知。

⚡ 快速开始

环境要求： Python 3.11+，推荐使用 CUDA GPU（也支持 MPS / ROCm / Intel XPU / CPU）

# 1. 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh          # macOS / Linux
# powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"  # Windows

# 2. 克隆并安装
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync

# 3. 启动 Gradio UI（首次运行时自动下载模型）
uv run acestep

# 或启动 REST API 服务器
uv run acestep-api

打开 http://localhost:7860（Gradio）或 http://localhost:8001（API）。

📦 Windows 用户： 提供含预装依赖的便携包。详见安装指南。

📖 完整安装指南（AMD/ROCm、Intel GPU、CPU、环境变量、命令行选项）：English | 中文 | 日本語

💡 我该选择哪个模型？

显卡显存	推荐 LM 模型	说明
≤6GB	无（仅 DiT）	默认禁用 LM 以节省内存
6-12GB	`acestep-5Hz-lm-0.6B`	轻量级，性能均衡
12-16GB	`acestep-5Hz-lm-1.7B`	更佳质量
≥16GB	`acestep-5Hz-lm-4B`	最佳质量和音频理解能力

📖 GPU 兼容性详情：English | 中文 | 日本語

📚 文档

使用指南

方式	描述	文档
🖥️ Gradio Web UI	音乐生成的交互式网页界面	指南
🎚️ Studio UI	可选的 HTML 前端（类 DAW 界面）	指南
🐍 Python API	用于集成的编程接口	指南
🌐 REST API	基于 HTTP 的异步服务接口	指南
⌨️ CLI	交互式向导和配置	指南

配置与设置

主题	文档
📦 安装（所有平台）	English \| 中文 \| 日本語
🎮 GPU 兼容性	English \| 中文 \| 日本語
🔧 GPU 故障排查	English
🔬 基准测试与性能分析	English \| 中文

多语言文档

语言	API	Gradio	推理	教程	安装	基准测试
🇺🇸 英文	链接	链接	链接	链接	链接	链接
🇨🇳 中文	链接	链接	链接	链接	链接	链接
🇯🇵 日文	链接	链接	链接	链接	链接	—
🇰🇷 韩文	链接	链接	链接	链接	—	—

📖 教程

🎯 必读： ACE-Step 1.5 设计理念与使用方法的综合指南。

语言	链接
🇺🇸 英文	English Tutorial
🇨🇳 中文	中文教程
🇯🇵 日文	日本語チュートリアル

本教程涵盖：思维模型与设计理念、模型架构与选择、输入控制（文本和音频）、推理超参数、随机因素与优化策略。

🔨 训练

在 Gradio UI 的 LoRA 训练 标签页中进行一键训练，或查看 Gradio 指南 - LoRA 训练了解详情。

🏗️ 架构

🦁 模型库

DiT 模型

DiT 模型	预训练	SFT	RL	CFG	步数	参考音频	文本转音乐	翻唱	重绘	提取	Lego	补全	质量	多样性	可微调性	Hugging Face
`acestep-v15-base`	✅	❌	❌	✅	50	✅	✅	✅	✅	✅	✅	✅	中	高	容易	链接
`acestep-v15-sft`	✅	✅	❌	✅	50	✅	✅	✅	✅	❌	❌	❌	高	中	容易	链接
`acestep-v15-turbo`	✅	✅	❌	❌	8	✅	✅	✅	✅	❌	❌	❌	非常高	中	中等	链接
`acestep-v15-turbo-rl`	✅	✅	✅	❌	8	✅	✅	✅	✅	❌	❌	❌	非常高	中	中等	即将发布

LM 模型

LM 模型	基础模型	预训练	SFT	RL	CoT 元数据	查询改写	音频理解	创作能力	旋律复制	Hugging Face
`acestep-5Hz-lm-0.6B`	Qwen3-0.6B	✅	✅	✅	✅	✅	中等	中等	弱	✅
`acestep-5Hz-lm-1.7B`	Qwen3-1.7B	✅	✅	✅	✅	✅	中等	中等	中等	✅
`acestep-5Hz-lm-4B`	Qwen3-4B	✅	✅	✅	✅	✅	强	强	强	✅

🔬 基准测试

ACE-Step 1.5 包含 profile_inference.py，这是一个性能分析和基准测试工具，可测量不同设备和配置下 LLM、DiT 和 VAE 的耗时。

python profile_inference.py                        # 单次运行分析
python profile_inference.py --mode benchmark       # 配置矩阵测试

📖 完整指南（所有模式、CLI 选项、结果解读）：English | 中文

📜 许可证与免责声明

本项目采用 MIT 许可证。

ACE-Step 支持跨多种风格的原创音乐生成，可应用于创意制作、教育和娱乐领域。虽然其设计旨在支持积极的艺术创作，但我们认识到潜在风险，例如因风格相似导致的无意版权侵犯、不当融合文化元素，以及被滥用于生成有害内容。为确保负责任地使用，我们鼓励用户验证生成作品的原创性、明确披露 AI 参与情况，并在改编受保护的风格或素材时获取适当授权。使用 ACE-Step，即表示您同意遵守上述原则，尊重艺术完整性、文化多样性和法律合规要求。作者对模型的任何滥用行为不承担责任，包括但不限于版权侵犯、文化不敏感或生成有害内容。

🔔 重要提示 ACE-Step 项目唯一官方网站是我们的 GitHub Pages 站点。我们不运营任何其他网站。 🚫 仿冒域名包括但不限于： ac**p.com、a**p.org、a***c.org ⚠️ 请保持警惕，不要访问、信任或在上述任何网站上付款。

🙏 致谢

本项目由 ACE Studio 和 StepFun 联合主导。

📖 引用

如果您觉得本项目对您的研究有帮助，请考虑引用：

@misc{gong2026acestep,
	title={ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation},
	author={Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo}, 
	howpublished={\url{https://github.com/ace-step/ACE-Step-1.5}},
	year={2026},
	note={GitHub repository}
}

12 KiB Raw Blame History Unescape Escape