229 lines
12 KiB
Markdown
229 lines
12 KiB
Markdown
|
|
# 开源音乐生成模型
|
|||
|
|
|
|||
|
|
`音乐生成` `AI音乐` `扩散模型` `LoRA微调` `多语言`
|
|||
|
|
|
|||
|
|
<h1 align="center">ACE-Step 1.5</h1>
|
|||
|
|
<h1 align="center">突破开源音乐生成的边界</h1>
|
|||
|
|
<p align="center">
|
|||
|
|
<a href="https://ace-step.github.io/ace-step-v1.5.github.io/">项目主页</a> |
|
|||
|
|
<a href="https://huggingface.co/ACE-Step/Ace-Step1.5">Hugging Face</a> |
|
|||
|
|
<a href="https://modelscope.cn/models/ACE-Step/Ace-Step1.5">ModelScope</a> |
|
|||
|
|
<a href="https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5">在线演示</a> |
|
|||
|
|
<a href="https://discord.gg/PeWDxrkdj7">Discord</a> |
|
|||
|
|
<a href="https://arxiv.org/abs/2602.00744">技术报告</a>
|
|||
|
|
</p>
|
|||
|
|
|
|||
|
|
## 目录
|
|||
|
|
|
|||
|
|
- [✨ 特性](#-特性)
|
|||
|
|
- [⚡ 快速开始](#-快速开始)
|
|||
|
|
- [📚 文档](#-文档)
|
|||
|
|
- [📖 教程](#-教程)
|
|||
|
|
- [🏗️ 架构](#️-架构)
|
|||
|
|
- [🦁 模型库](#-模型库)
|
|||
|
|
- [🔬 基准测试](#-基准测试)
|
|||
|
|
|
|||
|
|
## 📝 摘要
|
|||
|
|
|
|||
|
|
🚀 我们推出 ACE-Step v1.5,一款高效的开源音乐基础模型,能在消费级硬件上实现商业级音乐生成。在常用评估指标上,ACE-Step v1.5 的质量超越了大多数商业音乐模型,同时速度极快——在 A100 上每首完整歌曲不到 2 秒,在 RTX 3090 上不到 10 秒。该模型在本地运行仅需不到 4GB 显存,并支持轻量级个性化:用户只需少量歌曲即可训练 LoRA 来捕捉自己的风格。
|
|||
|
|
|
|||
|
|
🌉 其核心是一种新颖的混合架构,其中语言模型(LM)作为全能规划器:将简单的用户请求转化为完整的歌曲蓝图——从短循环到 10 分钟的作品——同时通过思维链(Chain-of-Thought)合成元数据、歌词和说明文字,以引导扩散Transformer(DiT)。⚡ 独特的是,这种对齐完全通过内在强化学习实现,仅依赖模型自身机制,从而消除了外部奖励模型或人类偏好所带来的偏差。🎚️
|
|||
|
|
|
|||
|
|
🔮 除标准合成外,ACE-Step v1.5 将精确的风格控制与多样化编辑能力统一起来——如翻唱生成、重绘和人声转伴奏——同时严格遵循 50 多种语言的提示词。这为音乐创作者、制作人和内容创作者提供了能无缝融入创作流程的强大工具。🎸
|
|||
|
|
|
|||
|
|
## ✨ 特性
|
|||
|
|
|
|||
|
|
<p align="center">
|
|||
|
|
<img src="./assets/application_map.png" width="100%" alt="ACE-Step 框架">
|
|||
|
|
</p>
|
|||
|
|
|
|||
|
|
### ⚡ 性能
|
|||
|
|
|
|||
|
|
- ✅ **超快生成** — A100 上每首完整歌曲不到 2 秒,RTX 3090 不到 10 秒(A100 上根据思考模式和扩散步数,0.5 秒到 10 秒不等)
|
|||
|
|
- ✅ **灵活时长** — 支持 10 秒到 10 分钟(600 秒)的音频生成
|
|||
|
|
- ✅ **批量生成** — 最多同时生成 8 首歌曲
|
|||
|
|
|
|||
|
|
### 🎵 生成质量
|
|||
|
|
|
|||
|
|
- ✅ **商业级输出** — 质量超越大多数商业音乐模型(介于 Suno v4.5 和 Suno v5 之间)
|
|||
|
|
- ✅ **丰富风格支持** — 支持 1000 多种乐器和风格,具备精细的音色描述
|
|||
|
|
- ✅ **多语言歌词** — 支持 50 多种语言的歌词提示,用于结构和风格控制
|
|||
|
|
|
|||
|
|
### 🎛️ 多功能与控制
|
|||
|
|
|
|||
|
|
| 功能 | 描述 |
|
|||
|
|
|------|------|
|
|||
|
|
| ✅ 参考音频输入 | 使用参考音频引导生成风格 |
|
|||
|
|
| ✅ 翻唱生成 | 基于现有音频创建翻唱版本 |
|
|||
|
|
| ✅ 重绘与编辑 | 选择性局部音频编辑与重新生成 |
|
|||
|
|
| ✅ 音轨分离 | 将音频分离为独立音轨 |
|
|||
|
|
| ✅ 多轨生成 | 类似 Suno Studio 的"添加图层"功能叠加音层 |
|
|||
|
|
| ✅ 人声转伴奏 | 自动为人声轨道生成伴奏 |
|
|||
|
|
| ✅ 元数据控制 | 控制时长、BPM、调性/音阶、拍号 |
|
|||
|
|
| ✅ 简单模式 | 通过简单描述生成完整歌曲 |
|
|||
|
|
| ✅ 查询改写 | 自动 LM 扩展标签和歌词 |
|
|||
|
|
| ✅ 音频理解 | 从音频中提取 BPM、调性/音阶、拍号及描述 |
|
|||
|
|
| ✅ LRC 生成 | 为生成的音乐自动生成歌词时间戳 |
|
|||
|
|
| ✅ LoRA 训练 | 在 Gradio 中一键标注和训练。8 首歌曲,3090(12GB 显存)上约 1 小时 |
|
|||
|
|
| ✅ 质量评分 | 对生成音频进行自动质量评估 |
|
|||
|
|
|
|||
|
|
## 保持关注
|
|||
|
|
|
|||
|
|
Star ACE-Step 的 GitHub 仓库,即时获得新版本通知。
|
|||
|
|
|
|||
|
|

|
|||
|
|
|
|||
|
|
## ⚡ 快速开始
|
|||
|
|
|
|||
|
|
> **环境要求:** Python 3.11+,推荐使用 CUDA GPU(也支持 MPS / ROCm / Intel XPU / CPU)
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
# 1. 安装 uv
|
|||
|
|
curl -LsSf https://astral.sh/uv/install.sh | sh # macOS / Linux
|
|||
|
|
# powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex" # Windows
|
|||
|
|
|
|||
|
|
# 2. 克隆并安装
|
|||
|
|
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
|
|||
|
|
cd ACE-Step-1.5
|
|||
|
|
uv sync
|
|||
|
|
|
|||
|
|
# 3. 启动 Gradio UI(首次运行时自动下载模型)
|
|||
|
|
uv run acestep
|
|||
|
|
|
|||
|
|
# 或启动 REST API 服务器
|
|||
|
|
uv run acestep-api
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
打开 http://localhost:7860(Gradio)或 http://localhost:8001(API)。
|
|||
|
|
|
|||
|
|
> 📦 **Windows 用户:** 提供含预装依赖的[便携包](https://files.acemusic.ai/acemusic/win/ACE-Step-1.5.7z)。详见[安装指南](./docs/en/INSTALL.md#-windows-portable-package)。
|
|||
|
|
|
|||
|
|
> 📖 **完整安装指南**(AMD/ROCm、Intel GPU、CPU、环境变量、命令行选项):[English](./docs/en/INSTALL.md) | [中文](./docs/zh/INSTALL.md) | [日本語](./docs/ja/INSTALL.md)
|
|||
|
|
|
|||
|
|
### 💡 我该选择哪个模型?
|
|||
|
|
|
|||
|
|
| 显卡显存 | 推荐 LM 模型 | 说明 |
|
|||
|
|
|----------|-------------|------|
|
|||
|
|
| **≤6GB** | 无(仅 DiT) | 默认禁用 LM 以节省内存 |
|
|||
|
|
| **6-12GB** | `acestep-5Hz-lm-0.6B` | 轻量级,性能均衡 |
|
|||
|
|
| **12-16GB** | `acestep-5Hz-lm-1.7B` | 更佳质量 |
|
|||
|
|
| **≥16GB** | `acestep-5Hz-lm-4B` | 最佳质量和音频理解能力 |
|
|||
|
|
|
|||
|
|
> 📖 GPU 兼容性详情:[English](./docs/en/GPU_COMPATIBILITY.md) | [中文](./docs/zh/GPU_COMPATIBILITY.md) | [日本語](./docs/ja/GPU_COMPATIBILITY.md)
|
|||
|
|
|
|||
|
|
## 📚 文档
|
|||
|
|
|
|||
|
|
### 使用指南
|
|||
|
|
|
|||
|
|
| 方式 | 描述 | 文档 |
|
|||
|
|
|------|------|------|
|
|||
|
|
| 🖥️ **Gradio Web UI** | 音乐生成的交互式网页界面 | [指南](./docs/en/GRADIO_GUIDE.md) |
|
|||
|
|
| 🎚️ **Studio UI** | 可选的 HTML 前端(类 DAW 界面) | [指南](./docs/en/studio.md) |
|
|||
|
|
| 🐍 **Python API** | 用于集成的编程接口 | [指南](./docs/en/INFERENCE.md) |
|
|||
|
|
| 🌐 **REST API** | 基于 HTTP 的异步服务接口 | [指南](./docs/en/API.md) |
|
|||
|
|
| ⌨️ **CLI** | 交互式向导和配置 | [指南](./docs/en/CLI.md) |
|
|||
|
|
|
|||
|
|
### 配置与设置
|
|||
|
|
|
|||
|
|
| 主题 | 文档 |
|
|||
|
|
|------|------|
|
|||
|
|
| 📦 安装(所有平台) | [English](./docs/en/INSTALL.md) \| [中文](./docs/zh/INSTALL.md) \| [日本語](./docs/ja/INSTALL.md) |
|
|||
|
|
| 🎮 GPU 兼容性 | [English](./docs/en/GPU_COMPATIBILITY.md) \| [中文](./docs/zh/GPU_COMPATIBILITY.md) \| [日本語](./docs/ja/GPU_COMPATIBILITY.md) |
|
|||
|
|
| 🔧 GPU 故障排查 | [English](./docs/en/GPU_TROUBLESHOOTING.md) |
|
|||
|
|
| 🔬 基准测试与性能分析 | [English](./docs/en/BENCHMARK.md) \| [中文](./docs/zh/BENCHMARK.md) |
|
|||
|
|
|
|||
|
|
### 多语言文档
|
|||
|
|
|
|||
|
|
| 语言 | API | Gradio | 推理 | 教程 | 安装 | 基准测试 |
|
|||
|
|
|------|-----|--------|------|------|------|----------|
|
|||
|
|
| 🇺🇸 英文 | [链接](./docs/en/API.md) | [链接](./docs/en/GRADIO_GUIDE.md) | [链接](./docs/en/INFERENCE.md) | [链接](./docs/en/Tutorial.md) | [链接](./docs/en/INSTALL.md) | [链接](./docs/en/BENCHMARK.md) |
|
|||
|
|
| 🇨🇳 中文 | [链接](./docs/zh/API.md) | [链接](./docs/zh/GRADIO_GUIDE.md) | [链接](./docs/zh/INFERENCE.md) | [链接](./docs/zh/Tutorial.md) | [链接](./docs/zh/INSTALL.md) | [链接](./docs/zh/BENCHMARK.md) |
|
|||
|
|
| 🇯🇵 日文 | [链接](./docs/ja/API.md) | [链接](./docs/ja/GRADIO_GUIDE.md) | [链接](./docs/ja/INFERENCE.md) | [链接](./docs/ja/Tutorial.md) | [链接](./docs/ja/INSTALL.md) | — |
|
|||
|
|
| 🇰🇷 韩文 | [链接](./docs/ko/API.md) | [链接](./docs/ko/GRADIO_GUIDE.md) | [链接](./docs/ko/INFERENCE.md) | [链接](./docs/ko/Tutorial.md) | — | — |
|
|||
|
|
|
|||
|
|
## 📖 教程
|
|||
|
|
|
|||
|
|
**🎯 必读:** ACE-Step 1.5 设计理念与使用方法的综合指南。
|
|||
|
|
|
|||
|
|
| 语言 | 链接 |
|
|||
|
|
|------|------|
|
|||
|
|
| 🇺🇸 英文 | [English Tutorial](./docs/en/Tutorial.md) |
|
|||
|
|
| 🇨🇳 中文 | [中文教程](./docs/zh/Tutorial.md) |
|
|||
|
|
| 🇯🇵 日文 | [日本語チュートリアル](./docs/ja/Tutorial.md) |
|
|||
|
|
|
|||
|
|
本教程涵盖:思维模型与设计理念、模型架构与选择、输入控制(文本和音频)、推理超参数、随机因素与优化策略。
|
|||
|
|
|
|||
|
|
## 🔨 训练
|
|||
|
|
|
|||
|
|
在 Gradio UI 的 **LoRA 训练** 标签页中进行一键训练,或查看 [Gradio 指南 - LoRA 训练](./docs/en/GRADIO_GUIDE.md#lora-training) 了解详情。
|
|||
|
|
|
|||
|
|
## 🏗️ 架构
|
|||
|
|
|
|||
|
|
<p align="center">
|
|||
|
|
<img src="./assets/ACE-Step_framework.png" width="100%" alt="ACE-Step 框架">
|
|||
|
|
</p>
|
|||
|
|
|
|||
|
|
## 🦁 模型库
|
|||
|
|
|
|||
|
|
<p align="center">
|
|||
|
|
<img src="./assets/model_zoo.png" width="100%" alt="模型库">
|
|||
|
|
</p>
|
|||
|
|
|
|||
|
|
### DiT 模型
|
|||
|
|
|
|||
|
|
| DiT 模型 | 预训练 | SFT | RL | CFG | 步数 | 参考音频 | 文本转音乐 | 翻唱 | 重绘 | 提取 | Lego | 补全 | 质量 | 多样性 | 可微调性 | Hugging Face |
|
|||
|
|
|----------|:------:|:---:|:--:|:---:|:----:|:--------:|:----------:|:----:|:----:|:----:|:----:|:----:|:----:|:------:|:--------:|--------------|
|
|||
|
|
| `acestep-v15-base` | ✅ | ❌ | ❌ | ✅ | 50 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | 中 | 高 | 容易 | [链接](https://huggingface.co/ACE-Step/acestep-v15-base) |
|
|||
|
|
| `acestep-v15-sft` | ✅ | ✅ | ❌ | ✅ | 50 | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | 高 | 中 | 容易 | [链接](https://huggingface.co/ACE-Step/acestep-v15-sft) |
|
|||
|
|
| `acestep-v15-turbo` | ✅ | ✅ | ❌ | ❌ | 8 | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | 非常高 | 中 | 中等 | [链接](https://huggingface.co/ACE-Step/Ace-Step1.5) |
|
|||
|
|
| `acestep-v15-turbo-rl` | ✅ | ✅ | ✅ | ❌ | 8 | ✅ | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | 非常高 | 中 | 中等 | 即将发布 |
|
|||
|
|
|
|||
|
|
### LM 模型
|
|||
|
|
|
|||
|
|
| LM 模型 | 基础模型 | 预训练 | SFT | RL | CoT 元数据 | 查询改写 | 音频理解 | 创作能力 | 旋律复制 | Hugging Face |
|
|||
|
|
|---------|---------|:------:|:---:|:--:|:----------:|:--------:|:--------:|:--------:|:--------:|--------------|
|
|||
|
|
| `acestep-5Hz-lm-0.6B` | Qwen3-0.6B | ✅ | ✅ | ✅ | ✅ | ✅ | 中等 | 中等 | 弱 | ✅ |
|
|||
|
|
| `acestep-5Hz-lm-1.7B` | Qwen3-1.7B | ✅ | ✅ | ✅ | ✅ | ✅ | 中等 | 中等 | 中等 | ✅ |
|
|||
|
|
| `acestep-5Hz-lm-4B` | Qwen3-4B | ✅ | ✅ | ✅ | ✅ | ✅ | 强 | 强 | 强 | ✅ |
|
|||
|
|
|
|||
|
|
## 🔬 基准测试
|
|||
|
|
|
|||
|
|
ACE-Step 1.5 包含 `profile_inference.py`,这是一个性能分析和基准测试工具,可测量不同设备和配置下 LLM、DiT 和 VAE 的耗时。
|
|||
|
|
|
|||
|
|
```bash
|
|||
|
|
python profile_inference.py # 单次运行分析
|
|||
|
|
python profile_inference.py --mode benchmark # 配置矩阵测试
|
|||
|
|
```
|
|||
|
|
|
|||
|
|
> 📖 **完整指南**(所有模式、CLI 选项、结果解读):[English](./docs/en/BENCHMARK.md) | [中文](./docs/zh/BENCHMARK.md)
|
|||
|
|
|
|||
|
|
## 📜 许可证与免责声明
|
|||
|
|
|
|||
|
|
本项目采用 [MIT](./LICENSE) 许可证。
|
|||
|
|
|
|||
|
|
ACE-Step 支持跨多种风格的原创音乐生成,可应用于创意制作、教育和娱乐领域。虽然其设计旨在支持积极的艺术创作,但我们认识到潜在风险,例如因风格相似导致的无意版权侵犯、不当融合文化元素,以及被滥用于生成有害内容。为确保负责任地使用,我们鼓励用户验证生成作品的原创性、明确披露 AI 参与情况,并在改编受保护的风格或素材时获取适当授权。使用 ACE-Step,即表示您同意遵守上述原则,尊重艺术完整性、文化多样性和法律合规要求。作者对模型的任何滥用行为不承担责任,包括但不限于版权侵犯、文化不敏感或生成有害内容。
|
|||
|
|
|
|||
|
|
🔔 重要提示
|
|||
|
|
ACE-Step 项目唯一官方网站是我们的 GitHub Pages 站点。
|
|||
|
|
我们不运营任何其他网站。
|
|||
|
|
🚫 仿冒域名包括但不限于:
|
|||
|
|
ac\*\*p.com、a\*\*p.org、a\*\*\*c.org
|
|||
|
|
⚠️ 请保持警惕,不要访问、信任或在上述任何网站上付款。
|
|||
|
|
|
|||
|
|
## 🙏 致谢
|
|||
|
|
|
|||
|
|
本项目由 ACE Studio 和 StepFun 联合主导。
|
|||
|
|
|
|||
|
|
## 📖 引用
|
|||
|
|
|
|||
|
|
如果您觉得本项目对您的研究有帮助,请考虑引用:
|
|||
|
|
|
|||
|
|
```BibTeX
|
|||
|
|
@misc{gong2026acestep,
|
|||
|
|
title={ACE-Step 1.5: Pushing the Boundaries of Open-Source Music Generation},
|
|||
|
|
author={Junmin Gong, Yulin Song, Wenxiao Zhao, Sen Wang, Shengyuan Xu, Jing Guo},
|
|||
|
|
howpublished={\url{https://github.com/ace-step/ACE-Step-1.5}},
|
|||
|
|
year={2026},
|
|||
|
|
note={GitHub repository}
|
|||
|
|
}
|
|||
|
|
```
|