Minimax 最近发布的 Speech-02 音频模型,无论是打榜还是实际体验都很不错。今天技术报告也发布了。 arxiv.org/pdf/2505.07916
总的来说,该模型应用的 MiniMax-Speech 技术通过可学习的说话人编码器实现了高质量、高表现力、高相似度的真正零样本语音克隆,摆脱了对参考音频文本转录的依赖。结合Flow- https://mapp.api.weibo.cn/fx/3c45b8ff878b468b81c8cf93b082d05a.html
总的来说,该模型应用的 MiniMax-Speech 技术通过可学习的说话人编码器实现了高质量、高表现力、高相似度的真正零样本语音克隆,摆脱了对参考音频文本转录的依赖。结合Flow- https://mapp.api.weibo.cn/fx/3c45b8ff878b468b81c8cf93b082d05a.html