突破零样本 TTS 音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
2026-04-20
美团LongCat-AudioDiT提出了一种端到端的文本转语音新范式。其核心创新在于摒弃了传统的梅尔谱中间表示,直接在波形潜空间进行扩散建模,从根源上避免了级联误差导致的信息损失。模型通过修复训练-推理不匹配问题、采用自适应投影引导(APG)等关键技术,显著提升了生成质量。在Seed基准测试中,该模型取得了零样本语音克隆的SOTA性能,验证了波形空间直接生成的有效性,为高保真语音合成提供了新思路。