meituan_2026-04-21

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

2026-04-20

美团LongCat-AudioDiT提出了一种端到端的文本转语音新范式。其核心创新在于摒弃了传统的梅尔谱中间表示，直接在波形潜空间进行扩散建模，从根源上避免了级联误差导致的信息损失。模型通过修复训练-推理不匹配问题、采用自适应投影引导（APG）等关键技术，显著提升了生成质量。在Seed基准测试中，该模型取得了零样本语音克隆的SOTA性能，验证了波形空间直接生成的有效性，为高保真语音合成提供了新思路。

阅读全文