Hacker News 音频技术 - 2026-04-19
1. Show HN:TTS.ai
作者: nadermx | 发布于: 2026-04-18 19:18
2. Grok 文本转语音与语音转文本 API
作者: chopete3 | 发布于: 2026-04-18 08:10
3. Gemini 3.1 Flash 文本转语音
作者: langitbiru | 发布于: 2026-04-16 06:17
4. Gemini 3.1 Flash TTS:支持定向提示的文本转语音
作者: aanet | 发布于: 2026-04-15 17:47
5. Moss-TTS-Nano:在CPU上实现实时语音AI(开源TTS技术栈)
作者: steveharing1 | 发布于: 2026-04-15 17:38
6. Gemini 3.1 Flash TTS:新一代富有表现力的AI语音
作者: pretext | 发布于: 2026-04-15 16:32
7. Show HN:我开发了一款设备端文本转语音应用,因为我在飞机上听完了所有有声书
开发者因不想依赖云端服务,开发了完全在设备上运行的iOS朗读应用LoudReader,支持EPUB/PDF,并解决了流式合成、性能适配和PDF解析等技术挑战。
作者: mowmiatlas | 发布于: 2026-04-15 15:11
8. TTS引擎对比:WebSocket与同步接口性能差5.5倍,M4芯片上INT8反比fp16慢
作者: KirMoisha | 发布于: 2026-04-15 14:23
9. Show HN:为欧洲打造语音模型,意外在英语Open-ASR中夺魁
作者: raoulritter | 发布于: 2026-04-15 12:06
10. Voxtral TTS:高品质文本转语音API
作者: danielmateo773 | 发布于: 2026-04-15 02:54
11. Show HN:我在 WhisperX 中添加了对 Qwen3-ASR 和 Qwen3 ForcedAligner 的支持
作者: mahfouz22 | 发布于: 2026-04-14 15:57
12. 克罗地亚语和塞尔维亚语ASR模型的区域性能差异
作者: taubek | 发布于: 2026-04-12 14:00
13. Show HN:可自托管的 STT 服务,提供兼容 Deepgram 的监听 API
作者: innovatorved | 发布于: 2026-04-11 17:40
14. Parakeet 流式语音识别在 Apple Silicon 上通过 CoreML 实现——及 Swift 演示应用
作者: ipotapov | 发布于: 2026-04-11 07:57
15. Tiny-TTS:仅含100万参数的最小英语TTS模型
作者: thunderbong | 发布于: 2026-04-08 12:58
16. Show HN:SuperUtter – 一款轻量级 macOS 文本转语音应用(支持本地 Kokoro 和 ElevenLabs)
SuperUtter是一款macOS工具,可将文本转为高质量音频,支持本地Kokoro模型离线生成,也可接入ElevenLabs云服务,适用于邮件、代码注释等短文本场景。
作者: jotaefea | 发布于: 2026-04-08 12:27
17. Parakeet-unified-en-0.6B:支持离线和流式推理的统一ASR模型
作者: scottyeager | 发布于: 2026-04-08 03:19
18. Show HN:Yapit – 一款不逊色的PDF与网页阅读器,支持文本转语音
Yapit将PDF和网页转为音频,通过视觉LLM处理复杂排版和数学公式,避免内容错乱。支持自托管和浏览器端TTS。
作者: MaxWolf-01 | 发布于: 2026-04-06 12:28
19. 我们大幅改进了Kokoro TTS训练器
作者: SainzA | 发布于: 2026-04-05 20:49
20. 值得一试的开源语音克隆TTS模型
作者: steveharing1 | 发布于: 2026-04-05 15:47