hacker_news_audio_tech_2026-04-25

Hacker News 音频技术 - 2026-04-25

1. MiMo-v2.5-TTS系列

作者: gainsurier | 发布于: 2026-04-24 00:58


2. 开放基准测试:商业流式TTS模型中的文本规范化

作者: baghdasaryana | 发布于: 2026-04-22 14:12


3. Linux 上更好的文本转语音 (TTS) 体验

作者: speckx | 发布于: 2026-04-21 20:56


4. Show HN: TTS.ai

作者: nadermx | 发布于: 2026-04-18 19:18


5. Grok TTS与STT API接口

作者: chopete3 | 发布于: 2026-04-18 08:10


6. Gemini 3.1 Flash TTS

作者: langitbiru | 发布于: 2026-04-16 06:17


7. Gemini 3.1 Flash TTS – 支持定向提示

作者: aanet | 发布于: 2026-04-15 17:47


8. Moss-TTS-Nano:CPU上的实时语音AI(开源TTS技术栈)

作者: steveharing1 | 发布于: 2026-04-15 17:38


9. Gemini 3.1 Flash TTS:下一代富有表现力的AI语音技术

作者: pretext | 发布于: 2026-04-15 16:32


10. Show HN:我开发了一款设备端TTS应用,因为飞机上听完了所有有声书

开发者创建了LoudReader,一款iOS离线朗读应用,支持EPUB/PDF,使用Kokoro模型实现设备端语音合成,解决飞行中无网络听内容问题。

作者: mowmiatlas | 发布于: 2026-04-15 15:11


11. TTS引擎:WebSocket与同步性能相差5.5倍,M4芯片上INT8比fp16更慢

作者: KirMoisha | 发布于: 2026-04-15 14:23


12. Show HN:为欧洲构建语音模型,意外在英语Open-ASR中登顶

作者: raoulritter | 发布于: 2026-04-15 12:06


13. Voxtral TTS – 高质量文本转语音API

作者: danielmateo773 | 发布于: 2026-04-15 02:54


14. Show HN:我在 WhisperX 中增加了对 Qwen3-ASR 和 Qwen3 强制对齐器的支持

作者: mahfouz22 | 发布于: 2026-04-14 15:57


15. ASR模型在克罗地亚语和塞尔维亚语上的表现存在地区差异

作者: taubek | 发布于: 2026-04-12 14:00


16. Show HN:自托管STT服务,兼容Deepgram的listen API

作者: innovatorved | 发布于: 2026-04-11 17:40


17. 通过CoreML在Apple Silicon上实现Parakeet流式ASR——以及Swift演示应用

作者: ipotapov | 发布于: 2026-04-11 07:57


18. Tiny-TTS:仅含1M参数的最小英文TTS模型

作者: thunderbong | 发布于: 2026-04-08 12:58


19. Show HN: SuperUtter – 轻量级macOS文本转语音应用(支持Kokoro本地和ElevenLabs)

SuperUtter是一款macOS文本转语音工具,本地使用Kokoro模型,支持离线,也可选ElevenLabs云端,适合短文本朗读。

作者: jotaefea | 发布于: 2026-04-08 12:27


20. Parakeet-unified-en-0.6B:面向离线与流式推理的统一ASR模型

作者: scottyeager | 发布于: 2026-04-08 03:19