hacker_news_audio_tech_2026-04-10

Hacker News 音频技术 - 2026-04-10

1. Tiny-TTS:仅含100万参数的最小英语TTS模型

作者: thunderbong | 发布于: 2026-04-08 12:58


2. Show HN:SuperUtter – 一款轻量级 macOS 文本转语音应用(支持本地 Kokoro 与 ElevenLabs)

SuperUtter是一款macOS本地文本转语音工具,使用Kokoro模型离线生成高质量音频,也支持ElevenLabs云服务,适合快速朗读短文本。

作者: jotaefea | 发布于: 2026-04-08 12:27


3. Parakeet-unified-en-0.6B:支持离线和流式推理的统一ASR模型

作者: scottyeager | 发布于: 2026-04-08 03:19


4. Show HN:Yapit – 一款不差劲的 PDF 与网页阅读器,支持文本转语音

Yapit将PDF和网页转为音频,通过视觉LLM处理复杂排版和数学公式,避免内容错乱。支持自托管和浏览器内TTS。

作者: MaxWolf-01 | 发布于: 2026-04-06 12:28


5. 我们大幅改进了Kokoro TTS训练器

作者: SainzA | 发布于: 2026-04-05 20:49


6. 值得一试的开源语音克隆TTS模型

作者: steveharing1 | 发布于: 2026-04-05 15:47


7. Voxtral 文本转语音系统

作者: mihau | 发布于: 2026-04-02 18:05


8. OmniVoice:支持600多种语言的高质量文本转语音

作者: drakirus | 发布于: 2026-04-02 12:21


9. Show HN:Dograh——使用LLM选择录音而非TTS的语音代理

Dograh v1.20发布,这是一个开源语音AI代理平台。新增Gemini 3.1实时支持与预录音频功能以降低延迟。平台提供可视化工作流,支持自托管,避免供应商锁定。

作者: a6kme | 发布于: 2026-03-31 18:28


10. Show HN:Migas——带实时发言人标注的会议助手(无需机器人,无需云端语音识别)

Migas是一款本地语音识别工具,通过设备端声纹识别实时标注说话人,支持跨会议积累上下文,仅AI聊天需云端处理。

作者: blakers95 | 发布于: 2026-03-31 15:33


11. Voxtral TTS – 文本转语音生成器

作者: MintNow | 发布于: 2026-03-29 10:16


12. Mistral Voxtral TTS 通过 MLX 在苹果设备上实现本地运行

作者: lbj96347 | 发布于: 2026-03-28 12:47


13. Mistral AI发布开源TTS模型,宣称性能超越ElevenLabs

作者: nickthegreek | 发布于: 2026-03-26 14:31


14. mdbook-tts:将 mdBook 转换为可听的有声书

作者: bilalbayram | 发布于: 2026-03-25 15:31


15. Show HN:提供完整方法论的、可复现的开源语音转文字API基准测试

作者: jilijeanlouis | 发布于: 2026-03-24 13:06


16. Show HN:macOS Kokoro-TTS 驱动的文档阅读器——聆听任意文本

一款macOS应用,利用Kokoro TTS模型,可将ePub、PDF和纯文本文件转换为自然语音进行朗读。

作者: mattcheston | 发布于: 2026-03-20 03:20


17. STT.ai如何保护您的音频与转录数据:客户端加密存储方案

作者: nadermx | 发布于: 2026-03-19 20:14


18. Show HN:三款全新 Kitten TTS 模型发布,最小体积不足 25MB

Kitten TTS发布三个开源小模型,支持八种语音,无需GPU即可在树莓派等设备运行,旨在缩小设备端与云端TTS的差距。

作者: rohan_joshi | 发布于: 2026-03-19 15:56


19. Show HN:面向阅读障碍者的 Chrome 文本转语音阅读器

HoverSpeak是一款面向阅读障碍者的免费浏览器扩展,通过悬停和快捷键快速朗读网页文本,无需选中或登录。

作者: yaronl_elh | 发布于: 2026-03-19 15:46


20. Qwen-ASR-CLI:纯Rust编写的本地Qwen语音识别命令行工具

作者: huang4fun | 发布于: 2026-03-19 12:28