Hacker News 音频技术 - 2026-04-06
1. 我们对Kokoro TTS训练器进行了重大改进
作者: SainzA | 发布于: 2026-04-05 20:49
2. 值得一试的开源语音克隆TTS模型
作者: steveharing1 | 发布于: 2026-04-05 15:47
3. Voxtral 文本转语音系统
作者: mihau | 发布于: 2026-04-02 18:05
4. OmniVoice:支持600多种语言的高质量文本转语音
作者: drakirus | 发布于: 2026-04-02 12:21
5. Show HN:Dograh——使用LLM选择录音而非TTS的语音代理
Dograh v1.20发布,这是一个开源语音AI代理平台。新增Gemini 3.1实时支持与预录音频功能,以降低延迟并提升自然度。平台提供可视化工作流,支持自托管,避免供应商锁定。
作者: a6kme | 发布于: 2026-03-31 18:28
6. Show HN:Migas——带实时发言人标签的会议助手(无需机器人,无需云端语音转文字)
Migas是一款本地语音识别工具,通过声纹识别实时标注发言人,支持跨会议上下文分析,所有音频处理均在设备端完成。
作者: blakers95 | 发布于: 2026-03-31 15:33
7. Voxtral TTS – 文本转语音生成器
作者: MintNow | 发布于: 2026-03-29 10:16
8. Mistral Voxtral TTS 通过 MLX 在苹果设备上实现本地运行
作者: lbj96347 | 发布于: 2026-03-28 12:47
9. Mistral AI发布开源TTS模型,宣称性能超越ElevenLabs
作者: nickthegreek | 发布于: 2026-03-26 14:31
10. mdbook-tts:将 mdBook 转换为可听的有声书
作者: bilalbayram | 发布于: 2026-03-25 15:31
11. Show HN:可复现的开源语音转文字API基准测试,附完整方法论
作者: jilijeanlouis | 发布于: 2026-03-24 13:06
12. Show HN:macOS Kokoro-TTS 驱动的文档阅读器——聆听任意文本
一款macOS应用,利用Kokoro TTS模型,可将ePub、PDF和纯文本文件转换为自然语音进行朗读。
作者: mattcheston | 发布于: 2026-03-20 03:20
13. STT.ai如何保护您的音频与转录:客户端加密存储
作者: nadermx | 发布于: 2026-03-19 20:14
14. Show HN:三款新的 Kitten TTS 模型发布,最小体积不到 25MB
Kitten TTS发布三款开源小模型,支持8种语音,可在树莓派等设备上运行,无需GPU。
作者: rohan_joshi | 发布于: 2026-03-19 15:56
15. Show HN:面向阅读障碍者的 Chrome 文本转语音阅读器
HoverSpeak是一款面向阅读障碍者的免费浏览器扩展,通过悬停和快捷键快速朗读网页文本,无需选中或登录。
作者: yaronl_elh | 发布于: 2026-03-19 15:46
16. Qwen-ASR-CLI:纯Rust编写的本地Qwen语音识别命令行工具
作者: huang4fun | 发布于: 2026-03-19 12:28
17. Show HN:实时本地文本转语音(3100万参数,5.6倍CPU速度,语音克隆,ONNX)
开源小模型实现实时语音克隆与混合,支持本地低延迟推理,但音质和相似度有限。
作者: ZDisket | 发布于: 2026-03-18 20:48
18. Show HN:STT.ai – 音频视频转文字工具
作者: nadermx | 发布于: 2026-03-18 09:12
19. 用手机语音输入在笔记本电脑上打字
作者开发了一个工具,可通过手机键盘语音输入在电脑上打字,支持vim、浏览器等环境。
作者: theSage | 发布于: 2026-03-16 06:56
20. Show HN:SciTeX 通知——为 AI 代理赋予声音:TTS、电话、短信
scitex-notification为本地和远程AI代理提供多级通知系统,从语音播报到电话呼叫,支持紧急绕过静音模式。
作者: ywatanabe1989 | 发布于: 2026-03-15 22:19