hacker_news_audio_tech_2026-03-07

Hacker News 音频技术 - 2026-03-07

1. Qwen3-ASR-Swift

_{作者: handfuloflight | 发布于: 2026-03-05 10:00}

2. Show HN：KokoClone——使用 Kokoro TTS 实现零样本语音克隆

KokoClone项目在Kokoro TTS基础上实现零样本语音克隆，支持多语言，可在CPU/GPU上运行，保持原项目的速度和实时性。

_{作者: Ashish106 | 发布于: 2026-03-04 19:07}

3. 多语言语音识别中的音调保真度：一项诊断性评估

_{作者: ibobev | 发布于: 2026-03-04 18:10}

4. Ask HN：Mac 上有类似 willowvoice 的 TTS 工具吗？

用户询问Mac上是否有类似WillowVoice的快捷键高质量文本朗读工具。

_{作者: fiiico | 发布于: 2026-03-04 11:24}

5. 原生 Swift/MLX 实现完整语音处理流程：端侧语音识别、合成与语音转换

_{作者: ipotapov | 发布于: 2026-03-03 06:41}

6. Qwen3-ASR 0.6B与1.7B转录模型的C语言推理实现

_{作者: Curiositry | 发布于: 2026-02-28 00:05}

7. Parakeet.cpp – 纯C++实现带Metal GPU加速的Parakeet语音识别推理

_{作者: noahkay13 | 发布于: 2026-02-27 03:48}

8. Show HN：基于Kitten TTS的CPU低延迟流式语音助手

Neo AI开发了在CPU上运行的轻量级语音助手流水线，包含语音检测、LLM和TTS流式处理，旨在降低延迟，适用于本地助手和边缘设备。

_{作者: gauravvij137 | 发布于: 2026-02-26 12:42}

9. TinyTTS：超轻量级英语TTS（900万参数，20MB），8倍CPU，67倍GPU速度

TinyTTS是一个超轻量级本地语音合成工具，仅20MB，支持CPU/GPU，专为边缘设备和资源受限场景设计。

_{作者: letrghieu | 发布于: 2026-02-25 14:46}

10. Show HN：Moonshine 开源权重 STT 模型——准确率超越 WhisperLargev3

小型初创公司发布新型流式语音转文本模型，声称其词错率低于OpenAI的Whisper大模型，并在HF OpenASR排行榜上表现优异。

_{作者: petewarden | 发布于: 2026-02-24 21:54}

11. Show HN：Localvoxtral – 在 macOS 上实现带流式语音识别的本地实时听写

一款原生macOS菜单栏应用，使用Mistral Voxtral实现完全本地的实时语音转文字，边说边出结果，支持Apple Silicon和NVIDIA GPU后端。

_{作者: T0mSIlver | 发布于: 2026-02-24 15:00}

12. Show HN：TTSLab——一款基于WebGPU在浏览器中运行的语音AI助手与TTS实验室

TTSLab是一款开源工具，可在浏览器内通过WebGPU和WASM本地运行TTS和STT模型，无需网络或API密钥，并包含实验性的本地语音代理功能。

_{作者: MbBrainz | 发布于: 2026-02-23 15:52}

13. Kyutai Labs 的 Pocket TTS 推出 iOS 版本

_{作者: unamentis | 发布于: 2026-02-20 17:14}

14. Show HN：Apple Silicon 本地 TTS 支持 OpenClaw（基于 MLX，零配置）

为Mac开发的OpenClaw插件，可在本地运行文本转语音，无需API密钥或云端服务。它封装mlx-audio，自动管理Python环境和服务器进程，提供多种模型选择。

_{作者: ZacharyZZ | 发布于: 2026-02-20 03:00}

15. Show HN：KittenML 发布三款新模型，开源 TTS 小于 25 MB，表现力出众

_{作者: rohan_joshi | 发布于: 2026-02-20 02:11}

16. 开源语音克隆应用采用Qwen3-TTS技术

_{作者: angelmm | 发布于: 2026-02-19 12:25}

17. 语音助手语音转文本性能评测：10项服务、千条样本、语义错误率分析

_{作者: edgarsDev | 发布于: 2026-02-18 17:26}

18. [Android] Nabu 0.5.4 发布：支持 Soprano TTS 及本地 LLM HTTP 服务器

_{作者: mewmix | 发布于: 2026-02-16 17:50}

19. Vox：基于 Rust 的本地语音 AI 框架（支持语音识别、合成与活动检测）

_{作者: mertoz3 | 发布于: 2026-02-15 22:52}

20. Ask HN：最佳实时本地TTS解决方案是什么？用于电话口译

用户尝试构建实时通话监听系统，但现有AI工具方案效果不佳，寻求更优解决方案。

_{作者: Wright007 | 发布于: 2026-02-15 18:04}