hacker_news_audio_tech_2026-04-10

Hacker News 音频技术 - 2026-04-10

_{作者: thunderbong | 发布于: 2026-04-08 12:58}

SuperUtter是一款macOS本地文本转语音工具，使用Kokoro模型离线生成高质量音频，也支持ElevenLabs云服务，适合快速朗读短文本。

_{作者: jotaefea | 发布于: 2026-04-08 12:27}

_{作者: scottyeager | 发布于: 2026-04-08 03:19}

Yapit将PDF和网页转为音频，通过视觉LLM处理复杂排版和数学公式，避免内容错乱。支持自托管和浏览器内TTS。

_{作者: MaxWolf-01 | 发布于: 2026-04-06 12:28}

_{作者: SainzA | 发布于: 2026-04-05 20:49}

_{作者: steveharing1 | 发布于: 2026-04-05 15:47}

_{作者: mihau | 发布于: 2026-04-02 18:05}

_{作者: drakirus | 发布于: 2026-04-02 12:21}

Dograh v1.20发布，这是一个开源语音AI代理平台。新增Gemini 3.1实时支持与预录音频功能以降低延迟。平台提供可视化工作流，支持自托管，避免供应商锁定。

_{作者: a6kme | 发布于: 2026-03-31 18:28}

Migas是一款本地语音识别工具，通过设备端声纹识别实时标注说话人，支持跨会议积累上下文，仅AI聊天需云端处理。

_{作者: blakers95 | 发布于: 2026-03-31 15:33}

_{作者: MintNow | 发布于: 2026-03-29 10:16}

_{作者: lbj96347 | 发布于: 2026-03-28 12:47}

_{作者: nickthegreek | 发布于: 2026-03-26 14:31}

_{作者: bilalbayram | 发布于: 2026-03-25 15:31}

_{作者: jilijeanlouis | 发布于: 2026-03-24 13:06}

一款macOS应用，利用Kokoro TTS模型，可将ePub、PDF和纯文本文件转换为自然语音进行朗读。

_{作者: mattcheston | 发布于: 2026-03-20 03:20}

_{作者: nadermx | 发布于: 2026-03-19 20:14}

Kitten TTS发布三个开源小模型，支持八种语音，无需GPU即可在树莓派等设备运行，旨在缩小设备端与云端TTS的差距。

_{作者: rohan_joshi | 发布于: 2026-03-19 15:56}

HoverSpeak是一款面向阅读障碍者的免费浏览器扩展，通过悬停和快捷键快速朗读网页文本，无需选中或登录。

_{作者: yaronl_elh | 发布于: 2026-03-19 15:46}

_{作者: huang4fun | 发布于: 2026-03-19 12:28}