返回 2026-04-21
🛠 工具 / 开源

Linux 上的更好 TTS 方案Better TTS on Linux

shkspr.mobi·2026-04-21 节选正文

eSpeak 虽支持多种语言和口音,但音质机械单调,类似 1980 年代电子玩具。文章推荐使用 Piper、Coqui TTS 或 Mimic 3 等现代替代方案,它们基于深度学习,提供自然语音合成。配置指南涵盖 Debian/Ubuntu 和 Arch 系统,帮助用户快速搭建高质量语音输出环境。

Terence Eden

经典的 eSpeak 是 Linux 发行版中的常青树。它是一款巧妙的文本转语音(TTS)程序,能以极其丰富的语言和口音朗读书面文字。

唯一的问题是它的发音听起来很机械,语音保真度堪比 20 世纪 80 年代的“会说话的拼写板”玩具——单调、生硬,听着让人难受。但对某些人来说,这反而是个优点而非缺陷。我有一些盲人朋友早已习惯 eSpeak,他们能把语速调到每分钟数百词,轻松浏览复杂的文档。

对我们其他人而言,这却是一段陡峭且令人不适的学习曲线。

如今市面上有许多现代 TTS 程序,采用了各种先进的 AI 技术。但它们大多需要付费,或要求你将文本发送到网络服务器——这会带来隐私和延迟问题。还有一些则受限于高性能 GPU 或其他昂贵设备。

Piper 则不同。它优先本地运行,在普通硬件上也能快速工作,并且是开源的。

在 Linux 上安装它的最简单方法是使用 Pied——一个简单的图形界面工具,你可以用它选择语言、试听口音,然后进行安装。

它会将你的 speech-dispatcher 切换为使用新的 Piper 语音。这意味着你的 Linux 桌面环境辅助功能以及 Firefox 等应用都能立即调用它。

现在我的电脑上有一位令人安心的苏格兰女士在朗读所有内容。

需要完整排版与评论请前往来源站点阅读。