语音(TTS)的文字是什么?

语言文字是使用人工智能将书面文字转换成口头音频的技术。 从早期机器人合成器到今天的神经网络,这些网络的声音与人类无法区分,TTS改变了我们如何与技术互动,如何消费内容,如何获取信息。

技术 技术 历史历史历史历史历史历史历史历史历史历史历史历史历史历史 如何运作 神经网络 Evolution

文本中的关键概念

理解现代语言合成的构件

TTT 代表什么

TTS代表“文字到语音”——即使用计算机声音将书面文字转换为口头音频的技术。

神经TTS如何运作

现代TTS利用深层神经网络分析文字、预测语音模式和产生声音波形,这些声音波形听起来非常人性化。

语音综述史

从1960年代到1990年代,基于规则的系统与今天的神经模型(TTS如何在60年中演变)相融合。

现代AI 模型

今天的模型如Kokoro, Bark和CosyVoice 2, 使用变压器、扩散和变异推论来达到人的言语质量。

共同应用

TTS授权阅读器、全球定位系统导航、虚拟助理、音频书、客户服务机、电子学习平台和内容制作。

开放源码对商业

开放源码模式(MIT, Apache 2.0)提供免费的、可自行接受的TTS,而商业服务则在服务级协议和支助下提供管理下的API。

TTS 模型,TTS.ai

从快速和轻量量到工作室质量神经声音

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

最佳用于: 最先进的小型模型——显示神经TTS已经到来有多远

尝试 Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

最佳用于: 以变换器为基础的示范模型,演示超出语音的音频生成

尝试 Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 语音克隆

最佳用于: 以人的平等质量和零光克隆方式对TTS进行输送

尝试 CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 语音克隆

最佳用于: 零弹语音克隆,显示声音合成的前沿

尝试 Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 语音克隆

最佳用于: 自动递减架构, 优先排序最大音频质量

尝试 Tortoise TTS

神经TTS如何运作

现代话语合成管道分四个步骤

1

理解《基本知识》

TTS将书面文字转换成口头音频,现代系统使用经过数千小时人类语言录音培训的神经网络。

2

探索不同的模式

每个TTS模型使用不同的结构(变异、扩散、变异),在速度、质量和特点方面具有独特的优势。

3

自己试试吧

理解TTS的最佳方式是使用它。尝试我们上面的自由模式——粘贴任何文字,并在几秒钟内听到它说话。

4

融入您的项目

一旦找到一个你喜欢的模型, 使用我们的 API 将 TTS 整合到您的应用程序、 产品或内容创建工作流程中 。

发言稿简简史

从机械电话机到神经网络

早期日(1950年代-1980年代)

第一个计算机生成的演讲可追溯到1961年,当时IBM

显著系统:Votrax(1970年代)、DECTalk(1984年,Stephen Hawking使用)、苹果

综合分析(1990年代-2000年代)

融合型 TTS 记录了真正的人类声音,讲着数千个电话组合,然后在运行时将右侧段缝合在一起。 这产生了更自然的声音,但需要大量的数据库(通常是每个声音10-20小时的录音 ) 。 质量在很大程度上取决于各段之间是否平稳连接。

作者:AT&T自然之声、Nuance Vocalizer、早期谷歌翻译TTS。

统计/计量(2000年代-2010年代)

与缝合录音相比,参数模型学会了语言的统计表述。 隐藏的Markov 模型(HMMs)和后来的深神经网络生成了语言参数( pitch, 持续时间, 光谱特征 ), 这些参数都是通过电码输入的。 这允许无限制的词汇和更容易的语音创建,但是电码步骤往往产生一个 \ \ 。

主要模式:HTS、Merlin、早期DNN系统。

神经TTS(2016年至今)

现代时代始于WaveNet(DepMind,2016年),它利用深层神经网络通过样本生成音频样本。随后是Tacotron(Google,2017年),它学会直接将文字映射成光谱。今天,它学会了将文字直接映射成光谱。

关键突破:波网、塔可特龙、快话、VITS、巴克、科科罗。

现代神经TTS如何运作

自然声响的AI声音背后的建筑结构

文本分析和正常化

原始文本经过清理和正常化:数字成为单词 (\)

声学模型(光谱图文本)

声学模型(通常是一个变形器或自动递减网络)采用电话机序列,并预测Mel 光谱图,即音频如何的直观表示

Vocoder( 频谱到音频)

vocoder 将光谱光谱转换为实际的音波形。 早期的vocoders, 如Griffin- Lim 制作了机器人制品。 现代神经电动器( HiFi- GAN, BigVGAN, Vocos) 产生高忠实度24kHz 或44.1kHz 音频, 捕捉自然言语的精细细节, 包括呼吸声和微妙的嘴唇运动。

终点到终点模式

最新的模型如VITS、Kokoro和Bark完全跳过两阶段管道。它们直接从文字到单一神经网络的音频,用更少的文物产生更自然的结果。 一些模型(比如Bark)甚至可以产生非语音的声音、笑声和音乐以及语言。

TTS 比较方法

四代TTS技术如何与

方 式 式 方法 时代时代时代时代 自然性质 灵活性 速度速度 需要数据
初步综合综合报告
基于规则的频率建模
1960s-1990s 无无无无无无无
目标
备置音频段
1990s-2010s 10-20+小时
参数(HMM/DNN)
统计演讲模式
2000s-2016 1-5时5分至5时
神经端对端
深层学习(VITS、科科罗、巴克)
2016-现 现 时 分钟到小时

TTTS的共同应用

今天在哪里使用语音文字

无障碍

屏幕阅读器、辅助装置、视觉障碍者或阅读障碍者的工具都依靠TTS, 让人人都能使用数字内容。

内容创建

YouTubes、podcasters和社交媒体创作者使用 TTS 进行语音传译、解说和大规模自动内容制作。

虚拟虚拟助理

Siri、Alexa、Google助理、客户服务聊天员都使用TTS向用户自然表达回应。

常问问题

关于语言技术文本的共同问题

TTS 表示“ 文本到语音 ” 。 它指的是使用合成或 AI 生成的声音将书面文字转换为可听的语音语言的技术。 在技术文献中,该词与“ 语音合成” 互换使用。

现代TTS系统分三个阶段运作:文本分析(评分、正常化、电话转换)、手势预测(确定节奏、声势、压力和暂停)和音频合成(产生实际声波形式),神经模型从培训数据中学习所有三个阶段。

具有共鸣的 TTS 组合了预录的语音碎片,这些片段在过渡时会发出尖锐的声音。 神经 TTS通过深层次的学习从零开始发声,产生更平滑、更自然、更自然的音频,并具有更好的运动和情感。

SSML (语音合成标记语言) 是一种基于 XML 的标记语言, 它允许您控制 TTS 系统如何读出文本 。 您可以在文本输入中使用 SSML 标记指定暂停、 强调、 发音、 音调变化和语速 。

TTS用于无障碍(视障用户的屏幕阅读器)、虚拟助理(Siri、Alexa、谷歌助理)、音频书制作、电子学习、全球定位系统导航、客户服务IVR系统、内容创建和语言学习应用。

TTS从1960年代的机器人规则系统演变为1990年代的融合合成,到2000年代的统计参数合成,到2016年的WaveNet神经TS,再到今天的变压器和传播模型,达到人类水平的质量。

自然探测 TTS 需要准确的流体(同步、压力、内向 ), 适当的节奏、电话之间的平稳过渡以及一致的语音身份。 神经模型从大量自然人类语言录音数据集中学习这些模式。

热门盒和科西维思2等语音克隆模式可以复制一个从5-30秒的参考音频开始的具体声音。 克隆声音可以捕捉丁字节、口音和说话风格,尽管伦理和法律考虑适用于克隆他人的声音。

现代TTS模式共同支持30+语言。 有些模式专门使用特定语言,而另一些则使用多种语言。 英语拥有最现成的模式和声音,但中文、日文、韩文、西班牙文和欧洲语言都得到了很好的支持。

TTS是AI语音生成的子集。 TTS专门将文本输入转换为语音输出。 AI语音生成是一个更广泛的术语,也包括语音克隆、语音转换、语音对语音和声音效果生成。

它取决于您的需要。 Kokoro 提供了最佳的速度和质量平衡, 供一般使用。 聊天盒以语音克隆为主 。 Orpheus 在情感表达方面表现优异 。 StyleTTS 2 生成了最自然的单词词解说 。 所有使用的案例都没有单一的“ 最佳” 模式 。

是的, TTS.ai 上的所有模型都是开放源码, 可以自行托管。 CPU 唯一的模型, 如在任何计算机上运行的Piper 。 像 Kokoro 和 Bark 这样的 GPU 模型需要一个 2-8GB VRAM 的 NVIDIA GPU。 我们的平台也提供主机访问, 这样您就不必管理基础设施 。
5.0/5 (1)

我们能改进什么?您的反馈帮助我们解决问题。

现代TTTS经验

尝试 20 + 最新的 AI 语音模型免费 。 看看演讲的文本有多长 。