文本中的关键概念
理解现代语言合成的构件
TTT 代表什么
TTS代表“文字到语音”——即使用计算机声音将书面文字转换为口头音频的技术。
神经TTS如何运作
现代TTS利用深层神经网络分析文字、预测语音模式和产生声音波形,这些声音波形听起来非常人性化。
语音综述史
从1960年代到1990年代,基于规则的系统与今天的神经模型(TTS如何在60年中演变)相融合。
现代AI 模型
今天的模型如Kokoro, Bark和CosyVoice 2, 使用变压器、扩散和变异推论来达到人的言语质量。
共同应用
TTS授权阅读器、全球定位系统导航、虚拟助理、音频书、客户服务机、电子学习平台和内容制作。
开放源码对商业
开放源码模式(MIT, Apache 2.0)提供免费的、可自行接受的TTS,而商业服务则在服务级协议和支助下提供管理下的API。
TTS 模型,TTS.ai
从快速和轻量量到工作室质量神经声音
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
最佳用于: 最先进的小型模型——显示神经TTS已经到来有多远
尝试 Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
最佳用于: 以变换器为基础的示范模型,演示超出语音的音频生成
尝试 Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
最佳用于: 以人的平等质量和零光克隆方式对TTS进行输送
尝试 CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
最佳用于: 零弹语音克隆,显示声音合成的前沿
尝试 Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
最佳用于: 自动递减架构, 优先排序最大音频质量
尝试 Tortoise TTS神经TTS如何运作
现代话语合成管道分四个步骤
理解《基本知识》
TTS将书面文字转换成口头音频,现代系统使用经过数千小时人类语言录音培训的神经网络。
探索不同的模式
每个TTS模型使用不同的结构(变异、扩散、变异),在速度、质量和特点方面具有独特的优势。
自己试试吧
理解TTS的最佳方式是使用它。尝试我们上面的自由模式——粘贴任何文字,并在几秒钟内听到它说话。
融入您的项目
一旦找到一个你喜欢的模型, 使用我们的 API 将 TTS 整合到您的应用程序、 产品或内容创建工作流程中 。
发言稿简简史
从机械电话机到神经网络
早期日(1950年代-1980年代)
第一个计算机生成的演讲可追溯到1961年,当时IBM
显著系统:Votrax(1970年代)、DECTalk(1984年,Stephen Hawking使用)、苹果
综合分析(1990年代-2000年代)
融合型 TTS 记录了真正的人类声音,讲着数千个电话组合,然后在运行时将右侧段缝合在一起。 这产生了更自然的声音,但需要大量的数据库(通常是每个声音10-20小时的录音 ) 。 质量在很大程度上取决于各段之间是否平稳连接。
作者:AT&T自然之声、Nuance Vocalizer、早期谷歌翻译TTS。
统计/计量(2000年代-2010年代)
与缝合录音相比,参数模型学会了语言的统计表述。 隐藏的Markov 模型(HMMs)和后来的深神经网络生成了语言参数( pitch, 持续时间, 光谱特征 ), 这些参数都是通过电码输入的。 这允许无限制的词汇和更容易的语音创建,但是电码步骤往往产生一个 \ \ 。
主要模式:HTS、Merlin、早期DNN系统。
神经TTS(2016年至今)
现代时代始于WaveNet(DepMind,2016年),它利用深层神经网络通过样本生成音频样本。随后是Tacotron(Google,2017年),它学会直接将文字映射成光谱。今天,它学会了将文字直接映射成光谱。
关键突破:波网、塔可特龙、快话、VITS、巴克、科科罗。
现代神经TTS如何运作
自然声响的AI声音背后的建筑结构
文本分析和正常化
原始文本经过清理和正常化:数字成为单词 (\)
声学模型(光谱图文本)
声学模型(通常是一个变形器或自动递减网络)采用电话机序列,并预测Mel 光谱图,即音频如何的直观表示
Vocoder( 频谱到音频)
vocoder 将光谱光谱转换为实际的音波形。 早期的vocoders, 如Griffin- Lim 制作了机器人制品。 现代神经电动器( HiFi- GAN, BigVGAN, Vocos) 产生高忠实度24kHz 或44.1kHz 音频, 捕捉自然言语的精细细节, 包括呼吸声和微妙的嘴唇运动。
终点到终点模式
最新的模型如VITS、Kokoro和Bark完全跳过两阶段管道。它们直接从文字到单一神经网络的音频,用更少的文物产生更自然的结果。 一些模型(比如Bark)甚至可以产生非语音的声音、笑声和音乐以及语言。
TTS 比较方法
四代TTS技术如何与
| 方 式 式 方法 | 时代时代时代时代 | 自然性质 | 灵活性 | 速度速度 | 需要数据 |
|---|---|---|---|---|---|
| 初步综合综合报告 基于规则的频率建模 |
1960s-1990s | 无无无无无无无 | |||
| 目标 备置音频段 |
1990s-2010s | 10-20+小时 | |||
| 参数(HMM/DNN) 统计演讲模式 |
2000s-2016 | 1-5时5分至5时 | |||
| 神经端对端 深层学习(VITS、科科罗、巴克) |
2016-现 现 时 | 分钟到小时 |
TTTS的共同应用
今天在哪里使用语音文字
无障碍
屏幕阅读器、辅助装置、视觉障碍者或阅读障碍者的工具都依靠TTS, 让人人都能使用数字内容。
内容创建
YouTubes、podcasters和社交媒体创作者使用 TTS 进行语音传译、解说和大规模自动内容制作。
虚拟虚拟助理
Siri、Alexa、Google助理、客户服务聊天员都使用TTS向用户自然表达回应。
常问问题
关于语言技术文本的共同问题
我们能改进什么?您的反馈帮助我们解决问题。