テキスト・トゥ・スピーチ(TTS)とは何ですか?

テキスト・トゥ・スピーチ(TTS)は,人工知能を用いて,書き込んだテキストを音声に変換する技術である。

技術 歴史 どうやって働くのか ニューラルネットワーク 進化

テキストを音声に変換するキーコンセプト

現代音声合成の構成要素の理解

ワット・TTS・スタンド・フォー

TTS(テキスト・トゥ・スピーチ)は,コンピュータ生成音声を用いて,書き込んだテキストを音声に変換する技術である。

神経語音翻訳

現代のTTSは,深層ニューラルネットワークを用いてテキストを解析し,音声パターンを予測し,人間的に聞こえる音声波形を生成する。

音声合成の歴史

1960年代のルールベースシステムから1990年代の連鎖合成に至るまで,TTSは60年間にわたってどのように進化したかを述べた。

現代のAIモデル

ここでは,人間レベルの音声品質を達成するために,変換,拡散,変分推論を用いたココロ,Bark,CosyVoice2のようなモデルを紹介した。

共通アプリケーション

TTSは,スクリーンリーダ,GPSナビゲーション,バーチャルアシスタント,オーディオブック,顧客サービスボット,電子学習プラットフォーム,コンテンツ作成などの機能を提供する。

オープンソース対商用

オープンソースモデル(MIT,Apach 2.0)はフリーで自己ホスト可能なTTSを提供し,商用サービスはSLAとサポートを持つマネージドAPIを提供する。

TTS.aiで利用可能なTTSモデル

高速で軽量からスタジオ品質のニューラル・ボイスへ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

適応する: 最先端の小型モデル — 神経TTSがどれだけ進んだかを示す

試してみる Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

適応する: 音声を超えた音声生成を実証するトランスフォーマに基づくモデル

試してみる Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 音声クローン

適応する: 人間パリティの品質とゼロショットクローンを持つストリーミングTTS

試してみる CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 音声クローン

適応する: 音声合成の最前線を示すゼロショット音声クローン

試してみる Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 音声クローン

適応する: 最大音質を優先する自己回帰アーキテクチャ

試してみる Tortoise TTS

神経語音翻訳

音声合成パイプラインの4段階

1

基礎を理解する

TTSは,文字を音声に変換するシステムである。

2

異なるモデルを探索

それぞれのTTSモデルは異なるアーキテクチャ(変換器,拡散,変調)を使用し,速度,品質,特徴において独自の強みを持つ。

3

トライ・イット・ユアセルフ

TTS を理解する最良の方法は、それを使うことです。上の無料モデルを試してみてください。テキストを貼り付けると、数秒で発音されます。

4

プロジェクトに統合

あなたが好きなモデルを見つけたら,我々のAPIを使ってTTSをあなたのアプリケーション,製品,またはコンテンツ作成ワークフローに統合する。

テキスト・トゥ・スピーチの歴史

機械語を話す機械からニューラルネットワークへ

初期(1950年代-1980年代)

最初のコンピュータ生成音声は 1961年にIBMが

著名なシステム:Votrax(1970年代)、DECtalk(1984年、スティーヴン・ホーキングが使用)、Apple

連鎖合成(1990年代-2000年代)

連続型 TTS は、実際の人間の声を何千もの音素組み合わせで録音し、それをランタイムで正しいセグメントに分割して結合します。これはより自然に聞こえる音声を生成しますが、大規模なデータベースを必要とします(声一つに対して10-20時間の録音が必要になります)。品質はセグメント間の滑らかな結合を見つけることに大きく依存します。

AT&T Natural Voices、Nuance Vocalizer、初期のGoogle Translate TTSで使用されている。

統計・パラメトリック(2000年代-2010年代)

音声のパラメータを生成するために、 音声の音声データを生成するためのプログラムを作成します。 これは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを生成するためのプログラムは、 音声データを生成するためのプログラムです。 音声データを

主要なモデル:HTS,Merlin,初期のDNNベースのシステム。

ニューラルTTS

近代の時代は、ディープニューラルネットワークを用いてサンプルごとに音声サンプルを生成するWaveNet(DeepMind, 2016)から始まり、テキストをスペクトログラムに直接マッピングすることを学習したTacotron(Google, 2017)が続いた。

主要なブレークスルー:WaveNet,Tacotron,FastSpeech,VITS,Bark,Kokoro。

現代神経TTSの仕組み

自然なAI音声の背後のアーキテクチャ

テキスト解析と正規化

生のテキストはクリーンアップされ正規化されます。数字は単語になります。

音響モデル (テキストからスペクトログラム)

音響モデル(しばしばトランスフォーマーまたは自己回帰ネットワーク)は音素配列をとり,メルスペクトログラムを予測する。

ヴォコーダ (スペクトログラムからオーディオ)

ヴォコーダはメルスペクトログラムを実際の音声波形に変換します。Griffin-Limのような初期のヴォコーダはロボットアーティファクトを生成します。現代のニューラルヴォコーダ(HiFi-GAN、BigVGAN、Vocos)は、呼吸音や微妙な唇の動きを含む自然な話し言葉の微細な詳細を捕捉する高信頼性の24kHzまたは44.1kHzのオーディオを生成します。

エンドツーエンドモデル

VITS、Kokoro、Barkのような最新のモデルは二段階パイプラインを完全に省略しています。単一のニューラルネットワークでテキストからオーディオに直接進み、より自然な結果をより少ないアーティファクトで生成します。Barkのようなモデルの中には、話し言葉に加えて非話し言葉の音、笑い、音楽を生成することもできます。

TTSアプローチの比較

4世代のTTS技術の比較

アプローチ 時代 自然性 柔軟性 スピード データが必要
フォルマント合成
ルールベース周波数モデリング
1960s-1990s なし
連結
スティッチされたオーディオセグメント
1990s-2010s 10-20時間以上
パラメトリック (HMM/DNN)
統計的言語モデル
2000s-2016 1〜5時間
ニューラルエンドツーエンド
ディープ学習(VITS,Kokoro,Bark)
2016-プレゼント 分から時間へ

TTSの一般的な応用

テキスト・トゥ・スピーチが今日使われている場所

アクセシビリティ

視覚障害者や読み書き障害者のためのスクリーンリーダ,補助装置,ツールは,TTSに依存して,ディジタルコンテンツを誰にでもアクセス可能にする。

コンテンツ作成

ユーチューブやポッドキャストなどのソーシャルメディアのクリエイタは,ボイスオーバー,ナレーション,自動化されたコンテンツ生成などにTTSを使用している。

バーチャルアシスタント

Siri、Alexa、Googleアシスタント、および顧客サービスチャットボットはすべてTTSを使用してユーザに自然に応答する。

よくある質問

テキスト・トゥ・スピーチ技術に関するよくある質問

TTS は Text-to-Speech の略で、合成音声または AI 生成音声を用いて書き込んだテキストを聴こえる音声に変換する技術を指します。技術文献では「音声合成」と交換可能に使用されます。

現代のTTSシステムは,テキスト解析(解析,正規化,音素変換),韻律予測(リズム,ピッチ,ストレス,休止の決定),音声合成(実際の音波形の生成)の3段階で動作する。

ニューラルTTSはディープ・ラーニングを用いて最初から音声を生成し、より滑らかで自然な音声を生成し、より良い韻律と感情を生み出す。

SSML (Speech Synthesis Markup Language) は、TTS システムがテキストをどのように発音するかを制御する XML ベースのマークアップ言語です。テキスト入力の中に SSML タグを使って、休止、強調、発音、ピッチ変更、発音速度を指定できます。

TTSはアクセシビリティ(視覚障害者向けのスクリーンリーダ),バーチャルアシスタント(Siri,Alexa,Google Assistent),オーディオブック製作,e‐learning,GPSナビゲーション,顧客サービスIVRシステム,コンテンツ作成,言語学習アプリケーションに使用されている。

TTSは1960年代のロボットルールベースシステムから1990年代の連鎖合成,2000年代の統計パラメトリック合成,2016年のWaveNetを用いたニューラルTTS,そして人間レベルの品質を達成する今日の変換と拡散モデルに進化した。

自然な音声を得るためには,正確な韻律(リズム,強調,音調),適切なペース,音素間の滑らかな移行,一貫した音声同一性が必要である。

ChatterboxやCosyVoice2のような音声クローニングモデルは,5〜30秒の参照音声から特定の音声を複製できる。

現代のTTSモデルは30以上の言語をサポートしています。特定の言語に特化したモデルもあり、多言語モデルもあります。英語が最も多くのモデルと音声をサポートしていますが、中国語、日本語、韓国語、スペイン語、ヨーロッパの言語もよくサポートされています。

TTSは人工音声生成のサブセットである。TTSは特にテキスト入力を音声出力に変換する。AI音声生成は音声クローン、音声変換、音声から音声へ、音響効果生成などを含む広い用語である。

それはあなたのニーズに依存します。Kokoro は一般的な使用のための速度と品質の最良のバランスを提供します。Chatterbox は音声クローンに優れています。Orpheus は感情表現に優れています。StyleTTS 2 は最も自然な単一スピーカーのナレーションを生成します。すべてのユースケースに最適な一つのモデルはありません。

はい。TTS.aiのすべてのモデルはオープンソースであり、自己ホスト可能です。PiperのようなCPUのみのモデルはどのコンピュータでも動作します。KokoroやBarkのようなGPUモデルは2-8GBのVRAMを持つNVIDIA GPUが必要です。我々のプラットフォームはホストアクセスも提供しますので、インフラストラクチャを管理する必要はありません。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

現代TTSを体験してみよう

20以上の最先端のAI音声モデルを無料で試してみてください。テキストから音声への変換がどれほど進んだかを確認してください。