トム・ハンクスはただ私に役を売り込むために電話をかけてきたわけではないが、確かにそう思える。
PCWorld が AI アートなどのさまざまな AI アプリケーションの台頭を取り上げ始めてから、私は GitHub のコード リポジトリや Reddit 内のリンクを調べてきました。そこでは、さまざまなアプローチのために人々が独自の AI モデルの調整を投稿しています。
これらのモデルの一部は、実際に商用サイトに導入され、独自のアルゴリズムを開発したり、オープンソースとして公開されているアルゴリズムを応用したりしています。既存のAI音声サイトの好例としては、文字通り数百ものプログラム済みモデルを提供しているUberduck.aiがあります。テキストフィールドにテキストを入力すると、仮想のイーロン・マスク、ビル・ゲイツ、ペギー・ヒル、ダフィー・ダック、アレックス・トレベック、ビーバス、ジョーカー、さらにはSiriに、事前にプログラムしたセリフを読み上げてもらうことができます。
昨年、PCWorld を賞賛する偽のビル・クリントンをアップロードしましたが、モデルはすでにかなり良いようです。
AIに音声を再現させるトレーニングには、明瞭な音声サンプルをアップロードする必要があります。AIは、話者がどのように音と目標をどのように組み合わせるかを「学習」し、それらの関係性を学習し、完璧にし、結果を模倣します。1992年の傑作スリラー映画『スニーカーズ』(ロバート・レッドフォード、シドニー・ポワチエ、ベン・キングズレーなど豪華キャスト出演)をご存知なら、登場人物たちが対象者の音声サンプルを録音して生体認証音声パスワードを「解読」しなければならないシーンをご存知でしょう。これはほぼ同じことです。
通常、優れた音声モデルを構築するには、特定の人物の話し方を示すための長時間のサンプルを用いた、かなりのトレーニングが必要になります。しかし、ここ数日、新たな発見がありました。Microsoft Vall-E は、わずか数秒のソースオーディオで完全にプログラム可能な音声を生成する合成音声に関する研究論文(実例付き)です。
当然のことながら、AI研究者やその他のAIファンは、Vall-Eモデルが既に一般公開されているかどうかを知りたがっていました。答えは「いいえ」ですが、ご希望であれば「Tortoise」と呼ばれる別のモデルで遊ぶことができます。(作者によると、このモデルは動作が遅いため「Tortoise」と名付けられており、確かに遅いですが、ちゃんと動作します。)
Tortoiseで独自のAI音声をトレーニングする
Tortoiseの面白いところは、いくつかの音声クリップをアップロードするだけで、好きな声でモデルを学習できることです。TortoiseのGitHubページには、10秒程度のクリップをいくつか用意する必要があると記載されています。これらのクリップは、特定の音質で.WAVファイルとして保存する必要があります。
一体どのように機能するのでしょうか?ご存知ない方もいるかもしれませんが、実はGoogle Colabという公共のユーティリティを通して実現するのです。Collabとは、Googleが提供するPythonサーバーへのアクセスを可能にするクラウドサービスです。あなたが(あるいは誰かが)書いたコードはノートブックとして保存でき、汎用Googleアカウントを持つユーザーと共有できます。Tortoiseの共有リソースはこちらです。
インターフェースは一見難しそうに見えますが、実際にはそれほど悪くありません。Googleユーザーとしてログインし、右上隅の「接続」をクリックする必要があります。注意点として、このColabはGoogleドライブに何もダウンロードしませんが、他のColabはダウンロードする可能性があります(ただし、生成される音声ファイルはブラウザに保存されますが、PCにダウンロードできます)。また、他の誰かが書いたコードを実行していることに注意してください。入力ミスや、GoogleのバックエンドでGPUが利用できないなどの問題が発生しているため、エラーメッセージが表示される場合があります。まだ実験段階です。

マーク・ハッハマン / IDG
各コードブロックには小さな「再生」アイコンがあり、マウスオーバーすると表示されます。各コードブロックを実行するには「再生」アイコンをクリックする必要があります。各ブロックの実行が完了するまで、次のブロックは実行されません。
すべての機能について詳細な手順を順に説明するつもりはありませんが、赤いテキストはユーザーが変更できることに注意してください。例えば、モデルに読み上げてほしいテキストの候補などです。7ブロックほど進むと、モデルのトレーニングオプションが表示されます。モデルに名前を付け、音声ファイルをアップロードする必要があります。完了したら、4番目のブロックで新しい音声モデルを選択し、コードを実行して、3番目のブロックでテキストを設定します。そのコードブロックを実行してください。
すべてが計画通りに進めば、サンプル音声の小さな音声出力が得られます。うまく動作するでしょうか?実は、同僚のGordon Mah Ungの音声モデルを、手早く作成しました。彼の作品はThe Full Nerdポッドキャストや様々な動画で紹介されています。動作するか確認するため、短いスニペットではなく、数分間のサンプルをアップロードしました。
結果は?まあ、確かにリアルな声ではありますが、ゴードン本人とは全く違います。今のところ、デジタルによるなりすましの心配は無用です。(ちなみに、これはファストフードチェーンの宣伝ではありません。)
でも、Tortoiseの作者が俳優のトム・ハンクスに学習させた既存のモデルは、なかなか良さそうです。これはトム・ハンクスの話ではありませんよ!トムは私に仕事を紹介してくれませんでしたが、少なくとも友人の一人を騙すには十分でした。
結論は?少し怖い話ですが、聞いた(そしてすぐに見た)ものを信じる時代は終わりつつあります。いや、もう終わっているのかもしれません。