Microsoft の VALL-E について知りたいことすべて

Microsoft の VALL-E について知りたいことすべて

Microsoft は、3 秒のオーディオ サンプルを聞くだけであらゆる音声を模倣するテキスト読み上げ AI モデルである VALL-E を開発しました。

読み進める前に、次のことを明確にしておきたいと思います。 VALL-EはWALL-Eとは異なります。両方の単語をまったく同じに発音する人もいますが、この 2 つの単語には大きな違いがあります。 WALL-E は 2008 年に公開されたディズニー/ピクサーのアニメーションで、かわいくてフレンドリーな AI ロボットが登場します。

AI という要素はまさに VALL-E と WALL- の類似点です。 E.

VALL-E についてわかっていることは何ですか?

技術用語では、Microsoft は VALL-E を「ニューラル コーデック言語モデル」と呼んでいます。より単純な言語で言うと、VALL-E は、テキスト入力から音声を生成したり、提供された音声サンプルの音声を模倣したりできる AI モデルです。わずか 3 秒の短い音声サンプルを聞くだけで、あらゆる音声を模倣できます。 VALL-E はまだ一般公開されていません。声だけでなく、空間の雰囲気や音響にもフィットします。多くの有益な方法で適用できるという事実にもかかわらず、これには道徳的な問題があります。

トレーニング モデル –

研究者らは、Meta の LibriLight オーディオ ライブラリでは 7,000 時間以上の英語話者を対象に VALL-E をトレーニングしたと主張しています。ターゲット話者の声を模倣するには、トレーニング データによく似ている必要があります。このようにして、アルはその「訓練」を利用して、対象の話者の声を真似しようと試みることができます。

感情を模倣する -

Al モデルは、ピッチ、ハスク、テクスチャに加えて、部屋の音響だけでなく、話者の感情的な調子もシミュレートできることを強調しておく必要があります。したがって、VALL-E は、ターゲットの音声に妨害がある場合、あたかも妨害があるかのようにターゲットの音声を模倣します。

Microsoft の研究チームによると、「実験の結果は、VALL-E のパフォーマンスがはるかに優れていることを示しています」音声の自然さと話者らしさの点で、最先端のゼロショット TTS システムよりも優れています。さらに、VALL-E が合成中に話者の感情と音響プロンプトの音響コンテキストを維持する可能性があることも発見しました。

脅威 –

The Alモデルは、ロボット工学、メディア制作、カスタムのテキスト読み上げアプリケーションに適用できます。ただし、不適切に使用すると、危険をもたらす可能性があります。企業は警告した VALL-E は話者の ID を維持しながら音声を合成できるため、このモデルは音声 ID のなりすましやなりすましに悪用される可能性があります。

VALL-E は、たとえば、正規のように見えるスパム電話の生成に使用される可能性があります。人を騙すために。政治家や社会的に立派な存在感のある人も、デマで実証されているように、なりすましの被害に遭いやすいです。音声コマンドや音声パスワードを必要とするアプリケーションを使用しているユーザーに脅威が及ぶ可能性があります。さらに、声優の仕事は VALL-E によって排除される可能性があります。

倫理的立場 –

さらに、ビジネス「本研究における実験は、モデルの使用者が対象話者であり、話者に受け入れられたという前提の下で行われた。」という倫理に関する記述が含まれています。話者が変更を実行することに同意していることを確認するためのプロトコルと、変更された音声を検出するシステムは、モデルがすべての話者に一般化される場合、音声編集モデルに組み込まれる必要があると述べられています。

VALL とは-E DALL-E とは異なりますか?

DALL-E は、テキストの説明からグラフィックを生成する OpenAI によって作成された機械学習モデルです。プロンプトは、これらのテキストから画像への説明を記述するために使用されます。アルゴリズムがリアルなビジュアルを生成するには、シーンの説明だけで十分です。 DALL-E は、ユーザーが指定した短い単語から正確な画像を構築するニューラル ネットワーク技術です。テキストによる説明と、ユーザーや開発者がデータセットに提供したデータの「学習」を使用して言語を学習します。

VALL-E についてどう思いますか?

DALL-E (テキストから画像へ) と比較した VALL-E (テキストからサウンドへ) についてよく理解できたと思います。 VALL-E がいつ一般の人々にアクセスして使用できるようになるかについては、明確な日付はありません。 DALL-E に関する限り、すでにすべての人が利用できるようになっています。

ご質問や推奨事項がございましたら、以下のコメント欄でお知らせください。喜んで解決策を提供させていただきます。私たちは、一般的な技術関連の問題に対するアドバイス、トリック、解決策を頻繁に公開しています。 Facebook、Twitter、YouTube、Instagram、Flipboard、Pinterest でも私たちを見つけることができます。

読み取り: 0

yodax