マイクロソフト、新しいAI音声ツールの使用を禁止

マイクロソフト、新しいAI音声ツールの使用を禁止
マイクロソフト、新しいAI音声ツールの使用を禁止
  • コピーしました

とても良いので、使用するのは安全ではありません。

ガラス張りの建物の外壁にマイクロソフトのロゴ

クレジット: バンブル・ディー/Shutterstock

目次


AIがかなり現実的なものになりつつあることは周知の事実です。OpenAIのような企業は、画像、音声、動画を複製できるツールを開発しており、その複製はますます困難になっています。しかし、こうしたプログラムの一部が既に公開されていること自体が問題なのに対し、非常に優れたツールが一般の人々から隠されているというのは、懸念すべき事態です。

Vall-E 2はあなたの声を盗むことができます

TechSpotの報道によると、Microsoftは「ニューラル・コーデック言語モデル」Vall-Eの新バージョンを開発し、Vall-E 2と名付けられました。Microsoftはブログ記事でVall-E 2の進化の詳細を解説し、この最新モデルの重要なマイルストーンをいくつか取り上げています。特に注目すべきは、Vall-E 2が「人間と同等」を実現したことです。これは「当社のモデルの出力が本物の人間のように聞こえる」という表現を、少し言い換えた表現のようです。恐れるべき点です。

Vall-E 2は、Vall-Eに比べて2つの重要な機能強化を実現しているようです。新しいモデルでは、繰り返しトークンを処理する際に発生していた「無限ループ」の問題が解消されています。新しいモデルは繰り返しトークンを考慮しているため、繰り返しトークンを含むサンプルをデコードできます。さらに、Vall-E 2はコーデックコードをグループ化することでシーケンスの長さを短縮します。Microsoftによると、これにより干渉速度が向上し、長いシーケンスのモデリングで発生する問題を回避できるとのことです。

ライフハッカーのロゴ

あなたも気に入るかもしれない

ここまでが少し技術的な話に聞こえるかもしれませんが、これはそうではありません。Vall-E 2はVall-Eの「音声の堅牢性、自然さ、話者の類似性」をはるかに上回っており、Microsoftによると、これらの分野で人間と同等の性能を達成した同クラスの製品としては初めてとのことです。実際、同社は「VALL-E 2は、元の話者の声と全く同じ正確で自然な音声を生成でき、人間の音声に匹敵する」と述べています。

それは単なる理論ではない

Vall-E 2の優秀さは、記事を読むだけでは証明できません。マイクロソフトは、Vall-E 2が音声サンプルを録音し、新しいテキストを提示することでそれを再現する例を提供しています。また、3秒、5秒、10秒の断片的なサンプル録音を与えられた後、モデルが文章を完成させる例も提供しています。これは、非常に短い音声サンプルを録音し、元のサンプル録音には含まれていないテキストでそれを再現する能力を実証しています。

音声合成モデルにありがちな癖(発音の誤り、どもりなど)は依然として多くありますが、Vall-E 2 の音声サンプルは、多くの場合リアルであるだけでなく、元のサンプルの音声に非常に近いことは間違いありません。特に、長めの録音音声を入力すると、優れた結果が得られます。3秒の録音音声でも十分に印象的ですが、5秒、さらには10秒の録音音声を入力すると、驚くほどリアルな音声が出力されます。

これまでのところどう思いますか?

実際にサンプルをクリックして、「VCTKサンプル」で「私の人生は大きく変わりました」と朗読した際のVall-E 2の10秒間の録音音声がどれだけ正確に再現されているかを確認してください。AIシステムの学習経験はありませんが、私の耳には、特に10秒間のクリップ全体を受け取った後では、モデルがサンプル中の話し手のしゃがれた声を完璧に再現しているように聞こえます。元の話し手がある文を読み上げた後、モデルが話し手の声とほぼ同じ声で新しい文を読み上げるのを聞くと、違和感を覚えます。

Vall-E 2のリスク

しかし、この件に少し不安を感じているなら、それはあなただけではありません。マイクロソフトは、自社のモデルが悪意を持って利用された場合、危険になり得ることを認識しています。記事末尾の倫理声明では、Vall-E 2は様々な有益な用途に利用できる一方で、特定の人物になりすますためにも利用される可能性があるとしています。マイクロソフトによると、このモデルは、自分の声が複製されることを理解している同意済みのユーザーを対象としており、リクエストを処理する前に同意を確認するプロトコルを備えている必要があるとのことです。しかしながら、現時点ではそのようなプロトコルは実際には存在しないようです。そのため、マイクロソフトは現時点で「VALL-E 2を製品に組み込む予定も、一般ユーザーへの公開も予定していない」としているのでしょう。

ここで紹介する例は、LibriSpeechとVCTKデータセットの音声サンプルに基づいており、Microsoft自身が録音したサンプルではありません。そのため、このモデルが、例えばバイデン大統領、イーロン・マスク、あるいはあなたの上司の音声サンプルを与えられた場合、実際にどのようなパフォーマンスを発揮するかは、外部の観察者としては明らかではありません。しかし、Vall-E 2が10秒間のサンプルを与えればリアルな出力を生成できると仮定すると、何時間ものサンプルを与えればどれほどリアルな出力になるか想像してみてください。これに堅牢なAIビデオモデルを組み合わせれば、世界中の選挙シーズンに間に合うように、誤情報を生成するための完璧な嵐が巻き起こるでしょう。

ダウンロードニュースレター 技術ニュースを見逃さない

Jake Peterson portrait ジェイク・ピーターソン シニア技術編集者

ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。

ダウンロードニュースレター テクノロジー 関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。

次の記事へスクロールしてください