AI生成音声を識別する方法

AI生成音声を識別する方法
AI生成音声を識別する方法

ライフハッカーのロゴ

最近は誰が話しているか本当に分からない。

音声波形を長方形の形にすることで、しかめっ面の全体的な形を作り出します

クレジット: ステイシー・チュー

「AIを暴露する」と書かれたバナー画像と、虫眼鏡とデジタルアーティファクトが表示されている

AIはどこにでも存在します。その見分け方をご紹介します。


この記事は、Lifehackerの「AIを暴く」シリーズの一部です。AIが生成する6種類のメディアを取り上げ、人工コンテンツと人間が作成したコンテンツを見分けるのに役立つ、共通の癖、副産物、そして特徴を取り上げます。 

近年のAI技術により、他人の声を複製し、その「人物」に望む言葉を何でも言わせることが可能になりました。専門家でなくても、Googleで簡単に検索すれば、バイデン大統領からスポンジ・ボブまで、誰にでも自分の言葉を話させることができます。それは魅力的で、面白く、そして恐ろしい体験です。

AI音声技術は良いことにも活用できます。例えば、Appleのパーソナルボイス機能を使えば、音声合成(TTS)に使用できる自分の声のバージョンを作成できます。これは、自分で話す能力を失っている人のために設計されています。人の声を保存できるというのは素晴らしいことです。一般的なTTS音声を使用するのではなく、その人の言葉が本当にその人自身のように聞こえるのです。

もちろん、コインの裏側には、誤情報が蔓延する可能性もある。現代のテクノロジーによって、誰にでも簡単に発言を強要できるようになった今、オンラインで聞いている内容が実際に発言されたものだと、どうして信じられるだろうか?

AI音声ジェネレータの仕組み

テキストモデルや画像モデルなどの他のAIモデルと同様に、AI音声生成器は膨大なデータセットで学習されたモデルに基づいています。この場合、モデルは他の人の話し声のサンプルで学習されます。例えば、OpenAIのWhisperモデルは68万時間分のデータで学習されました。これにより、単語そのものだけでなく、トーンやペースといった音声の他の要素も再現できるようになります。

しかし、一度モデルを学習させれば、音声を再現するのにそれほど多くのデータは必要ありません。モデルに5分間の録音を与えただけでは、結果にそれほど感心しないかもしれませんが、限られた学習データに似た音声を出力できるモデルもあります。より多くのデータを与えれば、より正確に音声を再現できるようになります。

技術の進歩に伴い、偽造を即座に見分けることはますます難しくなっています。しかし、ほとんどのAI音声には顕著な癖や欠陥がいくつかあり、それらを見つけることが録音が本物か偽物かを見分ける上で非常に重要です。

変な発音やペースに注意する

AIモデルは人の声を真似るのが非常に得意で、時には違いが判別しにくいほどです。しかし、人間の話し方を真似るのはまだ難しいようです

疑問に思う場合は、話者の「声」の抑揚をよく聞いてみてください。AIボットは時折、ほとんどの人がしないような発音で単語を間違えることがあります。確かに人間はよく発音を間違えますが、より明確な兆候となる間違いにも注意が必要です。例えば、「collages」はco- lah -jezからco -lah-jez、あるいはco- lay -gesに変わる可能性があります。MicrosoftのVALL-E 2モデルで、これらの間違いをそのまま聞くことができます。「Audio Samples」の最初のセクションをクリックして「Clever cats」の例を聞いてみてください。

ペースにも影響が出る可能性があります。AIは普通の話し方のペースを再現する能力が向上していますが、単語の間に奇妙な間を置いたり、不自然な速さで単語を話したりもします。AIモデルは文と文の間のスペースを飛ばしてしまうこともあり、これはすぐにバレてしまいます。(しゃべりが止まらない人間でも、それほどロボットっぽく聞こえるわけではありません。)Eleven Labsの無料ジェネレーターを試してみたところ、出力結果の一つに、最初の文「Hey, what's up?」と2番目の文「Thinking about heading to the movies tonight」の間にスペースが含まれていませんでした。公平を期すために言うと、ほとんどの試みではスペースが含まれていましたが、音声が本物かどうかを判断する際には、このような瞬間に注意する必要があります。

逆に、次の単語や文に移るまでに時間がかかりすぎるかもしれません。AIは自然な間や呼吸を再現する能力が向上してきていますが(そう、一部のジェネレーターは発話前に「呼吸」を挿入するようになりました)、単語と単語の間に奇妙な間が入ることもあります。まるでボットが人間の話し方だと勘違いしているかのようです。もしこれが、次に言いたい言葉を考えている人間の真似であれば話は別ですが、そうは聞こえません。ロボットのように聞こえます。

今年初めの予備選挙中に誰かが作成した、バイデン大統領のディープフェイク音声で、これらの沈黙が聞こえます。この音声の中で、偽バイデンは有権者に予備選挙に行かないよう説得し、「今週火曜日に投票すれば、共和党はドナルド・トランプ氏を再び選出しようとするだけだ」と述べています。

声に感情や変化がほとんどない

同様に、AIの音声はやや平坦になりがちです。説得力のない音声が数多くあるわけではありませんが、よく聞くと、人間の話し手から期待されるほどトーンの変化が少ないことがわかります。

面白いのは、これらのモデルは人の声を非常に正確に再現できるにもかかわらず、話し手のリズムや感情を真似るとなると、しばしば的外れになってしまうことです。PlayHTのジェネレーターで有名人の例をいくつか見てみましょう。ダニー・デヴィートの例を聞けば、デヴィートの声を真似していることは明らかです。しかし、彼特有の話し方の高低がうまく表現されていません。平坦な印象です。また、いくつか違いがあります。ボットが「ああ、ダニー、あなたはイタリア人ですね」と言うところは十分にリアルに聞こえます。しかし、その後すぐに出てくる「ピサの斜塔に行ったことがあります」という部分は、実際の発音と一致していません。録音の最後の単語「サンドイッチ」は特に違和感があります。ページの下の方にあるザック・ガリフィアナキスの録音にも同様の問題があるようです。「えーと」がうまく使われていてカジュアルな印象を与える部分もありますが、サンプルの大部分には感情や抑揚が感じられません。

ここでも、状況は急速に進歩しています。OpenAIなどの企業は、音声出力においてより表現力豊かで反応性が高くなるようモデルをトレーニングしています。GPT-4oの高度な音声モードは、企業がこれまでに実現した中で、特にリアルタイムの「会話」が可能な、あらゆる面で説得力のあるAI音声の作成に最も近いと言えるでしょう。それでも、注意深く耳を傾ければ、欠点に気づくことができます。下の動画では、ボットが「反対、隣接、斜辺」(特に斜辺)と発音する様子に耳を傾けてみてください。ここでGPT-4oは一時停止し、現実的な差異は消え、珍しい単語をどう繋げるかを考えながら、音声はややロボットっぽくなります。

さて、これは非常に微妙な違いです。大きな特徴は、おそらく単語の間に間を置くこと、例えば「opposite(反対)」と言う前の間です。実際、「identify(特定する)」をゆっくり発音する様子も特徴の一つでしょうが、モデルがそれをいかに自然に再現しているかは印象的です。

これまでのところどう思いますか?

有名人や政治家が何かばかげた、あるいは挑発的な発言をしていますか?

AI音声を見分けることは、出力の欠陥を特定するだけではありません。特に「有名人」の録音に関してはなおさらです。権力や影響力を持つ人物のAI生成音声の場合、その録音はおそらく二種類に分かれるでしょう。滑稽なものか挑発的なものかです。例えば、インターネット上の誰かが有名人が面白いことを言っている動画を作ろうとしているのかもしれませんし、悪意のある俳優が政治家があなたを怒らせるようなことを言ったとあなたを説得しようとしているのかもしれません。

トランプ、バイデン、オバマが一緒にビデオゲームをしている動画を見たほとんどの人は、それが本物だとは思わないでしょう。これは明らかにジョークです。しかし、選挙に支障をきたそうとする誰かが、政治家の偽の動画を作成し、それを動画に重ねてTikTokやInstagramにアップロードするというのは、容易に想像できます。イーロン・マスクは、カマラ・ハリスの偽の動画をXで共有しましたが、その動画がAIを使って作成されたものであることは明かしていませんでした。

だからといって、実際の内容が許されるわけではありません。候補者が職務遂行能力に疑問を投げかけるような発言をした場合、注意を払うことが重要です。しかし、間違いなく分裂的な選挙シーズンを迎える中、こうした録音に疑念を抱くことは、これまで以上に重要になるでしょう。

解決策の一つは、音声録音の出所を確認することです。誰が投稿したのでしょうか?メディア組織でしょうか?それともInstagramのランダムなアカウントでしょうか?もしそれが本物であれば、複数のメディア組織がすぐに取り上げるでしょう。インフルエンサーが適切な情報源を示さずに自分の見解と一致する情報をシェアしている場合は、自分で再シェアする前に少し考えてみてください。

AI音声検出器を試すこともできます(ただし、限界があることを承知してください)

「AI音声検出器」を謳うツールの中には、音声録音が機械学習によって生成されたかどうかを判別できるものがあります。PlayHTにはそのような検出器があり、ElevenLabsには同社独自のツールで生成された音声を特に検出する検出器があります。

しかし、他のAIメディア検出器と同様に、これらのツールも鵜呑みにしないでください。AIオーディオ検出器は、AIを用いて、周波数の欠落、息切れ、ロボットのような音色(一部は実際に試聴できます)といった生成音声コンテンツの兆候を探します。しかし、これらのAIモデルは、既知の情報のみを効果的に識別します。音質の悪さや過度のバックグラウンドノイズなど、学習していない変数を含む音声に遭遇した場合、AIモデルは混乱する可能性があります。

もう一つの問題は、これらのツールは、現在利用可能な技術に基づいて学習されており、現在登場している、あるいは今後登場するAI音声に基づいて学習されているわけではないということです。この記事で挙げた例のいずれかを検出できるかもしれませんが、もし明日誰かが新しいモデルを使ってティム・ウォルツの偽の録音を作ったとしても、検出できないかもしれません。

NPRは今年初めに3つのAI検出ツールをテストし、そのうち2つ(AI or NotとAI Voice Detector)が約半分の確率で誤認識したことを突き止めました。もう1つのPindrop Securityは、提出された84個のサンプルクリップのうち81個を正しく識別しました。これは素晴らしい成果です。

録音内容に自信がない場合は、これらのツールを試してみるのも良いでしょう。ただし、使用するプログラムの制限事項を理解しておくことが重要です。

ダウンロードニュースレター 技術ニュースを見逃さない

ジェイク・ピーターソンのポートレート ジェイク・ピーターソン

ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。

ダウンロードニュースレター テクノロジー 関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。

ジェイク・ピーターソンのアーティストによる描写

ジェイク・ピーターソン

シニアテクノロジーエディター

技術ニュース、ハウツーガイド、解説などを取り上げます。

ジェイクの完全な経歴を読む

ジェイクの他の記事


携帯電話のソラアプリ


ピンクとブルーの背景に映えるAirPods Pro