ローレルがヤニーになった本当の話

ローレルがヤニーになった本当の話
ローレルがヤニーになった本当の話

ライフハッカーのロゴ

  • Bluesky ページを見る (新しいタブで開きます)
  • Instagramページを見る(新しいタブで開きます)
  • Facebookページで見る(新しいタブで開きます)
  • YouTubeページを見る(新しいタブで開きます)
  • Twitterページを見る(新しいタブで開きます)
  • コピーしました

目次


当初、ローレルかヤニーかというクリップでは「laurel」しか発音されていませんでした。こちらがVocabulary.comで働くオペラ歌手が録音したオリジナル版のクリップです。おそらくあなたも「laurel」と聞こえるでしょう。このクリップとバイラルクリップを比べて、何が変わったのか、そしてなぜ半分の人がバイラルクリップを「yanny」と聞こえるのかを見てみましょう。

オリジナルの録音は、Vocabulary.comが2007年に、サイト内で最も頻繁に検索される単語の発音を収録する取り組みの一環として提供されたものです。これは「laurel」という単語の録音です。この音声は、同社から委託を受けた8人の歌手の1人、ジェイ・オーブリー・ジョーンズによって録音されました。彼は、提供されたノートパソコン、マイク、ポータブルサウンドブースを使って、自宅でこれらの単語を読み上げました。(オペラ歌手は、辞書でも使用されている発音コードであるIPAの読み方を訓練されています。)ジョーンズは、このサイトのために約3万6000語を自ら朗読しました。

Vocabulary.com の共同設立者兼最高技術責任者の Marc Tinkler 氏によると、処理すべきサウンド クリップが非常に多かったため、各ファイルの先頭と末尾をトリミングし、必要に応じてノイズ低減フィルターを適用し、スペースと帯域幅を節約する MP3 形式に変換するなど、ソフトウェアがすべてを自動的に実行したという。

ライフハッカーのロゴ

あなたも気に入るかもしれない

MP3形式の優れた点は、サウンドファイルをインターネット上で簡単に共有できるほど小さな容量に圧縮できることです。MP3形式の欠点は、圧縮によって録音から音が削除され、グリッチやキンキンしたノイズが混入してしまうことです。もし、少し圧縮されたファイルで問題なければ、元のサウンド情報のほとんどを残すことができます。しかし、ティンクラー氏は「これは2007年か2008年の話なので、ダウンサンプリングのプロセスはかなりアグレッシブでした」と語ります。

ティンクラー氏に比較のためにオリジナルファイルを持っている可能性はあるかと尋ねたところ、彼は物置のDVDからそれを見つけ、SoundCloudにアップロードしてみんなに聴いてもらえるようにしたそうです。厳密に言うと、これは完全なオリジナルではありません。SoundCloudはmp3形式で提供していますが、元々はもっと高音質で録音されていたからです。しかし、あなたと友達が言い争っているバージョンよりも、よりオリジナルと言えるでしょう。それに、ファイルが圧縮された際に何が起こったのか、はっきりと分かるほど鮮明です。

失われたもの

ローレルクリップを圧縮すると、大きな犠牲を払わなければなりませんでした。それは第二音声フォルマントです。音のスペクトルのこの部分がないと、Lは「ee」のように聞こえ、Rは「N」のように聞こえるかもしれません。

理由はこうです。音波にはそれぞれ周波数があり、周波数が高いほど、私たちが聞く音の高さも高くなります。しかし、話し言葉の音には同時に多くの周波数が含まれています。私たちの耳と脳は、この音の混沌とし​​た中から最も強い周波数を選び出します。音声科学者はこれをフォルマントと呼びます。最も低い2つのフォルマントは、ある母音と別の母音を区別するのに十分な情報を与えてくれます。

音声ファイルを分析プログラムで開くと、これらのフォルマントを見ることができます。カリフォルニア大学ペンシルベニア校の音声科学者である父は、私がこの話題の動画を見せた時、まさにその通りにしました。父はWavesurferというプログラムでMP3ファイルを開き、台所のテーブルにあるノートパソコンで、私がlaurelと聞き間違えた理由を説明してくれました。フォルマントが「ee」「a」「n」とも言える曖昧な音、そして最後の「ee」に一致しているからです。ヤニー。

しかし、彼は、本当に聞き取ろうと思えば「laurel」という音も聞き取れるくらい曖昧さが残っていると認めた。(彼は最初、このファイルは意図的に曖昧になるように作られており、聴覚を錯覚させているのではないかと疑っていた。)ちなみに、私はこのファイルから「laurel」以外の音は一度も聞いたことがない。

父は白黒のスペクトログラム表示だけでフォルマントを判別できますが、Wavesurferはそれを検出して色分けしてくれます。Wavesurferは父の指示に同意し、このファイルを「yanny」と読み上げます。しかし、元のファイルを渡すと、別のフォルマントセット、つまり「laurel」とはっきりと読み上げられるフォルマントセットが強調表示されます。

何が起こったのかを理解するために、赤と緑の線を見てください。これらは最初の2つのフォルマントで、F1(赤)とF2(緑)と呼びます。どちらもスペクトログラムの底辺を漂っています。3つ目のフォルマントであるF3は、それらの上に高く浮かんでいて、laurelのRの発音時にF2のすぐ近くまで下がります。

これまでのところどう思いますか?

でも、処理済みのクリップ、つまり友達と共有しているクリップを見てください。(上のスライドショーの矢印をクリックしてください。)mp3圧縮のせいで、全体的にノイズが多くなっています。このノイズによってF1とF2の差がぼやけてしまい、Wavesurferと私たちの脳は、おそらくフォルマントはF1しかないと推測してしまいます。つまり、上の方、つまり真ん中で下がっている線がF2のように見えるのです。

クリップの冒頭、F1とF2が低い位置で隣り合っているため、Lの音として聞こえます。しかし、F1がそこまで低く、F2が2000ヘルツよりずっと高い場合、それは「イー」または「Y」の音になります。第2フォルマントを消すと、音の解釈が変わります。

しかし、異論を唱える余地は十分にある

話題になっている加工済みの動画は、第二フォルマントを完全に除去しているわけではなく、ノイズの中で識別しにくくしているだけです。ローレルの音を聞き取ろうとしていて、耳と脳が低周波域で二つのフォルマントを認識できるなら、ローレルとして聞き取ることができます。しかし、今週初めにGizmodoが報じたように、人によってはヤニーの音がより際立つかもしれません。

では、高音域や低音域だけを聴くことで聴こえ方が変化することを示唆する動画やスライダーツールについてはどうでしょうか? 実は、この現象も音声フォルマントに起因していることが判明しました。

高周波数をカットすると、スペクトルの低域、つまり元のF1とF2があった部分だけが残ります。脳は、高域にあるF2だと認識する音に意識を集中させるのではなく、この2つのフォルマントを区別しようと、より努力することになります。一方、クリップの高域だけを聴くと、脳は実際のF3をF2の可能性がある音として認識し、スペクトルの低域にF1が1つあるはずだと推測します。

したがって、このトリックによって認識が変わるのは、ヤニーがスペクトルのある部分に「ある」音として、ローレルが別の部分に「ある」音として聞こえるからではなく、いずれにしても脳がフォルマントの一部だけを聞いていて、残りが何であるかを推測しているからです。

毎日のニュースレター すべてをより良くする準備はできていますか?

ジョーダン・カルホーンの肖像 ジョーダン・カルフーン 編集長

Jordan とチームから毎日のヒント、コツ、技術ガイドを入手してください。

毎日のニュースレター すべてをより良くする準備はできていますか? Jordan とチームからのヒント、コツ、技術ガイドを毎日お届けします。

次の記事へスクロールしてください