統計を使って自分自身や他人に嘘をつく方法

統計を使って自分自身や他人に嘘をつく方法
統計を使って自分自身や他人に嘘をつく方法

ライフハッカーのロゴ

  • Bluesky ページを見る (新しいタブで開きます)
  • Instagramページを見る(新しいタブで開きます)
  • Facebookページで見る(新しいタブで開きます)
  • YouTubeページを見る(新しいタブで開きます)
  • Twitterページを見る(新しいタブで開きます)
  • コピーしました

目次


統計の誤用は、嘘をつくための最も強力な手段の一つです。通常、統計の解釈を誤らないようにする方法を教えますが、数字がどのように操作されているかを知っておくと、誤解釈を見抜くのに役立ちます。そこで、データに自分の考えを裏付けるために、どんなことでも自分の思い通りに解釈させる方法をお見せします。

この記事は、Lifehackerの「Evil Week(悪の週)」シリーズの一環です。このシリーズでは、物事を成し遂げることのダークサイドに迫ります。時に悪は正当化され、時に悪を知ることは、それを打ち負かす方法を知ることにつながります。もっと知りたいですか?「Evil Week」タグページをご覧ください。

調査結果にバイアスを加えるサンプルデータを収集する

統計を構築する最初のステップは、分析対象を決定することです。統計学者はこれを「母集団」と呼びます。次に、収集するデータのサブセットを定義します。このサブセットは、分析時に母集団全体を代表するものとなるはずです。サンプルが大きく正確であればあるほど、より正確な結論を導き出すことができます。

もちろん、この種の統計的サンプリングを台無しにしてしまう大きな原因はいくつかあります。それは偶然か意図的かに関わらずです。収集したサンプルデータが悪ければ、どんな場合でも誤った結論に至ってしまいます。データを台無しにする方法はたくさんありますが、主なものをいくつか挙げてみましょう。

  • 自己選択バイアス:この種のバイアスは、研究対象の人々やデータが、母集団全体を代表しないグループに自発的に属している場合に発生します。例えば、読者に「お気に入りのテキストメッセージアプリは何ですか?」といった質問をした場合、回答はLifehackerを購読する人からのみ得られます。このような非公式なアンケートの結果は、おそらく母集団全体を代表するものではないでしょう。なぜなら、Lifehackerの読者は皆、平均的な人よりも賢く、面白く、魅力的だからです。

  • 便宜的サンプリング:このバイアスは、調査が代表データを見つけようとするのではなく、利用可能なデータをすべて分析することで発生します。例えば、ケーブルニュース局が視聴者に政治候補者に関する世論調査を行うとします。他のネットワークを視聴している人々(あるいはテレビを全く見ない人々)を対象に調査を行わなければ、世論調査の結果が現実を反映しているとは言えません。

  • 無回答バイアス:これは、選ばれた集団の一部の人々が統計調査に回答しないことで、回答が変動してしまう場合に発生します。例えば、性行為に関するアンケートで「配偶者を裏切ったことがありますか?」と尋ねた場合、不倫を認めたくない人もいるため、不倫は実際よりも稀であるかのように見せかけてしまう可能性があります。

  • オープンアクセスアンケート:このタイプのアンケートは誰でも回答を送信でき、多くの場合、回答が一度だけ送信されたかどうかの確認すら行われません。一般的ではあるものの、入力内容を意味のある方法で制御しようとしないため、根本的に偏りがあります。例えば、好みの選択肢をクリックするだけのオンラインアンケートは、この偏りに該当します。楽しくて役立つこともありますが、客観的に論点を証明するには向いていません。

これらは、サンプルに偏りが生じる非常に多くの方法のほんの一部に過ぎません。誤解を招く印象を与えたいなら、毒を選べばいいのです。例えば、ウェブサイト上のオープンアクセスの世論調査は、あなたが最も好きな候補者が討論会で勝ったと「証明」したり、アンダーテールが史上最高のゲームだと「証明」したりするために利用される可能性があります。サンプルバイアスの素晴らしい点は、どこかの誰かが、あなたが望むことを何でも言うような非科学的な世論調査を実施しているということです。ですから、気に入った非科学的な世論調査が見つかるまでGoogleで検索するか、自分で作成してみましょう。

あなたのアイデアを裏付ける分析を選択する

ライフハッカー画像

アンスコムのカルテットは、ほぼ同じ統計概要を持つ 4 つの異なるグラフを示しています。

統計は数字を用いるため、それが主張する考えの確固たる証拠であると容易に思い込みがちです。しかし実際には、統計の背後にある数学は複雑であり、不適切な分析を行うと、異なる結論、あるいは全く矛盾する結論に至ることもあります。統計を都合よく歪曲したいのであれば、数学を誤魔化しましょう。

データ分析の欠陥を示すために、統計学者フランシス・アンスコムはアンスコム四重奏(上図参照)を作成しました。これは4つのグラフで構成されており、チャート上で見ると大きく異なる傾向を示します。X1チャートは、上昇傾向を示す基本的な散布図を示しています。X2は、上昇傾向を示していた曲線状の傾向を示していますが、現在は下降傾向を示しています。X3は、Y軸に1つの外れ値がありますが、緩やかな上昇傾向を示しています。X4は、両軸で1つの外れ値が非常に高いことを除けば、X軸上では完全に平坦なデータを示しています。

ここからがおかしな話です。これら4つのグラフすべてにおいて、以下の記述が当てはまります。

  • 各データセットの平均x値は9です

  • 各データセットの平均y値は7.50です。

  • xの分散は11、yの分散は4.12です。

  • xとyの相関は各データセットで0.816である。

このデータをテキスト形式でのみ見た場合、4つの状況はすべて同じに見えるかもしれません。例えば、X1のように、会社の男性の給与を年々変化させたグラフと、X2のように、同じ会社の女性の給与を同時期に変化させたグラフがあるとします。テキストだけを見せれば、2人の平均給与は同じであることがわかります。しかし、グラフ全体を見せると、何らかの理由で女性の給与が減少傾向にあることがわかります。

アンスコム氏は、人々を誤解させないためには、結論を出す前に必ずデータを視覚化し、外れ値が分析にどのような影響を与えるかを把握しておくべきだと提言しました。適切にグラフ化されたチャートでは外れ値を見逃すことは難しいですが、テキストでは目に見えないほど大きな影響を与える可能性があります。もちろん、人々を誤解させることが目的であれば、このステップは省略しても構いません。

事前に考えた結論だけを強調するチャートを作成する

ほとんどの人は自分で統計分析をする時間がありません。そのため、結論をまとめたグラフを見せてもらうことに頼っています。グラフを適切に作成すれば、現実に即したアイデアが提示されるはずです。もしグラフを台無しにしたいのであれば、気に入ったデータだけを強調すればいいのです。

近年で最も有名で、しかも滑稽なほど不正確なグラフの一つは、プランド・ペアレントフッドに関する会議で、ある議員が提示したものです。この会議で、ジェイソン・チャフェッツ下院議員(ユタ州選出、共和党)は、プランド・ペアレントフッドの中絶サービスは2006年以降増加している一方で、がん治療サービスは同時期に減少していると主張しようとしました。彼がその根拠として使ったグラフがこれです。

これまでのところどう思いますか?

ライフハッカー画像

これは私が今まで見た中で最悪のチャートの一つです。しかも、下院監視委員会に提出されたものです。

一見すると、中絶が急増し、がん治療サービスが劇的に減少しているように見えます。しかし、このグラフにはいくつかの欠陥があり、このような結論に至っています。

  • Y軸にラベルがありません。下のX軸には年数がラベルされているのに、Y軸には全くラベルがありません。手術件数でしょうか?それとも手術に費やした金額でしょうか?さあ、誰にも分かりません!わざわざラベルを付ける必要はありません。

  • Y軸のスケールが全て間違っています。ラベルが間違っているだけでなく、Y軸のスケールも全て間違っています。赤い線の最終データポイントは327,000ですが、チャート上ではピンクの線の最終データポイント935,573よりも何故か高い位置にあります。技術的には各線は正しい方向に進んでいますが、スケールが全て間違っています。

  • 文脈が欠けている。これらのデータポイント(現状では)は、何が起こっているかを示しているだけで、なぜ起こっているのかを示しているわけではない。例えば、2009年に米国予防サービスタスクフォースは、マンモグラフィー検診を毎年受けることを推奨していたのに対し、2年に一度受けることを推奨するようになった。これががん検診の減少を説明できるかもしれない。

ほとんどのチャートはここまで露骨に間違っているわけではありませんが、チャートの重要な要素をいくつか省略するだけで誤解を招くという好例です。ニュースサイトQuartzは、このチャートが適切に表現された場合の見た目を示しました(2008年のデータは提供されていないため、チャートには表示されていません)。

ライフハッカー画像

こっちの方がずっと正確だよ。そういうのが好きならね。

この尺度では、中絶手術の増加は比較的横ばいである一方、がん検診は減少しています。しかし、個々のデータポイントが示されているため、予測通り、2009年頃から減少が始まっていたことがわかります。これは、情報を適切な文脈で正確に提示する方法です。つまり、人々を誤解させたいのであれば、グラフを少し操作するだけで十分です。ラベルを省き、軸を少し操作するだけで、あなたも実際よりも良い点があると思わせることができます。

情報源を何としても隠す

情報源が分かりやすいほど、他の人があなたの結論を検証したり反証したりしやすくなります。もし結論が検証可能なら、ぜひともデータとその根拠を他の人に公開しましょう。しかし、もし人々を誤解させることが目的なら、どのようにして結論に至ったかを誰にも知られてはいけません。

適切な情報源を示すために、データに言及する人は必ず出典を明記します。ニュースサイトは、引用している研究や調査(研究に関する記事ではなく)にリンクを貼るべきです。研究者はデータセット全体を示す必要はありませんが、研究の出典はいくつかの基本的な質問に答えるものでなければなりません。

  • データはどのように収集されましたか?電話で人々に連絡しましたか?ショッピングモールの外で呼び止めましたか?Twitterのアンケートですか?データ収集に使用した方法によっては、サンプリングバイアスが示唆される(または否定される)可能性があります。

  • データはいつ収集されましたか?いつデータを収集し、収集にはどれくらいの時間がかかりましたか?レポートはすぐに古くなり、傾向は時間の経過とともに変化します。データの収集期間を含めることで、導き出される結論について多くのことがわかるようになります。

  • データは誰が収集したのか?データを収集した個人またはグループは、データの信頼性に関するヒントを提供してくれる可能性があります。タバコ会社がタバコは安全だと主張する調査は、誰かが検証しない限り、正しくない可能性があります。

  • 誰に質問したのか?特にアンケートや世論調査においては、誰に質問したのかを知ることが重要です。政治家が自分と親しい人だけにアンケートを取った場合、国民全体を代表するデータは得られません。

出典を明示することは、偏見を避けるためだけでなく、他の人にあなたの主張を検証する機会を与えるためにも行われます。データ、方法、そして結論を​​批判にさらすことになり、他の人があなたの考えに疑問を投げかけようとします。もしあなたの結論が批判に耐えられないなら、それは崩壊します。最も正確な統計は、他の人が見て、自分の研究と裏付けることができるものです。しかし、もしあなたの目的が自分自身や他の人を誤解させることであるならば、出典を明かす必要はありません。実際、最善の防御策は「調べてみろ!」と言って立ち去ることです。誰もそれを反証することはできません。

イラスト:アンジェリカ・アルゾナ。写真:ウィキメディア・コモンズ、Americans United For Life、Quartz。

毎日のニュースレター すべてをより良くする準備はできていますか?

ジョーダン・カルホーンの肖像 ジョーダン・カルフーン 編集長

Jordan とチームから毎日のヒント、コツ、技術ガイドを入手してください。

毎日のニュースレター すべてをより良くする準備はできていますか? Jordan とチームからのヒント、コツ、技術ガイドを毎日お届けします。

次の記事へスクロールしてください