大学生の日常をちょっとした漫画にしつつ、ちょいちょい大事なことを伝えられればと思います。ちなみに漫画はコミPo!で作成しました。
【4コマ漫画】彼が4月生まれだからですね
疑似相関の話であって、4月生まれだから勉強ができるという話をしたいわけじゃないんだけどな・・・。
もともと相関関係の解釈や疑似相関について何とか4コマ漫画を作成してみたいと思っていました。変数間に相関関係があっても因果関係があるとは限らないということだったり、まったく関係のない変数同士なのに相関が出ることがあるということだったりの話です。
ただそれを使って4コマ漫画にしようとしたら、オチを作るのが難しいですね。試行錯誤した結果、このような4コマ漫画になりました。
それなので実際に小学生と比較したケースがあるわけではありません。あくまで4コマ漫画上の話です。
相関関係とは
データ解析でよく使われる分析として、相関関係をみるというものがあります。相関係数の大きさによって、2つの変数間に何か関係がありそうかをみるものです。基本的に相関係数の値は-1.0~+1.0の値となり、0に近いほど相関関係が弱いとなり、-1.0あるいは+1.0に近いほど相関関係が強いということになります。
よく使われると言えばよく使われる分析方法ですが、後述するように、この値が高かったとしても2つの変数間に因果関係があるとは限らないわけです。4コマ漫画に示すような疑似相関という状態です。そのため、分析の結果、相関関係が見られたからと言って、2つの変数の間に何らかの関係がありそうぐらいしか言えないので、使えるかといったら微妙ですね。他の分析をメインとしてそれに付随する形で相関関係をみるということはあるのですが、相関関係を分析のメインに持っていっても苦しいだけです。
相関関係があっても因果関係があるとは限らない
相関関係はどのようなときに現れるでしょうか。例えば、世帯収入の高さという変数と学力という変数があったとします。主に以下の3つの場合にこれら2つの変数に相関が出ることになります。
- 世帯収入が高いために学力が高い・・・例えば、世帯収入が高くて塾などに通うことができるため、学力も高くなる
- 学力が高いために世帯収入が高い・・・例えば、学力が高い人は年収の高い仕事に就くことができるため、世帯収入が高くなる
- 世帯収入と学力の間に第3の変数がある・・・例えば、親が地位の高い仕事に就いている。地位が高い仕事は収入が高くなりやすい。また、親の地位が高いと教育熱心であるため子どもの学力も高くなる
あれ・・・? 分かりにくいかも。誰の学力が高いかが迷走してしまっているため、複雑化もしれません。要するに、世帯収入と学力に相関があった場合、世帯収入が原因で学力が変化する、学力が原因で世帯収入が変化する、世帯収入と学力に影響する第3の変数が存在するためにたまたま世帯収入と学力が同時に変化する、というパターンがあるということです。もしかしたら他のパターンもあるかもしれませんが、ここではこの3つを紹介します。
最初の2つは因果関係ですが(ただしどっちが原因でどっちが結果なのかは相関関係だけでは分かりません)、最後の「第3の変数が存在する」場合は、世帯収入と学力の間に因果関係があると言い切ることはできません。
そのため、相関関係をみただけでは、2つの変数間に因果関係があるとは言えないわけです。また、本来、関係のない変数同士が「第3の変数が存在する」ために相関関係を持ってしまうことを疑似相関と言います。
疑似相関について
疑似相関は、第3の変数の存在によって、関係のない2つの変数の間に相関関係が生じることです。4コマ漫画では、小学校低学年の身長と学力の関係を例として取り上げています。
身長と学力は基本的には関係があるとは言えません。まったくないわけではないかもしれないけど、それほど強い関係ではないと思います。しかし、小学校低学年だったりもっと低年齢の幼児さんだったりすると、同じ学年であっても、4月生まれなのか、3月生まれなのか(要するに、遅生まれか早生まれか)で約1年程度の発達の違いがあるわけです。そのため、4月生まれの方が身長は高くなりやすいし、物事の理解などがスムーズと思われるので学力も高くなるということです。
だから、身長と学力に関係はないけど、月齢という別の変数の存在によって、身長と学力に相関関係が現れることになります。
統計を使ったウソ
相関関係の解釈は気をつけていただければ良いかと思いますが、これと関連しているのかいないのか、統計を使ったウソについても少し触れたいです。用語としては、統計マジックとか統計詐欺そんな言葉が使われるかなと思います。
世の中、統計だったりデータ分析だったりが流行っている(気がする)のですが、慎重に見ていかないと騙される可能性があります。統計とかデータ分析とかで用いるソフトウェアは優秀なものがけっこうあるので、普通に使っていれば間違った計算などはされないはずです。しかし、それを使用する人間が、都合の良いデータだけで分析したり、都合の良い分析手法だけを用いたりして、あたかもきちっとやっているように見せかけるという問題があります。
日常では様々な場面で、統計やデータが用いられています。何かの商品の広告だったり、ダイエットで何キロ痩せるという話だったり、何パーセントの人がどうなった、とかだったり・・・。ネット上でも電車の広告でも、いろんなところで統計やデータが用いられています。
見る人が見ると、都合の良いデータにしていることがあからさまだったりしますが、統計やデータの扱いに慣れていないと信じてしまいそうですよね。いかに妖しいデータであったとしても・・・。
自分にとって有益でないものにお金を使ったり、人生をすり減らしたりしないように、統計やデータをみる目を養った方が良いなと思います。大学生はそういうものから逃げずにしっかり勉強して欲しいなと思います。
それと、統計やデータ分析とセットで用いられるものにグラフがありますが、それも気をつけた方が良いです。関連記事として、【4コマ漫画】統計分析しても有意差を検出できません!どうしたら良いですか?では、グラフマジックや詐欺グラフについて説明しています。