スポンサーリンク

【4コマ漫画】過去のデータを分析しても、宝くじを予測できない理由

スポンサーリンク

大学生の日常をちょっとしたマンガにしつつ、ちょいちょい大事なことを伝えられればと思います。ちなみにマンガはコミPo!で作成しました。

スポンサーリンク

【4コマ漫画】宝くじでお金持ちになることにした!

スポンサーリンク

この記事の内容

宝くじを題材にして4コマ漫画を示していますが、この記事で伝えたいのは、理論のないデータ・仮説のないデータを解釈する場合は注意が必要ということです。

宝くじの数字はランダムに出るので理論はありません。過去のデータを分析したところで、宝くじの数字を予測することはできません。

宝くじに限らず、理論や仮説のないデータは、ただのデータです。理論や仮説があってこそデータは意味付けされるのであって、それがなければただのデータでしかありません。理論や仮説がない状態でデータを集めて、後付けで解釈しようとすると、誤った結論を導くことになります。

なお、関連する記事として、【4コマ漫画】「卒論に仮説は必要ですか? とても思いつかないです!」→そのときとった対策は?があります。

宝くじは予測できない

ビッグデータなんていう言葉があるように、世の中には様々なデータがあるし、その量も膨大です。データ分析をすればいろんなことがわかると思っている方も多いのではないでしょうか。しかし、データ分析とか統計解析っていうのは、そんな都合の良いものではありません。データがあれば有益な情報が必ず得られるというわけではないのです。

数字を選ぶタイプの宝くじにおいて、「よく出ている数字だから出やすいはず」「しばらく出ていない数字だからそろそろでるはず」という感じで数字を選ぶ人がいるようです。

宝くじの出目は完全にランダムです。過去にどのような数字が出ていようが、どの数字も同じ確率で出てきます。どういう条件ならどういう目が出やすいなどの理論はありません。

宝くじに関するよくある間違い

専門家が言う宝くじを当てるコツが以下の本(p304)に示されていますので紹介します。同時にこの本では、これらのコツに対する反論も示されています。

  1. よく当たる数字を狙う。ニューヨークの宝くじのウェブサイトでは、過去数年分の当選番号が公開されている。スプレッドシートに移して、もっともよく登場する数字を探そう。
  2. 当選番号に縁のない数字を無視しない。最近出てこない数字はそろそろ出るかも。
  3. 連続した数字は避ける(たとえば、11,12,13,14,15,16)。当選番号が連続した数字になることはめったにない。
  4. コンピューターに自動的に選んでもらわない。コンピューターが何を知っているというのだろう。
  5. 賞金を獲得する人の3人に2人は男性である。あなたが女性なら、夫、恋人、兄、弟、父親にチケットを買ってもらおう。
  6. 賞金を獲得する人の名前で多いのが、メアリーとジョセフ(マリアやジョーなどの別称も含む)だ。あなたの名前がちがうなら、メアリーやジョセフという名前の友達にチケットを買ってもらおう。

訳本なので、メアリーとかジョセフとかの名前が出ていますが、日本でも同じような考えで宝くじを買おうとする人がいるかもしれません。

上記の本に示されているとおり、宝くじはランダムです。当たりやすい条件なんてありません。宝くじで儲けようと思うなら、胴元になるのが一番良いでしょう。

理論なきデータ

理論のないデータというのは、ただのデータです。何の意味も存在しません。理論がないデータを無理やり解釈しようとするとどんな問題があるでしょうか。

無意味なパターンによって誤った判断をする

例えば、「過去の株価を分析してパターンをみつければ将来の株価を予測できる」「宝くじの数字の出現パターンをみつければ当たりやすい数字を予測できる」と考える人は少なくないでしょう。

しかし、株価の動きはランダムに近く、宝くじは完全にランダムです。そのため、パターンを見つけても、将来の株価や宝くじの数字がそのパターンどおりになるわけではありません。

そして問題なのは、本来そのようなランダムな事象にもかかわらず、データ分析によって何らかのパターンがみつかってしまうことです。何の因果関係もないのに、あたかも重要な関係があるかのような結果がでてきてしまい、間違った判断をしてしまうことになるのです。

たくさんの分析データがあると、何らかの無意味なパターンがあらわれてしまうことがよくあります。宝くじを分析する場合も、過去20回のデータ、過去50回のデータ、過去100回のデータ、みたいに様々な区間のデータを用意して分析すれば、どこか1つぐらいは「3がでることが多い」みたいな何らかのパターンがでてきたりします。本当に「3がでることが多い」のであれば、どんな区間で分析したとしても、安定してそのパターンが抽出されないといけません。

無意味なはずのパターンから、後付けで理論を考え出す

理論的に無関係なもの同士にパターンが見つかった場合、後付けで理論を考え出せる人がいます。

「風が吹いたら桶屋が儲かる」的なかなり強引な理論だったりします。このことわざは、ある事象によって意外なところに影響が出ることを意味するものですが、データ分析の結果に対して、好き勝手に「風が吹いたら桶屋が儲かる」的な考え方を当てはめてはいけません。

AからB、BからC、CからD・・・というように影響が伝搬していくと考えるのであれば、A→B、B→C、などそれぞれの因果関係を丁寧に証明していかないと。

要するに、データから偶然みつかったパターンについて、「風が吹いたら桶屋が儲かる」的な考えで、強引な後付け理論が出てきた場合は、注意する必要がありますし、そんな考えを平気で取り入れるようなことをしない方が良いです。

まとめ

「理論のないデータはただのデータ」と以下の本に書いてあります。

理論があってこそ、データは意味を持つことになります。卒業論文などで研究をする場合、理論があってそこから仮説を設定します。その仮説の真偽を確かめるためにデータを分析するわけです。

理論や仮説のないデータは、ただのデータであり、そこから強引に何らかの結論を導こうとすると誤った判断をすることになりかねません。

【4コマ漫画】「卒論に仮説は必要ですか? とても思いつかないです!」→そのときとった対策は?でも説明しているので、参考にしてください。

データ分析
スポンサーリンク
airgakuのフォローをお願いいたします!
スポンサーリンク
エアガクらぼ

コメント

タイトルとURLをコピーしました