大学生の日常をちょっとした漫画にしつつ、ちょいちょい大事なことを伝えられればと思います。ちなみに漫画はコミPo!で作成しました。
【4コマ漫画】ビンゴの番号を分析する?
統計学における数値とは
統計学とかデータ分析とかでは、何らかのデータを使っていろいろ処理をするんだということはわかるかと思います。
ただし、そのデータというのは、何でも良いわけではなく、数学的に処理できるものになっていないといけません。
数学的に処理という場合、1、2、3などの数値がありますが、どのようなデータに対してそのような1、2、3などを当てはめているのかで処理の仕方がずいぶん異なってきます。
例えば、女性を1、男性を0のように、性別というカテゴリーに対して1や0などの数値を当てはめることもありますし、身長・体重とか時間のように㎝、㎏、秒などの単位を持つ数値であれば、その単位の数値をそのままデータとして扱うことができます。
前者のカテゴリーと後者の数値では、1とか2のもつ意味はまるで異なります。性別であれば1は女性ですが、身長であれば1は1㎝を意味します。そうすると、分析する際の扱い方もまったく異なります。
統計学では4種類の数値がある
統計やデータ分析の世界では、4種類の数値データがあります。それらは名義尺度、順序尺度、間隔尺度、比率尺度といいます。
- 名義尺度・・・カテゴリーデータのこと。例、性別、色、血液型、郵便番号など
- 順序尺度・・・順番が意味を持つデータのこと(数値間の目盛りが等間隔ではないもの)。例、100m競争の1位・2位・3位、資格検定の1級・2級・3級など
- 間隔尺度・・・数値間の目盛りが等間隔のデータのこと。例、気温(摂氏)、テストの点数など
- 比率尺度・・・数値間の目盛りが等間隔であり、原点として0が存在するデータのこと。例、身長、速度、値段など
尺度によって行える操作が異なってきます。間隔尺度や比率尺度は足し算・引き算などの計算ができますが、他の尺度はそのような扱いが難しいです。
足し算・引き算の計算ができないと平均値はとれないため、名義尺度や順序尺度では平均値を計算することができません。
名義尺度のようなカテゴリーデータは、個数をカウントして分析するか、ある事象が起こる確率を使います。例えば、性別(女性・男性)というデータがあったとすると、女性の人数・男性の人数という人数を分析対象とするか、女性である確率(1なら女性、0なら男性)という扱いをします。
このように、データ分析とか統計解析をするときは、数値がどの尺度なのかに注意が必要となります。
ビンゴの番号もそうですが、ロト6とかの番号も平均値なんてとれませんからね(そういうサイトを見たことがあるけど・・・)。そういう分析をしている人がいても、騙されないようにしてください。