スポンサーリンク

【4コマ漫画】欠損値がある人を除外するとデータが減ってしまう・・・。何か方法はないでしょうか

スポンサーリンク

大学生の日常をちょっとしたマンガにしつつ、ちょいちょい大事なことを伝えられればと思います。ちなみにマンガはコミPo!で作成しました。

スポンサーリンク

【4コマ漫画】都合の良い数値で補完してやろ!

スポンサーリンク

欠損値(欠測値)とその種類

欠損値とは、調査対象者から得られたデータのうちの一部が無回答となっていることです。欠測値ともいいます。欠損値があると、統計処理で必要なほとんどの計算ができなくなってしまいます。平均値の計算すらもできません。

そのため、欠損値を含む対象者のデータを丸ごと削除(リストワイズといいます)して、残ったデータのみで分析をすることがあります。しかし、削除された側のデータが何らかの重要な意味を持つデータだった場合、その情報を失ってしまうことになりますので、リストワイズによって残ったデータのみで分析すると、正しい結果にならないこともあるわけです。

欠損値にはその発生メカニズムの違いによって、3つの種類があります。

  • 完全にランダムな欠損・・・Missing Completely At Random(MCAR)といいます。データが欠損するかどうかが、いずれのデータにも依存しないことを意味します。単なる記入漏れなどが当てはまるようですが、MCARは実際の調査においてはあまり起こらないケースのようです。なぜでしょうか。多くの欠損値は何らかの別の要因によって起こっていることが多いからです。その別の要因というのが、すでに観測できているデータであるか、観測できないデータであるかによって、MARとMNARに分類されます。
  • 観測データに依存した欠損・・・Missing At Random(MAR)といいます。データが欠損するかどうかが、観測できている他のデータのみに依存していることを意味します(観測した他のデータが欠損の有無について手がかりをもっているということ)。知能が低くて問題文の意味がわからず無回答というケース(この場合、「知能」というデータに依存して、欠損が起こる)が当てはまります。
  • 欠損データに依存した欠損・・・Missing Not At Random(MNAR)といいます。あるデータが欠損するかどうかは、欠損したデータに依存していることを意味します。点数が低くてやる気を失って途中でやめたためにその点数が観測されないなどがあてはまるようです(欠損の手がかりが欠損したデータそのものにある)。また、欠損したデータと観測したデータの両方に依存する欠損も、MNARにあてはまります。

ちなみに、ここで説明した内容は、宇佐美・荘島(2015)をもとにしたつもりですので、そちらもご確認いただければと思います。

欠損値への対処法

欠損値への対処方法としては、例えば以下のようなものがあります。なお、いくつかの対処法については、清水先生のサイトでシミュレーションが行われています。

  • リストワイズ・・・単純に欠損値が含まれる調査対象者のデータを丸ごと除外するというものです。欠損がMCARによるのであれば、データをリストワイズ削除しても良いようですが、単純にデータが減ってしまうため、統計で得られる推定値の精度が悪くなります。
  • ペアワイズ・・・相関などのように2変数の関係を出す場合に、欠損が含まれない変数の組み合わせのみ計算するということです。
  • 平均値や中央値による補完・・・欠損していないデータの平均値や中央値を欠損部分に入れる方法です。MCARであれば、平均値などにはあまり影響がないようですが、平均値を維持してデータ数を増やすので標準偏差は小さくなりそうです。また、MARとMNARの場合は、平均値なども偏った値になるようです。
  • 多重代入法・・・何らかの予測によって得た値で欠損箇所を補完したデータセットを20~100セット作り、それぞれで推定値を算出し、統合するという感じです。MCARだけでなく、MARの場合にも適切な方法とされています。
  • 完全情報最尤法(FIML)・・・欠損データを含んでいても、それ以外のすべての情報を活用して、推定するというものですが、詳しいやり方はわからないです。こちらもMARの場合にも適用できる方法となっています。

欠損値の種類がMCARでない限り、多重代入法と完全情報最尤法を使うのが一番ということになります。なお、MNARではどうしたら良いかですが、清水先生のサイトによると、観測データを増やすことによってMNARをMARに近づけることができ、多重代入法や完全情報最尤法を適用できるということです。結局のところ、これら2つの方法を使うのが一番ということです。

それにもかかわらず、欠損値のある人のデータをまるまる削除(リストワイズ)したり、平均値とかで補完してしまうという方は多いです。これらは、エクセルでも簡単に対処できるやり方ですからね。

実は、大学教員とかでその人の専門分野では著名な人であったとしても、欠損値に対する対処として、リストワイズ削除や平均値代入をする先生がいます。

私も欠損値への対応に詳しいわけではありませんが、統計ソフトによっては、ほんの少し手を加える程度で多重代入法や完全情報最尤法を実施してくれるものがあります。ほんの少し勉強するだけで、適切な対処法を学んだ方が良いです。

ちなみに、統計解析ソフトRで多重代入法をやるのであれば、高橋・渡辺(2017)がおすすめです。いろんな分析パターンに対して多重代入法を実施した例を示してくれているので、その手順どおりに行えば多重代入法を実施できます。

研究不正について

思うようなデータが得られず、研究不正に走ってしまう人も残念ながらいます。見る人が見ればすぐにバレてしまうようなあからさまなものもあれば、誰も気づけないほど微妙に手を加えるというものもあります。いずれにしてもやってはいけないことです。不正によって起こる影響が大きかろうと小さかろうと不正は不正です。

一方で、不正してでも論文化しないと、人生詰んでしまうと考える人もいますね。日本だと、大学院博士課程まで行った人の場合、論文を書いて研究業績をあげていかないと就職先がないですからね。それは日本社会の問題だと思いますが、「思うような結果が得られない=論文にならない」という意識にも問題があると思います。これらの点については、【4コマ漫画】統計分析しても有意差を検出できません!どうしたら良いですか?にも記載しています。早い話が「思うような結果にならなくても、論文にすることはできる」ということです。有意差がでなかった研究であっても、論文化する価値があるということです。

欠損値が出た場合には、多重代入法や完全情報最尤法による対応をすることができます。しかし、様々な事情で、データそのものをあまり集められないということもあります。そもそもの対象者が少ない人たちの集団であるとかですね。その場合は、研究方法を個別データの研究にするなど、やり方を変えることも考えられます。

いずれにしても、思うようなデータが得られなかったとしても、不正行為に走らず、適切なやり方で論文化できるよう試行錯誤することが大切です。身近に相談できる人がいない場合には、ココナラなどのスキル販売サイトを利用しても良いかと思います。

参考文献

  • 清水裕士 2014 欠損値があるデータの分析 (https://norimune.net/1811
  • 高橋将宜・渡辺美智子 2017 『欠測データ処理: Rによる単一代入法と多重代入法』 共立出版
  • 宇佐美慧・荘島宏二郎 2015 『発達心理学のための統計学:縦断データの分析 (心理学のための統計学7)』 誠信書房

データ分析
スポンサーリンク
airgakuのフォローをお願いいたします!
スポンサーリンク
エアガクらぼ

コメント

タイトルとURLをコピーしました