スポンサーリンク

【4コマ漫画】データ入力の統一ルールに気を付けよう!

スポンサーリンク

大学生の日常をちょっとしたマンガにしつつ、ちょいちょい大事なことを伝えられればと思います。ちなみにマンガはコミPo!で作成しました。

スポンサーリンク

【4コマ漫画】表計算ソフトの計算結果がおかしい

スポンサーリンク

はじめに

4コマ漫画で何が起こっているかわかりますか?

1コマ目に表計算ソフトの表が示されています。ID101のデータ(150,995)からID105のデータ(133,744)を合計すると、本来なら、620,053になるはずです。

ところが、ID103のデータ(233,910)が文字列として扱われているために、計算に含まれていません。なぜでしょうか。

1コマ目をよく見ると、ID103のデータが2339,10というように、カンマの位置がズレています。そのせいで文字列とみなされてしまったわけです。カンマは通常3ケタごとにつけるので、正しくは233,910となります。カンマの位置を間違ってしまうと、数値ではなく文字列とみなされるという例をとりあげてみました(本来、カンマは手入力はしません。セルの設定で、自動的にカンマがつくようにするのが普通です)。

4コマ漫画では、表計算ソフトと言っておりますが、その代表例としては、エクセルがあります。表計算ソフトの中でもおそらく最も多く使用されるソフトだと思います。

エクセルでデータ入力をするとき、4コマ漫画のような問題が起こりうるんです。その入力のしかた次第では、データ分析どころか、単純な合計や平均値の計算でもミスすることがあります。卒業論文(以下、卒論)でも注意が必要なところです。

学生さんからも、データをエクセルにどう入れていったら良いか質問されたりしますが、思いがけないトラブルを避けるためには、適切な入力のしかたを身につける必要があります。

データ分析をすることを踏まえて「こうするのが良いよ」というのは、教員や先輩からも教えてもらえると思いますが、それらもその人たちが独自に身につけたデータ入力方式だったりします。正しいデータ入力方式があるのなら、それを身につけた方が良いでしょう。

エクセルのデータ入力にはルールがある

エクセルのデータ入力方式については、総務省からデータ入力の統一ルールが示されています。

総務省では、各府省が政府統計の総合窓口(e-Stat)に掲載する統計表における機械判読可能なデータの表記方法の統一ルールを策定いたしましたので、お知らせいたします。

https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html

統一したルールに従って、エクセル表を作成しておけば、他者が利用しやすくなりますし、コンピュータで読み込みやすくなります。それは結果として、統計ソフトでエクセルデータを読み込むときにも、正しく分析することにつながります。

上述した総務省のサイト「2 統一ルールの内容」にある別紙のPDFには、統一ルールの具体的な内容が示されています。エクセルの表をどのように修正したら良いかについて、修正前と修正後を比較できる形で示してあるので、わかりやすいです。

総務省「統計表における機械判読可能なデータ作成に関する表記方法」の目次より、エクセル表の注意点を示すと以下のようになります。

  • 1セル1データとなっているか
  • 数値データは数値属性とし、文字列を含まないこと
  • セルの結合をしていないか
  • スペースや改行等で体裁を整えていないか
  • 項目名等を省略していないか
  • 数式を使用している場合は、数値データに修正しているか
  • オブジェクトを使⽤していないか
  • データの単位を記載しているか
  • 機種依存文字を使用していないか
  • e-Stat の時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか
  • 地域コード⼜は地域名称が表記されているか
  • 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合
  • データが分断されていないか
  • 1シートに複数の表が掲載されていないか

これらの詳細は、総務省「統計表における機械判読可能なデータ作成に関する表記方法」を見れば良いのですが、学生さんとかで、手っ取り早く内容を知りたいという人には、以下のサイトの方が良いかもしれません。

全国民に配るべき!総務省が示した「データ入力の統一ルール」

https://excel-design-dr.com/date-entry-rule/


これを見て、必要性を感じてもっと勉強したいという学生さんは、 総務省「統計表における機械判読可能なデータ作成に関する表記方法」をみていくと良いでしょう。

今後、社会に出てからも、このようなデータ入力方式であることが求められるのではないかと思います。大学生のうちに適切なデータ入力方式を身につけておくと良いでしょう。

ちょっと補足ですが、データ入力以前に、エクセルのような表計算ソフトを文章作成ソフトとして扱うのもよくないですね・・・ということをこちらの記事(【2コマ漫画】Excelを文章作成ソフトとして使うってどうなのよ??)に入れております。参考までに。

まずはここから

とはいえ、これらの内容を学生さんに伝えても、「一度に覚えられない」ってなってしまいます。そこで、まずは以下の3つを気を付けておき、他の部分を少しずつ身につけていくと良いかと思います。

1セル1データとなっているか

1つのセルに、複数のデータが入っていると、データを処理する際にわざわざセル内のデータを分割する必要があります。1つのセルに1つのデータというのが鉄則となります。

それと関連して、空欄も作らない方が良いでしょう。統計ソフトによっては、空欄があるとエラーになることがあります。

欠損値などによって、何もない状態であるなら、何もない状態を示す記号(NAあるいはN/Aなど)を埋めておくと良いです。

数値データは数値属性とする

総務省「統計表における機械判読可能なデータ作成に関する表記方法」にもあるように、文字列になっていないようにするということです。4コマ漫画のように変な位置にカンマが入ってしまったり、数値に単位をつけてしまったり、数値を全角にしてしまったりなど様々な理由で数値以外の形式になっていることがあります。

厄介なのは、本来数値のものが文字列になっていても、エラーが返されないことがあるということです。4コマ漫画では、一部が文字列で読み込まれていなくても、合計は算出されてしまうわけですね。当然、その値は間違ってますけど。

統計ソフトだと、本来数値として扱ってほしいものが一部文字列になっていたために、そのデータを含む項目がすべてカテゴリーデータになってしまうことがあります。そうすると適用できる分析方法も180°変わってしまって、誤った結論を導くことになってしまいます。

また、文字列の問題だけでなく、なぜか数値が日付とみなされてしまう場合もあります。

セルの結合をしない

セルの結合をすると、一部の列や行が足りない状態ができてしまいます。このようなデータを統計ソフトに入れると、その時点でエラーになるはずですが、セルの結合をしない方が良いでしょう。

まとめ

エクセルのデータ入力について、総務省による統一ルールである総務省「統計表における機械判読可能なデータ作成に関する表記方法」があることを紹介しました。この内容も今後改善されたりすると思いますが、身につけられることから身につけておくと良いでしょう。

特に、データ分析を行うにあたっては、少なくとも、①1セル1データとなっているか、②数値データは数値属性とする、③セルの結合をしない、という点は注意しておいた方が良いと思います。あくまで私見ですが・・・。

データ分析
スポンサーリンク
airgakuのフォローをお願いいたします!
スポンサーリンク
エアガクらぼ

コメント

タイトルとURLをコピーしました