世界はデータで動いている 中学レベルで学ぶ統計・データリテラシー教材

データを整理してみよう:前処理の基本

オープンデータの現実 ― そのままじゃ使えない!?

最近よく聞く「オープンデータ」。
行政や研究機関などが公開している、だれでも自由に使えるデータのことです。

でも実際にダウンロードしてみると……
「これ、どうやって使うの!?」と困ることが少なくありません。

たとえば総務省の人口統計を見ると、同じ内容でもExcel形式・CSV形式・PDF形式といくつもの形式で提供されています。

Excel

見た目はきれいだけど、機械処理には向かない

CSV

扱いやすいけど、文字コード(Shift-JISやUTF-8)が統一されていない

PDF

表が画像化されていて、数値を取り出せないことも

なぜこんなことが起こるのかというと、多くのデータが「紙で印刷する」ことを前提に作られているからです。
行や列が結合されていたり、途中に説明文が入っていたり――人には見やすいけれど、コンピュータには読みにくい構造になっています。

データを「使える形」に変える ― 前処理の出番!

それでも安心。
少し手を加えるだけで、データはぐっと使いやすくなります。

ここでは、厚生労働省のインフルエンザ患者数データを例に見てみましょう。
ダウンロードしたCSVファイルを開くと、こんな特徴があります。

  • 文字コードが Shift-JIS
  • 都道府県名が2段組みで並んでいる
  • 余分な空行がある
  • 数値に「,」が含まれている(例:1,234)

これらを整理する手順は次の通りです。

文字コードをUTF-8に変換

2段組みを1列に結合

余分な空行を削除

数値の「,」を取り除く

たったこれだけで、トサカ図ツールなどのグラフ作成アプリに読み込める整ったデータになります。

データ分析の時間の約6割は、この「前処理」に使われると言われています。
(KDnuggets, 2020)

そして、もうひとつ大事なのは「作業手順を記録しておくこと」
どんな処理をしたのか、なぜその処理が必要だったのかをメモに残しておけば、次に同じ形式のデータを扱うときにすぐ応用できます。
元のデータも必ずバックアップしておきましょう。

データ整理は理解への第一歩

オープンデータは「そのまま使える」ことの方が少ない。
でも、整理する過程こそがデータを理解する第一歩です。

作業を進めながら、「この列は何を表しているのか」「単位は?」「欠けている値はなぜ?」と考えることで、
データの意味がぐっと深くわかるようになります。

   自分ルールを作ろう!   
  • ファイル名の付け方を決める
  • 処理手順をメモに残す
  • フォルダを整理しておく

こうした整理の習慣があると、後から見返したときも迷いません。
そして何より、「データの特徴を読み取る力」が身につきます。
このスキルは、社会に出ても必ず役に立ちます。

次につなげよう

グラフで見える化する

整理したデータは、次のステップでグラフにしてみましょう。

データを可視化しよう:グラフや表で見やすくする

ナイチンゲールが使った「トサカ図(極座標グラフ)」のように、数字の変化を目で見て理解できる形にするのが次の学びです。

ナイチンゲールのトサカ図を書こう

整えたデータを実際にグラフ化して、「見える化」の力を体験しよう。

  • オープンデータは形式がバラバラなことが多い
  • 「前処理」でデータを整えることが分析の出発点
  • 整理作業を通じて、データの意味を理解できる
ナイチンゲールのイラスト