データを整理してみよう：前処理の基本｜世界はデータで動いている中学レベルで学ぶ統計・データリテラシー教材

データを整理してみよう：前処理の基本

オープンデータの現実 ― そのままじゃ使えない!?

最近よく聞く「オープンデータ」。
行政や研究機関などが公開している、だれでも自由に使えるデータのことです。

でも実際にダウンロードしてみると……
「これ、どうやって使うの!?」と困ることが少なくありません。

たとえば総務省の人口統計を見ると、同じ内容でもExcel形式・CSV形式・PDF形式といくつもの形式で提供されています。

Excel

見た目はきれいだけど、機械処理には向かない

CSV

扱いやすいけど、文字コード（Shift-JISやUTF-8）が統一されていない

PDF

表が画像化されていて、数値を取り出せないことも

なぜこんなことが起こるのかというと、多くのデータが「紙で印刷する」ことを前提に作られているからです。
行や列が結合されていたり、途中に説明文が入っていたり――人には見やすいけれど、コンピュータには読みにくい構造になっています。

それでも安心。
少し手を加えるだけで、データはぐっと使いやすくなります。

ここでは、厚生労働省のインフルエンザ患者数データを例に見てみましょう。
ダウンロードしたCSVファイルを開くと、こんな特徴があります。

これらを整理する手順は次の通りです。

文字コードをUTF-8に変換

2段組みを1列に結合

余分な空行を削除

数値の「,」を取り除く

たったこれだけで、トサカ図ツールなどのグラフ作成アプリに読み込める整ったデータになります。

データ分析の現場では、前処理に多くの時間が割かれると言われており、一部の調査では全作業時間の60〜80% を占めると報告されています。
（KDnuggets などによる二次引用）

そして、もうひとつ大事なのは「作業手順を記録しておくこと」。
どんな処理をしたのか、なぜその処理が必要だったのかをメモに残しておけば、次に同じ形式のデータを扱うときにすぐ応用できます。
元のデータも必ずバックアップしておきましょう。

オープンデータは「そのまま使える」ことの方が少ない。
でも、整理する過程こそがデータを理解する第一歩です。

作業を進めながら、「この列は何を表しているのか」「単位は？」「欠けている値はなぜ？」と考えることで、
データの意味がぐっと深くわかるようになります。

自分ルールを作ろう！

こうした整理の習慣があると、後から見返したときも迷いません。
そして何より、「データの特徴を読み取る力」が身につきます。
このスキルは、社会に出ても必ず役に立ちます。

次につなげよう

整理したデータは、次のステップでグラフにしてみましょう。

ナイチンゲールが使った「トサカ図（極座標グラフ）」のように、数字の変化を目で見て理解できる形にするのが次の学びです。

整えたデータを実際にグラフ化して、「見える化」の力を体験しよう。