- オープンデータは形式がバラバラなことが多い
- 「前処理」でデータを整えることが分析の出発点
- 整理作業を通じて、データの意味を理解できる
最近よく聞く「オープンデータ」。
行政や研究機関などが公開している、だれでも自由に使えるデータのことです。
でも実際にダウンロードしてみると……
「これ、どうやって使うの!?」と困ることが少なくありません。
たとえば総務省の人口統計を見ると、同じ内容でもExcel形式・CSV形式・PDF形式といくつもの形式で提供されています。
最近よく聞く「オープンデータ」。
行政や研究機関などが公開している、だれでも自由に使えるデータのことです。
でも実際にダウンロードしてみると……
「これ、どうやって使うの!?」と困ることが少なくありません。
たとえば総務省の人口統計を見ると、同じ内容でもExcel形式・CSV形式・PDF形式といくつもの形式で提供されています。

見た目はきれいだけど、機械処理には向かない
扱いやすいけど、文字コード(Shift-JISやUTF-8)が統一されていない
表が画像化されていて、数値を取り出せないことも
なぜこんなことが起こるのかというと、多くのデータが「紙で印刷する」ことを前提に作られているからです。
行や列が結合されていたり、途中に説明文が入っていたり――人には見やすいけれど、コンピュータには読みにくい構造になっています。
それでも安心。
少し手を加えるだけで、データはぐっと使いやすくなります。
ここでは、厚生労働省のインフルエンザ患者数データを例に見てみましょう。
ダウンロードしたCSVファイルを開くと、こんな特徴があります。
これらを整理する手順は次の通りです。
文字コードをUTF-8に変換
2段組みを1列に結合
余分な空行を削除
数値の「,」を取り除く
たったこれだけで、トサカ図ツールなどのグラフ作成アプリに読み込める整ったデータになります。
そして、もうひとつ大事なのは「作業手順を記録しておくこと」。
どんな処理をしたのか、なぜその処理が必要だったのかをメモに残しておけば、次に同じ形式のデータを扱うときにすぐ応用できます。
元のデータも必ずバックアップしておきましょう。
オープンデータは「そのまま使える」ことの方が少ない。
でも、整理する過程こそがデータを理解する第一歩です。
作業を進めながら、「この列は何を表しているのか」「単位は?」「欠けている値はなぜ?」と考えることで、
データの意味がぐっと深くわかるようになります。
こうした整理の習慣があると、後から見返したときも迷いません。
そして何より、「データの特徴を読み取る力」が身につきます。
このスキルは、社会に出ても必ず役に立ちます。
整えたデータを実際にグラフ化して、「見える化」の力を体験しよう。