データを使えるようにするための一工程~データ・クレンジング

「今やビッグデータの時代」とは言っても、どんなに大量に、また長期間データを蓄積・入力されていても、データの表記が統一されていないと集計・分析作業に支障を来します。

一定のルールにより表記を統一させ、集計・分析を支障なく行うための作業が必要です。それを「データ・クレンジング」と呼びます。

これは、データをスタッフが日常業務を通じて、情報を入力する場合だけでなく、ユーザーや顧客情報を、Webを通じてお客様自身が入力するような通販の販売実績のデータでも、手を加える必要があるかもしれません。

データ・クレンジングの例としては、例えば「アリ」という情報について、ある担当者は「有」と入力し、また別な担当者は「有り」と入力したとします。
このとき、「有」と「有り」は本質的には同じ意味でも、内部ではそれぞれ別な情報として扱われます。

既に入力されているデータで、このように表記がバラバラの場合は、「有り」か「有」かどちらかに統一しなければなりません。

また以前の記事では、なるべく細かい単位でデータを持つことを説明しました。
お客様の住所などの場合、フォームやデータベースの設計段階で、1つのフィールドで住所を登録するように作るよりも、より細かい単位で記録できるよう、例えば「都道府県名」、「市町村区名」、「町域名」、「番地」、「建物名」というように、より多くのフィールドでデータを蓄積できるようにすると良いです。

なおこのように細かい単位で記録すれば、発送などに利用するために、後から1行に併合することは簡単です。
しかし予め1行で登録されてしまった情報を分割するのは、特に住所のように区切りの文字数が統一されていないような場合、かなり大変な作業になります。

Excelでは、「データ区切り」機能で、都道府県や市町村区名で区切る方法もあるにはありますが、スキッ!スパッ!とはいかないものです。

データクレンジング・データ

そして、こういうときは、どうやって処理しようか、とかww。

「千葉県市川市」

気に入った?