データクレンジングのやり方|対象データとおすすめツール

保有するデータの品質が低いと、分析精度の悪化や不要なトラブルを招くことがあります。企業は重複データの削除や表記ゆれの統一など、常にデータクレンジングを行い、データの精度を高く保ち続けなければいけません。

データクレンジングのやり方は大まかに決まっているため、そのサイクルを回すことでデータの品質が保たれます。

本記事では、データクレンジングのやり方やおすすめツールまでご紹介します。基礎から手法までをしっかりと学び、自社のデータ品質を保って生産性や分析精度の向上に役立てましょう。

banner

データクレンジングとは

「データクレンジング」とは、収集したデータに見られる無駄を排除する作業です。「データクリーニング」とも呼ばれていて、文字通りデータを洗い直す作業です。

データの集め方や登録の仕方が杜撰だと、「表記揺れ」「重複」「粒度の相違」などの利用しづらいデータになります。そのまま分析などに利用すると、分析から得た結果も間違ったものが導き出される可能性があるので、データクレンジングでデータを整える必要があります。

なお、データクレンジングはしばしば「名寄せ」と同じ意味で扱われることがありますが、厳密には意味が異なります。名寄せとは、分散しているデータベースの同一人物や同一企業に対して同一のIDを付与し、データを統合する作業のことです。名寄せはクレンジングの一環であり、データクレンジングとは意味合いが異なります。

データクレンジングが必要な場合

データクレンジングが必要な状況は主に以下のようなケースが挙げられます。

  • 顧客へのメールが重複している
  • データの確認作業により生産性が低下している
  • 分析結果にノイズが混入している

顧客へのメールが重複している

顧客データが整理されていない場合、重複してメールを送信してしまうことがあります。場合によっては、得意先を新規顧客と間違えたり、昔の担当者の名前を入れてしまったりという問題が発生します。

こうした問題は多くの場合、同じ関係先の複数登録などのデータ重複によって起こります。トラブルを防ぐために重複したデータの統合が必要です。

データの確認作業により生産性が低下している

作業するときに重複したデータや複数のデータがあった場合、従業員はまず、どのデータが正しいものかを考えます。これだけでも時間のロスとなりますが、自分だけで判断できない場合は、正しいデータがどれかわかる人を探し、確認をとらなければいけません。そうなると、さらに余計な手間が発生します。

また、これが一度で済めばよいものの、何度も確認しなければいけないとなると、逐一作業の手が止まってしまい、生産性の低下につながります。

分析結果にノイズが混入している

収集したデータを企業分析に使用する場合、データの品質が悪いと、分析結果に不要な情報が混入したり、間違った結果が出力される可能性があります。

仮にノイズを含んだデータを分析や戦略立案に活用すると、正しい分析結果が得られず、その結果を基に立案する戦略も成功率の低いものとなってしまいます。そのため、分析の精度を高めるためには、データ品質の向上も考えなくてはいけません。

データクレンジングが必要なデータ

データ品質を高めるためにデータクレンジングすべきデータとしては、主に以下のようなものが挙げられます。

  • 重複しているデータ
  • 欠損しているデータ
  • 誤って記載されているデータ
  • 表記ゆれ
  • 古い情報

重複しているデータ

重複しているデータがある場合は、1つに統一しなければいけません。そのままにしておくと整理が大変になるだけでなく、トラブルの原因にもなります。

重複データが発生するのには、さまざまな理由があります。たとえば顧客データの場合、住所や電話番号などの変更が考えられます。個人情報が変更となった際、既存の登録情報を修正するのではなく、再度新しく登録してしまうと、古い情報と新しい情報の重複データが生まれてしまうのです。

欠損しているデータ

「欠損データ」とは、何らかの理由により値が入っていないものや、読み取れない値になっているものなどを指します。「欠測データ」とも呼ばれていて、これがあると統計的な処理ができなくなったり、正しい結果が得られなくなったりなど、悪影響が生じかねません。

欠損データの主な発生要因として挙げられるのは、データ収集時の空欄です。たとえば、アンケートで「あなたの収入はいくらですか?」という質問に対し、「答えたくない」と回答された場合、空白の欠損データとして登録されます。また、入力ミスによって読み取れない値が登録されることもあります。

欠損データの発生を防ぐことは難しく、対策としてはデータクレンジングするか、結果にバイアスが生じないような値をあらかじめ入力するという方法があります。

誤って記載されているデータ

これは、本来のデータとは違ったものが入力されている「誤記載データ」を指します。誤記載は主に、入力ミスによって起こります。欠損データも入力ミスによって発生しますが、こちらの場合は「記載に誤りはあるものの、データとしては利用できる」という点に注意が必要です。

たとえば、正しい商品名は「りんご」であるのに「洋梨」と表記されていたり、全く別人物の名前が表記されていたりといったケースが当てはまります。表記としては誤りですが、データとしては利用できるのが厄介なところで、トラブルが発生してから誤記載に気付くケースも少なくありません。

表記ゆれ

「表記ゆれ」とは、漢字・平仮名・英語・送り仮名など、同じ表記でもそれぞれに違いがあるデータのことを指します。たとえば、顧客をフルネームで登録する際、同一人物なのに「田中浩二さま」「田中こうじさま」などと異なる表記にしたり、年月日を西暦/和暦や「1月」「一月」といった具合に違う形で表記することによって発生します。

これは登録者の差異によって起こるもので、統一することが難しいです。表記ゆれを防ぐツールもありますが、基本的にはデータクレンジングが必要です。

古い情報

登録してあるデータに新しい情報があるのに、更新されていないデータを指します。顧客担当者の部門や名前、企業所在地、合併情報など、情報が反映されていない場合はデータクレンジングの対象です。

データクレンジングのやり方

データクレンジングの大まかな流れとしては、以下の通りです。

  1. データの品質を評価する
  2. クレンジングの実行
  3. 名寄せ
  4. データの品質を維持する環境を作る

これらの工程を1サイクルとして定期的に行うことで、データの品質を高く保てるようになります。

データの品質を評価する

クレンジングするデータを見極めるステップです。前述した「データクレンジングが必要なデータ」を判断基準に、データの品質を精査・評価していきます。その際、各項目を以下のような要素としてまとめます。

  • 重複データ:重複度
  • 欠損データ:完全性
  • 誤記載:精度
  • 表記ゆれ:適合性
  • 古い情報:信頼性

重複データが多い場合は「重複度が高い」、欠損データが多い場合は「完全性が低い、不完全」といった具合に評価できます。

クレンジングの実行

続いて、評価で問題があった箇所をクレンジングします。このときポイントとなるのが、クレンジングのルールを明確にしておくことです。データをどのように修正するかを適切に決めて、そのルールに沿って処理を行います。

設定するルールとして挙げられるのは、「表記ゆれの統一方法」「欠損データの処理方法」などです。ルールは評価の状態によっても変わるので、自社の状況に合ったものを設定しなくてはいけません。

また、クレンジングは手作業で行う場合もありますが、データの量が膨大な場合は、クレンジングツールの利用が推奨されます。

名寄せ

「名寄せ」では、重複・分散したデータを修正します。データ統一や削除、データ整理を行います。まずは重複・分散したデータを抽出するために、同じ要素を持つ情報をキーとして設定します。そして、設定したキーをもとに、同一データとなるものを判断して、名寄せを実施します。

名寄せは単純作業ですが、その一方で表記ゆれが発生しやすく、キーの設定が難しい項目でもあります。手作業では完璧に行うのが難しいため、ツールを使用するのが有効です。

データの品質を維持する環境を作る

データクレンジング後は、データクレンジングが必要になったデータがなぜ出てきたのか原因を特定し、今後は発生しないように運用を改善しなくてはいけません。「重複データを受け付けないようにする」「表記ゆれが発生しないようルールを設ける」など、見つかった問題点に合わせて対策を考えます。

また、データ品質の低下は、データ収集を行う以上は避けられない問題です。そのため、定期的にデータクレンジングを行い、データ品質を高く保つことが大切です。1回目のデータクレンジングのノウハウと作成したルールを活かして、定期的にクレンジングを行いましょう。

データクレンジングができるおすすめツール

現在では、データクレンジングに適したさまざまなツールが提供されています。今回は中でもおすすめできるツールを7つ紹介していきます。

Tableau

「Tableau」は、Tableau Japan社が提供するBIツールです。「BI」とは「Business Intelligence」の略で、収集したデータを分析して、経営の意思決定に活かす戦略をいいます。Tableauは、BIのためのデータ分析とビジュアライズを簡単に行えるツールとして、さまざまな企業に利用されています。

Tableauには、BIのためのさまざまな機能が備わっていますが、その中にデータクレンジングを行う「Tableau Prep」というツールがあります。これにより、データクレンジング作業の視覚的な実行が可能です。

Tableauは、ドラッグ&ドロップで簡単にデータを整形できるほか、データ処理フローを確認しつつ細かい修正も行えます。BIツールの一環として使用できることから、BIを行っている企業に適したツールといえます。

FORCAS

「FORCAS」は、ユーザベース社が提供するABMツールです。「ABM」とは「Account Based Marketing」の略で、顧客となるアカウント(企業)を詳細に定義し、それらに個別的なアプローチをとるB2B向けのマーケティング戦略のことです。企業データベースを分析することで、受注の見込みがある企業を可視化できるため、より効果的なアプローチが可能となります。

FORCASでは、データクレンジング機能として「自動名寄せ機能」を搭載しています。データリストをアップロードすると、自動で名寄せが実行されるため、不要なデータが簡単に整理できます。B2Bでの営業戦略を行っていて、データクレンジングを考えている企業におすすめのツールです。

uSonar

「uSonar」は、ランドスケイプ社が提供するCDPツールです。「CDP」とは「Customer Data Platform」の略で、属性データや行動データといった顧客情報を包括的に収集・管理・分析する、マーケティング戦略に欠かせない基盤をいいます。

uSonarは、ランドスケイプ社が有する大規模な法人データベース「LBC」と、自社が保有する顧客データを統合することで、最新の企業データに基づく顧客データの一元化を実現します。これにより、自社の顧客データの不備を補完しつつ、LBCに登録された有望な未接触企業も可視化されるため、新規ターゲットとして検討したり、アプローチすべき企業を絞り込んだりできるようになります。

またランドスケイプ社では、LBCを活用したデータクレンジングサービス「超名寄せ」も提供しています。超名寄せでは通常のデータ統合に加え、目視検査や電話番号の使用状況、地図情報など複数の判別による居住確認を行うため、より高精度な名寄せが可能です。

Marketo Engage

「Marketo Engage」は、Adobe社が提供するMAツールです。「MA」とは「Marketing Automation」の略で、マーケティング活動における提携作業などを自動化し、生産性や業務効率の向上を図る仕組みのことです。

Marketo Engageは高度なAIを搭載し、マーケティングの自動化やデータ分析、さらにはデータ連携など豊富な機能を備えているのが特徴です。企業システムと連携できるオープンプラットフォームにより、様々な事業者が利用できるサービスとなっています。

Marketo Engageのデータクレンジング機能では、自動で名寄せが行われます。新しく顧客を登録すると、既存のデータから同じものがないかを探して、同一データがあった場合は自動的に名寄せを実施します。また、SalesforceやFORCASなどの他社ツールとも連携もできるため、複数のシステムを活用すれば、より高精度なデータクレンジングが可能です。

krewData

グレープシティ株式会社が提供するETLツールです。webデータベース型の業務アプリ構築クラウドサービスであるkintone上のプラグインサービスとして展開しています。

krewDataはkintone上におけるアプリ間のデータを専⾨知識や他ツール、連携ソリューション不要で集計できる点が最大の特徴です。

「⼊⼒アプリ選択・編集コマンド定義・出⼒アプリ選択」の3ステップでkintone上のあらゆるアプリのデータ集計でき、編集コマンドにはフィールドの結合やタイプ設定、定数の追加などのコマンドが用意されています。これらのコマンドを組み合わせて予算アプリと実績アプリを結合した予実アプリや各種申請・精算アプリを集計した経費集計を作成可能です。

IBM InfoSphere DataStage

日本アイ・ビー・エム株式会社が提供するETLツールです。アメリカ民間企業が運営するレビューサイトG2 Crowdでは10多重ジョブの実行が可能なツールとして、大量データの迅速かつ効率的な処理能力が評価されました。

IBM InfoSphere DataStageは、データ統合に関する処理をGUIツールで開発しています。ステージと呼ばれる処理アイコンを配置することでジョブ設計が可能です。

100種類以上のコンポーネントと400以上の組み込み関数が用意されており、条件分岐や繰り返し指定なども用意に設定できるため、無駄なコストを削減できます。

HULFT

国内シェアNo1の導入実績を誇るETLツール(ファイル連携・転送ツール)です。企業内外に点在するさまざまなデータをファイル単位で高速転送します。異なるファイルシステム機種同士でのやり取りも安全・簡単に行え、企業間のシステム連携や海外拠点のデータ転送も確実に処理します。

1つのファイルを同時に複数拠点に転送する同報配信はもちろん、ネットワーク資源を占有しない圧縮転送、転送データの1ブロックごとの転送間隔を配信管理情報に指定できる間欠転送などの多様な転送機能によって、安全・確実に、かつネットワークの負荷を軽減した連携が可能です。

また、オプション製品のHULFT Scriptと組み合わせることで、ファイル転送前後に発生するバッチファイルやシェルスクリプトなどによる作り込みを、GUIでスピーディーに作成します。

まとめ

データクレンジングは、「既存データの品質評価」「クレンジングの実施」「名寄せ」の順で行います。そして、一度クレンジングしたあとはノウハウとして蓄積し、定期的に行えるようにしなくてはいけません。

また、今回ご紹介したようにBI・ABM・CDP・MAなどの各種ツールには、データクレンジングに役立つ機能が付属しているものもあります。収集したデータを分析して企業経営や業務に活かしたい場合は、こうしたツールを活用するのもおすすめです。