データクレンジングとデータエンリッチングはデータ管理の重要な要素であり、戦略的なビジネス上の意思決定を行う能力に大きな影響を与えます。
データクレンジングとデータエンリッチングという言葉を何度も耳にしたことがあるかと思います。しかし、両者は正確にはどのような意味を持ち、どのように関連しているのでしょうか?
この記事では、この2つの概念の違いと、なぜ両方を使いこなす必要があるのかを検証します。
データクレンジングとデータエンリッチング ー その違いは?
ところで、データクレンジング(またはデータクリーニング)とデータエンリッチング(またはデータエンリッチメント)は何が違うのでしょうか?
答えは非常に直感的です。 データクレンジングが不正確なデータを取り除き、最新の状態に保つことに焦点を当てているのに対し、データエンリッチングは、さまざまなソースからデータを組み合わせるなど、さまざまな方法でデータを強化することを目的としています。
データクレンジングとは、持っているデータが正しく高品質であることを確認するプロセスです。
データエンリッチングとは、そのデータをさまざまな方法で強化し、より役立つものにするプロセスです
データクレンジングとデータエンリッチングはなぜ重要か?
今日の企業にとってデータ不足が問題になることはほとんどありません。実際、ほとんどの企業はデータに溺れている一方で、どう対処すればいいのかわからない状態にあります。
SiriusDecisionsは、2008年当時すでに、ビジネスにとってデータが重要であるにもかかわらず、「B2B組織のデータベースは、時間の経過とともに適切なラベル付けや管理、メンテナンスがなされていないコンテンツで埋め尽くされた屋根裏部屋のようなものである」と指摘しています。屋根裏部屋に保管しているものとは異なり、顧客や見込み客のデータを管理することで、最終的には収益を左右する可能性があることを指摘しています。
データが役に立つためには、データがきちんと整理整頓されている必要があります。検証され、最適化されていなければなりません。しかし、多くの場合、企業はその状態を維持するのに苦労しています。
Experianの調査によると、95%の企業がデータの質の低さに悩まされていると答えており、リソースの浪費や追加のコストをもたらしているとされています。同じ調査では、回答者の69%が、データに欠陥があるために、優れた顧客体験の提供が妨げられていると主張しています。
ビッグデータは、かつてはアナリストや開発者の領域と考えられていましたが、今日では、組織内のすべての人に関係しています。どの部門も毎日膨大な量のデータを収集しており、そのすべてを管理する必要があります。マーケティング、営業、サポート、開発のすべての部門は、戦略的な意思決定や日々の業務において、健全で信頼性の高いデータに依存しています。
データクレンジング: データが正しいことを確認する
データクレンジングとデータエンリッチングは、データ品質保証(DQA)のプロセスにおいて重要なステップです。企業がデータドリブンなインサイトを開発し、それに基づいて行動するためには、コストが高くつくミスにつながる不正確なデータを避けるために、データ品質保証の手順を踏む必要があります。
データクレンジングのプロセスは、多くの場合、最初のステップであり、非常に重要なものです。その目的は、ローデータのギャップや不一致を特定して、無効なデータポイントをすべて取り除くことができるようにすることです。
顧客データを例に考えてみましょう。
例えば、デジタルマーケティングキャンペーンで作成されたEメールリストがあるとします。この場合、データクレンジングとは、リストから普通と異なる偽物のメールアドレスをすべて削除し、重複するメールアドレスを消去することを意味します。 冗長性や不正確さをすべて特定して削除した後は、次のステップであるデータのエンリッチングに進みます。
Related Reading: Top 10 Data Cleansing Tools
データエンリッチング: データを最大限に活用する
ローデータが正確であることを確認したら、次はそのデータを活用し始めましょう。データエンリッチング、またはデータエンリッチメントとは、ローデータをより有用なものにするために、データを増強するプロセスを指します。これにはいくつかの方法があります。最も基本的で一般的な方法の1つは、異なるソースからのデータ同士を組み合わせる方法です。
メールリストの例を使い続けると、リストをきれいにした後の次のステップは、リストを充実させることです。これは、例えば、CRMシステムのデータや、サードパーティのサプライヤーから購入したデータを使って行うことができます。 役割、業界、フルネームなどのデータでメールアドレスを充実させることで、あなたのメールアドレスリストの価値を高めることができます。
新しい情報を追加するたびに、データは、表現や分析を目的とした現実をよりよく表したものになります。
データエンリッチメントにはいくつかのプロセスがあり、目的やユースケースに応じてさまざまなツールを使用します。データエンリッチメントのプロセスでは、例えば、データベース内のスペルミスや誤字脱字を修正するためにアルゴリズムを利用することができます。また、データエンリッチメントは、様々なソースからの情報を統一されたデータテーブルへシンプルに追加することもできます。他にも、データを外挿したり、ファジィロジックを使用して、与えられた生のデータセットを最大限に活用したりする方法もあります。これらはすべてデータエンリッチメントのバリエーションです。
どのくらいの頻度でデータを洗浄し強化すべきか?
データは生鮮食品とは異なり、そのまま熟成されることはありません。毎年、全電話番号の最大で18%が変更され、21%のCEOが交代し、60%の従業員が組織内で新しい役割を得るという事実を考えると、データ品質保証は継続的なプロセスでなければならないことは明白です。
データの洗浄やデータのエンリッチングは、一度行ったら終わりというものではありません。理想的には、これらのプロセスが継続的に、できればリアルタイムで行われるように自動化するのが良いでしょう。
よくある間違いと課題について
増え続ける大量のデータを管理するのは難しいことです。ここでは、データ管理を最適化するために心に留めておくべき3つのポイントをご紹介します。
データをサイロ化したままにするな!
よくある間違いは、データを様々なデータベースでサイロ化させてしまうことです。マーケティング部門にはMA(マーケティングオートメーションシステム)があり、営業部門にはCRMがあり、カスタマーサポートには別のシステムがあります。これらのシステムが統合されていないと、社内の誰も全体像を把握することができません。これらの情報を統合することで、顧客とその状況を360度見渡せるようになり、通常であれば大幅な改善につながります。調査によると、部門間のデータベースの統合を選択した企業では、コンバージョン率が最大で12.5%向上しています。
必要ないデータにしがみつくな!
頑張ってデータを収集した後に、データを削除しない傾向がよく見られます。しかし、コンプライアンスの観点から見ると、これは問題となります。陳腐化したデータ(例えば、メールリストに登録解除した人など)を削除することにより、2018年5月に施行されたGDPRなどの規制に企業が準拠した状態を維持することができます。
時間の経過とともにデータを洗浄し、強化し続ける
調査によると、B2Bのデータは年間70% の割合で劣化しています。つまり、継続的にデータをクリーンアップし更新していなければ、10回のやり取りのうち、7回は営業・マーケティングチームが失敗に終わる危険性があります。ジャストインタイムのデータクレンジングとは、企業がプロジェクトやキャンペーンごとにデータをクリーンアップしてレビューすることを指します。これは、すべてのデータを最新かつ正確に保つための効果的な方法です。
まとめ
- データクレンジングは、データが正確で高品質であることを確認するプロセスであり、データエンリッチングは、データをより有用なものにするためにさまざまな方法でデータを強化することです。
- データクレンジングが陳腐化している、間違っている、または冗長なデータを取り除くことであるのに対し、データエンリッチングは、他のソースからデータポイントを追加し全体像を生み出すことです。
- データクレンジングは、データエンリッチメントのプロセスを開始する前に、最初に行われる必要があります。
- データクレンジングの結果は、信頼性の高い生データで更新されます。データエンリッチングされた結果が、追加レイヤーの情報によって補強されたデータです。
- データクレンジングとデータエンリッチング共に、データをクリーンで可能な限り有用な状態に保つために、継続的に行う必要があります。
この記事では、データクレンジングとデータエンリッチングの違いについて説明してきました。どちらの概念も、データ管理とデータ品質保証の重要な部分であり、データパイプライン内を移動するすべてのデータのサニタイズとファクトチェックを支援してくれます。
効果的かつ継続的なデータクレンジングとデータエンリッチングは、有意義なアナリティクスとデータドリブンなビジネス上の意思決定の前提条件と言えるでしょう。
Integrate.ioデータ統合プラットフォームは、データを浄化して豊かにし、必要なターゲットフォーマットに変換することを可能にします。このプラットフォームは、データの完全性やデータの品質を犠牲にすることなく、社内で簡単に実行できる再現性のある透明なデータパイプラインを実現します。データは信頼性が高く、アクセスが容易で、ビジネスの運営に使用できるインサイトへ変換することができます。
Integrate.ioのスケーラブルなプラットフォームは、ハードウェア、ソフトウェア、または関連する人員に投資することなく、ビッグデータによって提供されるチャンスから素早く簡単に利益を得ることを可能にします。
Integrate.ioのデモを予約して、Integrate.ioがデータクレンジングとデータエンリッチングのプロセスを管理する際にどのように役立つかをご覧ください。
製品のデモに興味のある方は、オンラインデモにお申し込みください。(予約サイトは英語ですが、日本語でデモします)