データは、現代のあらゆる組織の成長の原動力となっていますが、ではその原動力が劣化したらどうなるのでしょう。成長が止まってしまうのです。データ駆動型の企業は、重要なビジネス上の意思決定を行うために、集めた情報に大きく依存していますが、この情報に誤りがあると、組織は大きな損失を被らなければいけなくなるかもしれません。2021年、ガートナーの報告では、質の低いデータにより、組織が平均1290万ドルもの損失を被ったとのことです。不良データとは、不正確なデータ、不整合、重複、無関係を指し、データ品質が低いということは、あらゆるデータ分析、機械学習モデル、成長予測の誤解を招き、意思決定に影響を与えるということなのです。

また、ガートナー社は、2022年までに70%の組織がデータ品質レベルをメトリクスによって厳格に追跡し、それによってデータ品質が60%改善され、運用リスクとコストを大幅に削減できると予測しています。データ品質の向上は簡単ではなく、企業の不良データ排除のために早急に対策を講じなければなりませんが、何らかの措置を講じる前に、劣悪なデータが生成される原因の特定が不可欠です。というわけで、その要因について詳しく見ていきましょう。

データ品質に影響を与える要因

正しいデータ管理が行われないと、データの質は下がります。このような問題は、10年以上前に設立された企業で顕著に見られますが、それは当時はデータが重要でなかったためです。データ品質の問題は、以下のような要因でシステムデータベースに潜り込みます。

  • データベースの非統合:大規模な組織では、複数のチームがそれぞれ独立した存在として運営されて、それぞれがデータ収集のパイプラインを持っていますが、このような運営構造は、組織内にデータのサイロを作り出し、ビジネスプロセスの妨げとなります。構造化されていないデータパイプラインでは、チームは互いの操作を知らないため、効率性が損なわれてしまうのです。また、別々のチームが統合メカニズムなしに同じデータを集める可能性があるため、データベース内に重複が発生してしまい、重複したデータは容量を増やし、データ分析に支障をきたします。
    データ入力フィールドの未標準化:データベースに蓄積されるゴミの多くは、ユーザーによる不正な入力が原因です。多くのレガシーアプリケーションでは、データ入力フィールドの検証が適切に行われていないため、ユーザーが間違った入力を行ってしまうことがあり、その結果、以下のような不整合が発生します:
  • A数値欄にアルファベット
  • テキスト欄に数字
  • 特殊記号が不要な欄に特殊記号

このような入力はすべて質の低いデータであり、きれいなデータを得るためにさらなる労力が課せられるデータチームにとっては、時間がかかるものです。

  • データの腐敗:データガバナンスの責任は、データの収集と保存にとどまりません。データベースは、新しい情報のための継続的な更新や、不良データを排除するためのフィールドの変更が必要であり、特に顧客データについては、電話番号や住所など顧客の属性が変化する可能性があるため、このような更新が必要です。また、医療関係もデータの関連性が重要な領域です。医療機関では、常に最新の患者情報の提供が必要ですが、これが医療処置に支障をきたす可能性があります。
  • 質の高いスタッフの不足:頑丈な建物を建てるには、熟練した労働者が必要です。多くの組織では、データ管理やETLパイプラインの優れた実践に詳しい専門のデータサイエンティストやエンジニアが不足しています。このようなスキルのギャップが異常事態を引き起こし、結果的に不良データを生み出すことになります。
  • 予算:データサイエンスは高価な分野であり、多くの企業ではシニア社員を雇用する余裕がないため、スキル不足は予算の制約からも生じます。また、データ・インフラにも社員の専門知識が必要であり、サーバーやETLツールは高価なものが多いため、予算の制約がデータ・インフラの貧弱さに反映されてしまいます。

不健全なデータは事実上無意味であり、誤解を招く分析結果をもたらします。破損したデータに依存する組織は、良いことよりもそうでないことの方が多いでしょう。でも、不良データは具体的にどのようにビジネスに影響を与えるのでしょうか。以下で詳しく見ていきましょう。

*ビル・インマン氏による独占コンテンツ:Avoiding Data Integration*

不良データのコスト

これまでデータ品質の重要性について述べてきましたが、きれいでないデータを扱うことの弊害について触れなければ、この記事は終われません。質の悪いデータは、様々な形で組織に影響を及ぼし、その中には目に見えるものもありますが、より間接的で、長期的に影響が感じられるものもあります。その損害の一部は以下の通りです:

  • データ専門家への余分な労力:データ専門家は、異常なデータを手作業で見つけ出し、各データセットのフィールドごとにクリーニングしなければならないため、きれいでないデータを扱うのは複雑な作業となります。また、この作業は時間がかかるだけでなく、人的エラーも発生しやすくなります。
  • AIへの影響:不確かなデータが機械学習アルゴリズムに渡されると、信頼性の低い結果を生みだすことになり、このようなモデルは、医療や金融などの領域で使用される場合は致命的になる可能性があります。
  • 評判の悪化:顧客がカスタマーケア担当者に電話で指示を仰いだとき、データが不正確または不完全であったためにサポートができなかった場合を想像してみてください。これは、顧客の信頼を下げ、最終的には顧客離れにつながってしまいます。
  • 収益の損失:データ分析は、重要なビジネス上の意思決定を行うために不可欠です。なので正しくないデータは、どのような決定も最終的には組織を間違った方向に導くことになり、その結果、金銭的な損失や顧客離れが発生する可能性があります。
  • コスト増:2016年、IBMは、データの不備が米国企業に年間3兆1,000億ドルのコストをもたらしていると推定しています。

Integrate.io は、データウェアハウス統合ソリューションです。データのクレンジング、強化、データ分析に適した形式への変換によって、データをより豊かなものにします。他のツールとは違い、Integrate.io はデータ統合に関連する専門用語をすべて排除しているため、コーディングやデータエンジニアリングのスキルを持たない企業にとって価値あるツールとなっています。ぜひ今すぐデモを予約して、ETLでデータを豊かにする方法を学びましょう。

データをより健全化するためのベストプラクティス

現代の組織で、適切なインフラを持ち、クリーンなデータで業務を行っているところはごくわずかです。アイアンマウンテンの2015年の調査では、北米と欧州の合計1800人のシニアビジネスリーダーを対象に調査を行ったところ、75%の参加者がデータをうまく活用していると感じていたものの、成功のための適切なプラクティスを実践していたのはわずか4%でした。現在のインフラがどうであるかは重要ではなく、不良プラクティスを特定して排除することが重要なのです。

組織には、将来のデータセットが異常に悩まされることなく、正しい分析とインサイトを確実に提供できるような取り組みが必要です。企業は、データをより健全な状態にするために、対策をいくつか講じるといいでしょう。これからそれを詳しく見ていきましょう。

リスクの特定

お粗末なデータベースの修正には時間とコストがかかり、その作業を始めるには強い動機付けが必要ですが、そこで一番いい方法は、不良データが日常業務に及ぼす害悪の特定です。質の悪いデータは、意思決定者のミスを招き、顧客体験似ダメージを与えます。顧客満足がなければ、どんなビジネスも長くは続かず、いずれは損失を被ることになるでしょう。

サイロの解消

チーム内のサイロ化により互いの業務が理解できなくなり、その結果、コミュニケーションのギャップが生じ、タスクの質に影響を与え、集めたデータの状態にも結果として影響を与えることになります。そうなると、組織はチーム間の統合の改善のための取り組みが必要です。そこでサイロを取り除くための一般的なアプローチとして、企業内にRevOpsインフラストラクチャを導入することが挙げられます。RevOpsインフラのもとでは、複数のチームが同じメトリクスやツールを使って業務を行うため、チーム間の協力体制が強化されます。データベースの統合は、データレイクの構築など、ビッグデータの運用にも便利です。

データのモニタリング

インバウンドの情報を継続的にモニタリングすることで、組織全体の高品質なデータを確保することができます。データのモニタリングのプロトコルには、データの出所や各段階での変換、修正の理由など、データの流れ全体の完全な追跡が含まれています。

高品質のデータを確保するためには、以下のパラメータの遵守が必要です。

  • ボリューム:データのサイズは期待値程度であるべきであり、データセットが極端に大きかったり小さかったりするのは、ETLパイプラインの再検討や、手順が正しいかどうかの確認が必要であるということになります。
  • データの古さ:特定のデータセットが作成されてからの期間を記録しておくことは重要です。古いデータセットは、情報が古くなっていないかのチェックや、適切な更新作業が必要です。
  • スキーマ:すべてのタッチポイントからのデータは、きちんと定めらたスキーマに従っている必要があります。スキーマで、空間の複雑さの最適化や、特定のフィールドに奇妙な文字があるなどのエラーの排除、データベースのデザインが強固で持続可能であることが保証されます。
  • フロントエンドバリデーション:アプリケーションのUI上のすべての入力フィールドは、データベースにゴミのような値が渡されないように、入力のバリデーションが必要です。

継続的なデータテスト方針

データテスト方針は、既存のデータセットと今後収集されるすべてのデータにとって有益です。テストにより、すべてのデータベースに正しいデータ型とフォーマットがあり、すべての値が範囲内にあることが確認され、想定外のNULL値などのデータのあいまいな部分の特定もできます。

テストは人間が手作業で行うこともできますが、時間がかかり、人的エラーが発生する可能性もあります。なのでデータ品質チェックには、セルフサービスツールのような自動化されたソリューションを選ぶのがより望ましいと言えます。自動化ソリューションには、誰でもトレーニングなしで使えるユーザーに優しいインターフェースがあり、そのようなツールの多くはETLパイプラインに統合してリアルタイムのテストを行うことができます。

関連記事: ETL Data Cleansing Best Practices

Integrate.ioができること

ここ数年、「データ」という言葉が盛んに使われるようになり、組織はデータをビジネスニーズに合わせて活用する方法を模索してきました。しかし、データの品質について考えている人はほとんどおらず、大きな挫折を味わった後に、初めて不良データがもたらす影響に気づくのです。Forrester Research 社の調査によると、CRM プロセスの改善に取り組んでいる企業のうち、質の悪いデータがこのようなプロセスに与える影響を考慮した企業はわずか 38% でした。

不良データは、多くの人が思っている以上に有害です。意思決定者に間違った選択をさせ、組織に損害を与える可能性があり、長期的に見れば、顧客基盤に影響を与え、企業の評判を落とすことにもなりかねません。しかし、データはどんなに劣悪でも、常に改善することができるのです。組織には、既存の状態を修正し、将来を見据えたデータインフラを構築することができる複数のソリューションがあります。Integrate.ioで、データを最大限に活用し、集めた情報を意味のあるビジネス分析に簡単に変えませんか。Integrate.io のデモを今すぐ予約して、このソリューションがどのようにデータの使いやすさと機能性を向上させるかをぜひご確認ください。