データシステムが正確でリアルタイムのデータにアクセスできない場合、組織は質の低い BI(ビジネスインテリジェンス)に基づいて、コストのかかる誤った意思決定を行うリスクを負うことになります。実際、Gartner社 のリサーチ・ディレクターであるメイ・ヤン・セルベージ氏は、最近「(不良データの)影響を測定できない結果、データ品質の問題への対応が後手に回り、ビジネス成長の機会を逃し、リスクが増大して ROI が低下する」と述べています。
質の低いデータに関連するこのような課題を克服するための戦略は多数あり、ソリューションのほとんどは、分析システムへのデータフローの精度とリアルタイム性を改善することに重点が置かれています。そしてこのような戦略の中で最も重要なものの1つに、「物理削除」と「論理削除」を使った、CDC(変更データキャプチャ)の速度と精度の向上が挙げられます。
本記事主なポイント5つ:
- 貧弱なデータに基づく高コストな決定を避けるには、リアルタイムのデータ品質が不可欠である。
- CDC(変更データキャプチャ)は、迅速なデータ変更を追跡し、分刻みのデータ複製を実現する。
- 物理削除は冗長なデータを削除できるが、削除の追跡がしにくい可能性がある。
- 論理削除は、正確な CDC とデータ品質の向上のためにデータを保持する。
- Integrate.io は、効率的で正確な CDC 機能のために物理削除 と 論理削除を組み合わせる。
そこで本記事では、Integrate.io の ETL プラットフォームが、より良いデータ品質を実現するために、CDC(変更データキャプチャー)と高度な物理および論理削除機能をどのように利用できるかについて見ていきます。
CDC(変更データキャプチャ)および Integrate.ioとは
CDC(変更データキャプチャ)とは、データシステムが ソースデータベース内のデータの急激な変更を追跡し、キャプチャするためのデータ統合プロセスです。CDC がこの変更を検出し、キャプチャすることによって、データシステムは、データウェアハウスなどの接続されたシステムが変更を全て正確に反映することを保証することができます。
CDC の仕組みは次のとおりです:データセット全体をデスティネーションのデータベースに継続的にコピーするのは時間がかかる上に多くの処理能力が必要ですが、CDC はその代わりに、最初にデータベース全体のみをキャプチャして同期します。そして、連続同期コピーに移り、 継続的な同期コピーでは、変更されたデータのみがキャプチャされて同期されます。 データをより効率的に処理する方法として、CDC は最新のデータ複製と分析を可能にし、 BI(ビジネス インテリジェンス) の品質と精度を全て大幅に上げます。
そして、Integrate.io は、さまざまなデータシステムやビジネスアプリ間でデータを同期するための機能など、ローコード/ノーコードの使いやすい ETL プラットフォームであり、物理削除と論理削除を組み合わせることで、強力で高速かつ効率的な CDC 対応同期機能を実現します。
CDC における物理削除と論理削除の役割
「物理削除」と「論理削除」という用語は、データウェアハウスやデスティネーションシステムのようなデータシステムからデータレコードを削除するための2つの戦略を指します。ここでは、CDC のコンテクストにおける物理削除と論理削除について簡単に見ていきましょう:
物理削除
物理削除は、デスティネーションシステムから特定のデータレコードを永久に削除します。物理削除の後は、ユーザーはバックアップなしでデータの回復や復元はできません。
CDC のコンテクストでは、削除操作が有効な場合はデータベースのバイナリログ履歴に保存され、MySQL、PostgreSQL、SQL サーバーなどのデータベースはこの種のログに対応しています。バイナリログ履歴を使うと、物理削除はデスティネーションで実行され、ソースとデスティネーションのデータが正確で同期していることを確認でき、それによって、削除先での重複を防ぐことができます。ただ、物理削除は、どのレコードがデスティネーションで削除されたかを追跡することができなくなるという結果が伴います。
とはいえ、物理削除には、運用システムと分析システムの両方を軽量かつ効率的に保つという利点があります。物理削除は、冗長なデータや不要なデータを排除することで、関連性のある重要なデータの変更のみを捕捉し、処理することを保証するのです。
論理削除
論理削除では、実際には情報は削除されません。 代わりに、「削除済み」フラグを使うか、レコードに接続されている「はい/いいえ 削除ステータス」のフィールドを更新することによって、レコードを「削除済み」としてマークします。また、物理削除とは違って、論理削除された情報はシステムに残ることから、ユーザーはいつでも、論理削除されたレコードをフィルターで除外するか、呼び出したり、削除を取り消したりすることができます。
データ分析のコンテクストでは、論理削除には、物理削除よりも明らかな利点があります。 「削除された」データを保持することにより、CDC プロセスは論理削除によりって変更のタイムスタンプを全部検索して削除を簡単に検出できます。 それによって、他のデータ変更に加えて削除フラグも検出され、 その変更をキャプチャすることで、システムはターゲット システムに変更を正確に複製し、最高レベルのデータ品質を実現できます。
そうは言っても、論理削除された情報を全て[ソースデータベース]と[ターゲットデータベース]の両方に保存すると、「運用データシステム」と「分析データシステム」が停止して速度が落ちる可能性があり、追加の負荷に対処するためのスケーリングにコストがかかることから、論理削除はシステムの速度と処理効率に問題を引き起こす可能性があります。
Integrate.io がユーザーに物理削除と論理削除の組み合わせを活用して高度な CDC 機能を提供する方法
Integrate.io を使うと、ユーザーは物理削除と論理削除の使用を戦略的に組み合わせることができます。 物理削除と論理削除のさまざまな組み合わせを適用することで、ユーザーは Integrate.io のデータ フローをカスタマイズして、システム効率とデータ分析精度の理想的なバランスを実現できるのです。
Integrate.io には、物理削除と論理削除に関連する従来の課題を克服する独自の機能もあります。 RedShift または Snowflake がデスティネーションのシステムである場合、 CDC の全ての操作に対して物理削除を実行します。一方、S3 または BigQuery がデスティネーションである場合、「削除済み」フラグを追加することで CDC 操作に対して論理削除を実行します。S3 と BigQuery の論理削除機能を使うと、システムは履歴データを失うことなく「削除された」オペレーションをキャプチャでき、ユーザーは システムの効率性やデータのセキュリティを確保するために、いつでもこの論理削除された情報を呼び出すか、完全に削除するかを選択できます。
まとめ
データの品質が良く、システムが迅速かつ効率的に実行されていると感じている場合でも、常に改善の余地があります。 実際、自社のクラウド データが「非常に優れている」と回答した企業は たった16% で、41% の企業は、テクノロジー間で一貫性のないデータが最大の課題であると回答しています。このような統計に関連する場合、CDC に Integrate.io を使うと、物理削除と論理削除を最大限に活用して、データ品質、リアルタイムでのデータレプリケーション、高レベルのシステム効率の完璧なバランスを実現できます。
データ品質を強化し、分析の精度向上や組織全体の成功促進のために Integrate.io がどのようにお手伝いできるか詳しくお知りになりたい方は、こちらから Integrate.io の無料デモをぜひご予約ください。