見落としてはいけない7つの基準を突き止めるべくETLをシンプルにしましょう。その要件は一見シンプルですが、本記事では、運用データパイプラインと分析ユースケースとでは、ETLの要件が異なる点を強調することを目的としています。
ここでは、一般的な要件を7つご紹介します:
抽出:データ抽出はETLの最初のステップですが、データの行き先や目的に応じて考慮が必要です。データエンジニアは、データの利用目的によって、抽出プロセスの見方を変えることができます。
クレンジング:データのクレンジングは、継続的なデータ品質の一部です。組織は、信頼性の高い、信用できるデータを持つ必要があります。そうでなければ、誰もそのデータを利用しませんし、利用する人も、自分が使っているものを信用しないでしょう。クリーンなデータとは、フィールドの標準化を行い、準拠していないものにフラグを立てるということでもあります。
変換:これは、データが保存されている場所に依存します。データウェアハウスでは、レイクハウスよりも変換に手間がかかる場合があります。また、ソースデータは、例えば運用と分析のニーズは常に異なるというように、保存先と目的によって異なる変換が必要になる場合があります。
格納:データの格納は、プロセスの自動化とともに、格納のエラーを特定するためのプロセスも必要です。
分析:ETLプロセスの成功を分析することは常に重要です。多くの組織がメタデータを分析しており、ビジネス領域に関する分析を提供する組織もあります。この場合、データパイプラインの使用状況と成功の度合いの把握は理にかなっています。
自動化:可能な限り多くのプロセスを自動化することで、納期が短縮され、機能横断的に時間が節約されます。
適切なタイミングでのアクセス:ETLで重要なのは、ビジネスニーズと納期に基づいて、データをタイムリーに提供することです。