データレイクとデータウェアハウスの主な違いは以下の7点です:

  • データレイクはスキーマオンリード(schema-on-read)、データウェアハウスはスキーマオンライト(schema-on-write)のアクセスである。
  • データレイクはあらゆるデータタイプを格納可能であり、データウェアハウスは構造化されたデータを格納する。
  • データ レイクではストレージとコンピューティングが分離されているが、オンプレミスのデータウェアハウスではストレージとコンピューティングが密接に結合されている。
  • データレイクは一般的なアドホックのクエリに適しており、データウェアハウスはすぐに使える結果を返す。
  • データレイクでは大規模なデータセットが長期間保存されるが、 データウェアハウスのストレージは高価なので、データ保持期間はかなり短くなる。
  • データレイクは必要に応じて ELT(抽出、格納、変換)を使用し、データウェアハウスは ETL(抽出、変換、格納)を使用する。
  • データレイクは柔軟で変更がしやすいが、データウェアハウスは高度に構造化されており、変更や拡張がしにくい。

ビッグデータの分野では、あらゆるビジネスが理解すべき多くの用語が飛び交っており、そういった用語の多くは互いに混同されやすいです。例えば「データレイク」と「データウェアハウス」がそうです。そこで本記事では、両者の最も大きな違いや、データ分析やデータ管理に両者をどのように使い分けれるのが最も効果的なのかなど、データレイクとデータウェアハウスの違いについて見ていきます。

データレイクとデータウェアハウス

データウェアハウスは、企業が構造化され統合されたデータを保存するレポジトリであり、そのデータは BI(ビジネスインテリジェンス)に利用され、重要なビジネス上の意思決定をサポートします。対するデータレイクもデータレポジトリですが、構造化・非構造化の両方の形式でさまざまなソースからのデータの保存に使用されます。

データレイクとデータウェアハウスは同じだと多くの人に誤解されていますが、両者には以下のような共通点があります:

  • データ保管のためのレポジトリ
  • クラウドベースでもオンプレミスでも可能
  • 驚異的なデータ処理能力

では、データレイクとデータウェアハウスの違いを詳しく見てみましょう:

スキーマオンリード と スキーマオンライト

スキーマは定義の集合であり、特定のデータベースの DBMS(データベース管理システム)によって規制された正式な言語を作成します。また、スキーマで、大抵のユーザーが Web やデータベースで簡単に理解や検索ができる共通言語が説明、表、ID などに使用されていることが保証されます。

データレイクで、データがすぐに必要なときにスキーマを適用する作業が省かれます。つまり、ユーザーがデータを閲覧しているときにスキーマを適用することができます。専門家はこのプロセスを「スキーマオンリード」と呼んでおり、このプロセスは、複数の新しいデータソースの定期的な追加が必要なビジネスにとって非常に便利です。事前にそれぞれにスキーマを定義するのは非常に時間がかかりますが、ユーザーはデータが必要なときにスキーマを定義できます。

これは、ほとんどのデータウェアハウスとは対照的です。ユーザーは代わりに、データを見るプロセスの最後にではなく、最初に時間と労力が必要なスキーマオンライトを適用し、データをウェアハウスに格納する直前にスキーマを定義します。対するスキーマオンライトは、スキーマに準拠できない特定のデータの使用を防ぐことができ、ビジネスで大量の反復データの処理が必要な場合に最適です。

そしてこれは、データレイクとデータウェアハウスの2つ目の違いに直結します。

データレイクとデータウェアハウスについてまだ決めかねている方は、Integrate.io  がお手伝いします。7日間のデモで、ご希望のデータレイクまたはウェアハウスへのデータ移行方法について、こちらからぜひお問い合わせください。メール(hello@integrate.io)でのお問い合わせも可能です。

全データ型 と 構造化データ

「データレイク」と呼ばれるのは、さまざまなソースからさまざまな非構造化形式と構造化形式のデータを受信するためです。整理されたパッケージを持つ傾向があるウェアハウスとは異なり、データレイクは湖に似ています。湖は様々なソースから水を受けることから、様々なレベルの整理や清浄が行われますからね。

ユーザーはスキーマオンリードでデータにアクセスするため、データレイクに入った時点ではデータは構造化されていません。データには多くのテキストが含まれているかもしれませんが、価値のある情報はほとんど、あるいは全く含まれていません。なので多くのユーザーには、構造化される前のデータは理解し辛いかもしれません。対するデータウェアハウスは、構造化されたデータしか扱わず、直接的な質問に答えないデータや特定のレポートを扱わないデータはほとんど除外されます。つまり、CEO(最高経営責任者)やマーケティングチーム、BI 専門家、あるいはデータアナリストの誰もが、構造化されたデータを閲覧し、活用することができるということになります。

ストレージとコンピュートの分離と密結合

データ レイクは、分離されたストレージと通信を特徴とする傾向があり、クラウドベースのデータウェアハウスにも、この重要な機能が含まれている場合があります。ストレージとコンピューティングを切り離すことで、両者は互いに独立して拡張できるようになり、データレイクでは処理されることなく保存されているデータが相当量ある可能性があることから、これは重要です。なので、コンピューティングを増やすことは多くの場合は不必要でコストがかかります。

オンプレミスのデータウェアハウスでは、ストレージとコンピューティングが緊密に結合しており、一方がスケールアップすると、もう一方もスケールアップしないといけません。一般的に、ストレージとコンピュート両方を同時に拡張するよりも、ストレージを拡張する方がはるかに安価であるため、これだとコストが増します。ただ、これは多くの状況、特にトランザクションシステムにとって非常に重要な、より高速な機能であるということにもなります。

一般的なデータとすぐに使えるデータ

データレイクにはあらゆる種類の非構造化データが含まれるため、提供される結果は一般的で、ビジネスプロセスにすぐに適用できないことが多く、その結果、データサイエンティストやその他のデータ専門家は、価値のある情報を見つけるのにデータレイクの選別に多大な時間を費やさなければならなくなります。そしてこの一般的なデータは分析実験に使用することができることから、予測分析の支援になります。

データウェアハウスからの結果はすぐに利用でき、わかりやすいです。レポーティングダッシュボードや、整理・分類されたデータを閲覧するその他の方法を通じて、ユーザーは結果を難なく分析して、重要なビジネス上の意思決定に速やかに利用することができます。

長いデータ保持時間と短いデータ保持時間

ユーザーはデータをデータレイクに長期間保存することができ、企業はそれを何度も参照することができます。その際データはアーカイブされますが、データウェアハウスのように削除されることはありません。特定の種類のデータの保持に関する法的要件に応じて、短期間から10年間保持されることもあり、これは、様々な異なる目的や長期間にわたって同じデータの参照が必要な研究ベースや科学的な業界では特に重要かもしれません。

企業は通常、データ ウェアハウスにデータを非常に限られた期間のみ保存し、その時点でユーザーはデータをデータ レイクなどの別のレポジトリに転送するか、破棄することができます。

ELT と ETL

データレイクでは ELT(抽出、格納、転送)が使われるのに対し、データウェアハウスでは ETL(抽出、転送、格納)が使われます。ELT と ETL はどちらも重要なデータプロセスですが、プロセスの順序によっていくつかの点が変わってきます。

ETL は生データをソースからステージング、デスティネーションへと運び、データはバッチ処理される傾向があります。

一方 ELT は、ソースからデスティネーションへ、多くの場合は連続的、ほぼリアルタイム、またはリアルタイムのストリームで直接送信し、デスティネーションは、ユーザーが変換を適用する場所になります。

この変換には、特定のセキュリティ対策や暗号化が必要な場合には適用されるため、ETL はよりセキュアなデータ管理方法となる傾向があります。つまり、一般的にデータはデータレイクよりもデータウェアハウスの方が安全だということです。ただ ELT だと、最高の俊敏性をサポートするビジネスプロセスのほぼリアルタイムのビューを得られます。

データガバナンス

データレイクでは ELT が使われているため、そのデータ管理システムは、データを分析用に準拠した形式に変換する前に、Athena などのサードパーティのプラットフォームにデータを格納します。なので、GDPR や HIPAA といったデータガバナンスの原則を遵守する際に、データの妥当性について疑問が生じる可能性があります。対するデータウェアハウスだと、外部システムに格納する前にデータが変換されるため、組織のコンプライアンスが上がります。

変更と拡大が 簡単な場合 と大変な場合

データレイクは構造化されていないため、データウェアハウスよりも俊敏で柔軟性が高いことから、デベロッパーやデータサイエンティストは、データレイクの変更や再構成をより簡単に行うことができます。これは、データソースやデータ量が常に変化している場合に非常に重要かもしれません。

データウェアハウスは、高度に構造化されたデータレポジトリを提供するため、データの変更がかなりしにくくなり、大幅に構造化し直すには、多くの時間と労力が必要かもしれません。また、これは反復プロセスの実行やデータパイプラインの構築に最適であることでもあります。

多くの有名なデータソフトウェアプロバイダには、データレイク と データウェアハウス用の優れた最先端の技術があります。

データレイクかデータウェアハウスかでまだ迷っていますか?Integrate.io を使うと、データを一元管理して、BI ツールを通してより深いデータのインサイトを得ることができるように、そのデータ管理システムの両方に接続できます。お問い合わせはこちら

では、広く使われているデータレイクとデータウェアハウスについて、以下で見ていきましょう。

人気のデータレイク

Athena

Amazon の Athena は理想的なデータレイクソリューションとして Amazon S3 と連携します。Athena は、サーバーレスベースでデータレイクからクエリを実行してデータを分析する機能を提供し、ユーザーは ETL なしで、標準SQL を使ってすぐにクエリを始めることができます。

Athena は Presto をベースに構築されており、大規模なデータセットを扱う場合でもパフォーマンスが高く、そこそこ高速です。また、Athena は、ML(機械学習)アルゴリズムを使って、通常であれば膨大なタスクをシンプルにするため、データベースのビジネスにとって優れた選択肢となります。

Microsoft Azure Data Lake

Microsoft は、Azure Blob Storage 上に構築されたデータレイクソリューションを開発しました。このクラウドデータレイクは拡張性が高く、巨大なストレージ機能を備えています。また、Azure には高度なセキュリティ対策が施されており、そのひとつに「潜在的な脆弱性を洗い出す」というのが挙げられます。さらに、Azure は Visual Studio や Eclipse と深く統合することで、デベロッパーに特別な支援を提供していることから、デベロッパーは Azure で作業しながら使い慣れたツールを使うことができます。

人気のデータウェアハウス

Redshift

Amazon Redshift は包括的なデータウェアハウスソリューションであり、Lyft、Yelp、製薬大手のファイザーなど、1万社以上の顧客に利用されています。

Amazon Redshift には、ユーザーがインクリメンタルにメンテナンスできるマテリアライズドビューがあり、高度な ML(機械学習)アルゴリズムと、ほぼ無制限の数のクエリを同時に実行する能力が備わっています。また Redshift は、自動バックアップの実行や、ネイティブな空間データ処理の提供によって、他のほとんどの同様のソリューションを上回り、企業に安全なデータ ウェアハウスを提供することができます。

PostgreSQL

PostgreSQL は、多くの業界では単に「Postgres」として知られている、オープンソースのソリューションとして提供されている RDBMS(リレーショナルデータベース管理システム)です。また、低コストのデータウェアハウスソリューションとしても機能します。作成者は、デベロッパーがアプリケーションを構築して、企業がデータを保護できるように支援することに重点を置いていました。

Postgres には、デベロッパーがデータベースを再コンパイルすることなく、さまざまなコーディング言語でコードを書くことができるようになるユニークな機能があります。

データレイク と データウェアハウス:Integrate.io ができること

Integrate.io は、様々なソースから複数のデータレイクやデータウェアハウスにデータを移動できるデータ統合ソリューションです。このプラットフォームは、ETL、ELT、リバースETL、CDC(変更データキャプチャ)、API 管理など様々な手法を使ってデータを統合することから、データの新しいデスティネーションへの移動や、データの分析に適した形式への変換、API の管理、データベース内のデータの変更の追跡ができ、複雑なコードを扱う必要はなくなります。そしてその結果、ストレスなくデータ統合が改善されます。

また、Integrate.io には、最も一般的なデータレイクやデータウェアハウスに対応する、すぐに使えるコネクタが用意されており、それによってデータ統合戦略の変革が実現します。さらに、ライブチャットサポート、優れたドキュメンテーション、使用するデータ量ではなく、使用する統合の数に応じて課金されるユニークな価格モデルなどの利点があります。

Integrate.io で、企業はサッと安全にデータ統合を実行できるようになります。こちらからデモを予約して Integrate.io のプラットフォームを実際に体験し、データレイクとデータウェアハウスにデータを移動してみましょう。