毎日毎日2.5兆バイトのデータが生成されるビッグデータの時代において、企業や組織はこれまで以上に強力な分析を活用できる可能性を秘めていますが、データの収集、整理、分類は依然として大変です。簡単に言えば、情報が多すぎてコンテキストが不十分なのです。Amazon Redshift のような最も広く使われている商用のデータウェアハウス・ソリューションで、ビジネスは構造化された利用可能なデータを得られると言いますが、真偽の程はどうなのでしょうか?
AWS Redshift は、世界一高速なクラウド・データウェアハウスであり、『他のどのデータウェアハウスよりも最大3倍優れた価格性能 』であると主張していますが、それはビジネスの規模やスケールによって結果が違ったり、他のソリューションの方がはるかに効果的であることが判明する可能性があります。そこで、本記事で Amazon Redshift と Snowflake や Azure Synapse Analytics のようなその他のデータウェアハウスプラットフォームを比較してみましょう。
1.Amazon Redshift データウェアハウスの概要
Amazon Redshift の機能は、従来のデータウェアハウスとは違います。データを「行単位」で保存する Snowflake のような他のプラットフォームでは、データの配置や並べ替えの際に複数のクエリが発生する可能性がありますが、Redshift は列指向のデータベース管理システムであり、データを「列単位」で保存するため、データ分析がサッとできます。ちなみに Amazon Redshift は、Snowflake のような競合製品の倍の速さであるとしています。
AWS Redshift では、データがデータウェアハウスに行く前に、データレイクにデータを格納することができます(データレイクには「並べ替えられていない生のデータ」が格納され、データウェアハウスには「構造化されたデータ」が格納される)。ある Amazon Redshift ユーザーは、データレイクでデータを統合できるようになったことで、「新しいデータソースを数日、数週間ではなく数時間で統合できるようになりました」と言っています。また、 ソフトウェアのレビューサイトである G2.com に投稿した別のユーザーからは、このプラットフォームは 「学びやすい」、「使いやすい」、「データを処理が速い」などというコメントがあり、 G2 での5つ星評価で平均4.3のスコアを得ています。
Integrate.io のネイティブ Redshift コネクタの詳細については、Integraion のページをぜひご覧ください。
オススメ記事: Amazon Redshift Comprehensive Guide(Integrate.io による Amazon Redshift の総合ガイド)
2.AWS Redshift データウェアハウスのメリット
前述したように、AWS Redshift でユーザーは高速性を得られますが、比較的控えめなコストで高速かつ強力なデータウェアハウスがもたらされるため、ユーザーからはコストパフォーマンスの点でも高い評価を得ています。価格は1時間あたり0.25ドルからで、Snowflake の1時間あたり2.01ドルよりも安いです。
他にもメリットがあります。AWS Redshift をカスタマイズしてノードを追加することで、大規模なデータセットの処理能力が上がり、クエリの応答時間が短縮することなくデータ分析を行うことができます。また、Amazon Redshift には、以下のような機密データを保護するためのセキュリティプロトコルも用意されています:
- 転送中のデータの SSL 暗号化
- クライアントサイドとサーバーサイドのデータの暗号化。
- カラムレベルのアクセス制御
- アクセス管理
- サインイン認証
これで、GDPR(EU一般データ保護規則)、HIPAA(医療保険の相互運用性と説明責任に関する法律)、CCPA(カリフォルニア州消費者プライバシー法)、およびその他のデータガバナンスのフレームワークを遵守することができます。
3.AWS Redshift データウェアハウスのデメリット
一方で、AWS Redshift は、AWS Console を少し修正するだけで、ディスク容量やパワーを上げることができるため、拡張が簡単すぎるかもしれません。少なくとも Redshift ユーザー1名がこのことについてネットに書いていますね。そこで以下のようなデメリットが考えられます:
- 迅速なスケーラビリティは、特に大量のデータを扱うユーザーにとっては非常に貴重なものとなるかもしれないが、ほとんどの企業にとってはメリットは全くない可能性がある。
- Amazon Redshift があまりに強固だと、長期的にはもっとコストがかかるかもしれない。
- Redshift は処理速度とパワーを縮小することができるが、その場合、システムが処理しきれないほどの量の急増に見舞われる可能性がある。
さらに、G2のとあるユーザーは、AWS Redshift にはより優れたクエリ分析機能が必要だと考えており、別のユーザーは、初めて使うユーザーには GUI(グラフィカルユーザインターフェース)が複雑すぎると思っています。
4.Amazon Redshift と従来のデータウェアハウスの比較
従来のデータウェアハウスの技術は、以下のようなプログラムされた機能に対応するように設計されています:
- ロールアップ:データを要約して一般化する
- ピボット:クロス集計(回転)を行う
- スライス&ダイス:ディメンジョンに投影操作を行う
- ドリルダウン:詳細を明らかにする
- 選択:値や範囲による情報を提供する
- 並べ替え: データは順序値で並べ替えられる
以下は、データウェアハウスを行う際の主なメリットです:
- 競合および比較分析のための情報収集
- 完全性を高める質の高い情報
- 他のデータバックアップソースとのディザスタリカバリ計画
Amazing Redshift では、I/O効率と複数ノードにまたがる並列化されたクエリを改善して高速なクエリ・パフォーマンスを提供するために、カラムラー・ストレージ・テクノロジーが使われています。このサービスは、デベロッパー がConsole の Connect Client のタブから簡単にダウンロードできる カスタム ODBC (Open Database Connectivity)とJDBC(Java Database Connectivity
)ドライバにも提供されており、それによって、使い慣れた幅広い SQL クライアントにアクセスすることができます。
Amazon Redshift は印象的でですが、それは市場におけるデータウェアハウス・ソリューションのひとつに過ぎず、以下の製品(他の製品も含む)との競合があります:
- Azure Synapse Analytics(旧:Microsoft Azure SQL Data Warehouse)
- Snowflake
- SAP BW(Business Warehouse)
- Google BigQuery
個人ユーザーと専門アナリストの両方が、上記のデータウェアハウスソリューションを特徴、機能、価格、およびその他の要因について比較しており、G2上のユーザーレビューでは、AWS Redshift の代わりになるものについて以下のことが明らかにされています:
- Microsoft Azure Azure Synapse Analytics: Azure は Redshift ほど費用対効果は高くないが、サポートは充実している。(平均ユーザースコア:5つ星中4.4)。
- Snowflake:Redshift よりも柔軟で使い勝手がいい。(5つ星中4.6)
- SAP BW(Business Warehouse): Redshift より値が張る。(5つ星中3.7)
- Oracle Autonomous Data Warehouse: Redshift より値が張る。(5つ星中4.5)
- Google BigQuery: Redshift よりも直感的で管理しやすい。(5つ星中4.4)
オススメ記事:Redshift vs. BigQuery 選択ガイド
ただ、レビューやユースケースが主観的なものであるかもしれないので、データウェアハウスを選ぶ際にそれを鵜呑みにすべきではありません。例えば、G2のレビュアーによれば、Azure Synapse Analytics は Redshift よりも高価だと言っていますが、ビジネスアナリティクスコンサルタント会社である Think Big Analytics 社 の最近のレビューでは、Azure のセキュリティ機能、使いやすい API、強力なデータインサイト、統合されたエクスペリエンスが高く評価されています:
「Azure Synapse Analytics Data Warehouse のソフトウェアによって、ユーザーは自分の条件でデータをクエリできるようになり、その規模も無制限になります。」
5.適切なデータウェアハウスの選び方
どのような商用アプリケーションを選択する場合にも言えることですが、ビジネス要件を明確に理解することから始めないといけません。そして、以下を考えてみましょう:
- データ処理とデータ・ストレージの拡張を考えているか?
- データ量が急増しており、カスタマイズされたソリューションが必要になっているか?
- 予算は?
- ソリューション・プロバイダーによるアクセス可能なサポートが必要か?
- 直感的でユーザーに優しいソリューションが必要か?
データ処理要件のフレームワークを開発すれば、データ分析に適切なパワー、機能、高性能を提供するクラウド・サービスを備えたデータウェアハウス・ソリューションが見つかります。
6.Integrate.io と AWS Redshift を統合して最高のデータウェアハウスソリューションを実現する
Amazon Redshift が最適なデータウェアハウスかどうかを判断する際に、最後に考慮すべきことが1つあります: そもそも Redshift にデータを全部移行するにはどうすればいいのでしょうか?Integrate.io の Redshift データ統合ツールだと、ETL(抽出、変換、格納)プロセスを介して Redshift にデータを転送することができます。以下はその仕組みです:
- SaaS システム、レガシーシステム、アプリなどのさまざまなソースからデータを抽出する。
- データを読みやすく、使用可能な形式に変換する。
- AWS Redshift にデータを格納する。
それによって、Redshift 上の遅いデータベースクエリが排除され、より優れたデータ分析が実行されます。データを抽出および変換し、AWS Redshift に格納したら、Redshift を Looker や Tableau などの BI(ビジネスインテリジェンス)ツールに接続することで、比類のないデータアルゴリズムとリアルタイムのインサイトが実現され、よりスマートな意思決定に繋がるのです。
Integrate.io の Redshift 統合の詳細については、こちらをぜひご覧ください。
Integrate.io が Redshift のための最高の ETL データパイプラインであることをもっとご覧になりませんか。デモと14日間の無料お試しをご予約の上、ご自身でぜひプラットフォームをご体験ください。