データウェアハウスによって、情報へのアクセスの向上、クエリ応答時間の短縮、ビッグデータからのより深いインサイトの獲得が可能になります。以前は、企業はデータウェアハウスの構築のために、インフラへの多くの投資が必要でしたが、クラウドテクノロジーの登場により、データウェアハウスのコストは大幅に削減されました。
そして今日では、高速で高い拡張性があり、有料で利用できるクラウドベースのデータウェアハウスツールがあります。そこで本記事では、オススメのデータウェアハウスツールをいくつかピックアップし、その特徴について見ていきます:
(データ統合ツールをお探しですか?データ統合ツールのオススメをぜひチェックしてみてください。)
1.Amazon Redshift
Redshift は、企業向けのクラウドベースのデータウェアハウスツールです。このプラットフォームは、フルマネージドでペタバイトのデータを数秒で処理することができるため、高速データ分析に適しています。また、自動並行処理スケーリングにも対応しており、ワークロードの需要に合わせてクエリ処理リソースを増減させることもでき、そうすることで、運用のオーバーヘッドなしに数百の同時クエリを実行することができます。さらに、Redshiftでは、クラスタの拡張やノードタイプの切り替えが可能であることから、データウェアハウスのパフォーマンスが最適化され、運用コストの削減が実現します。
料金体系
Amazon Redshift には、さまざまな料金体系があります。オンデマンド価格は、1時間あたり0.25ドルからで1時間単位で請求されますが、総費用はクラスタのノード数に依存します。また、この階層では、Redshift の一時停止と再開の機能を使ってコストを削減できます。
Amazon Redshift のマネージドストア価格は、データ1GBあたり月額0.024ドルからですが、価格は地域によって異なります。ちなみにこの価格には、バックアップの保存費用は含まれていません。
関連記事:How to Set Up an Amazon Redshift Data Warehouse(Amazon Redshift データウェアハウスの設定方法)
2.Microsoft Azure
Azure SQL データウェアハウスは、Microsoft が提供するクラウドベースのリレーショナルデータベースであり、ペタバイトスケールのデータ格納/処理とリアルタイムレポーティングのために最適化することができます。このプラットフォームにはノードベースのシステムがあり、MPP(超並列処理)が採用されています。また、このアーキテクチャは、同時並行処理のためのクエリの最適化に適しているため、ビジネス上のインサイトがより速く抽出および視覚化されます。
データウェアハウスは、例えばプラットフォームのML(機械学習)ツールでインテリジェントなアプリを構築することができたり、何百ものMS Azureリソースと互換性があります。また、このプラットフォームでは、さまざまなタイプの構造化データおよび非構造化データの保存もでき、そのデータは、オンプレミスのSQLデータベースや IoTデバイスなど、様々なソースから来ると思われます。
料金体系
Azure SQL データベースのサーバーレスコンピュートの価格は、Vコア(仮想コア)/時間あたり0.52ドルからです。ここでの Vコアは1ハイパースレッドです。また、Azure のサーバーレスコンピュートは、Gen 5(ジェネレーション5)の 論理 CPU で実行されます。Azureのストレージコストは、1GB/時間あたり0.115ドルで、ストレージは最低5GB、最大4TBまでとなります。なお、バックアップストレージの追加料金は、1GB/月あたり0.2ドルです。
3.Google BigQuery
BigQuery は、ML(機械学習)機能が内蔵された費用対効果の高いデータウェアハウスツールです。Cloud ML や TensorFlow と統合して、強力な AI モデルを作成することができ、ペタバイトのデータに対して数秒でクエリーを実行し、リアルタイムの分析を行うこともできます。
このクラウドネイティブのデータウェアハウスは、地理空間分析に対応していることから、位置情報データの解析や、新たなビジネスラインの発見が期待できます。
BigQuery は、コンピュートとストレージを分離できるため、ビジネスニーズに基づいた処理リソースとメモリリソースの拡張ができます。分離することで、各リソースの可用性、拡張性、コストを管理することができるのです。
料金体系
BigQuery では、ストレージとクエリに別々の価格が設定されています。ストレージは、[アクティブ(有効)]と[長期]で区別され、[長期]は、90日以上変更されていないパーティションに保存されているデータのことです。Google BigQuery のアクティブストレージのコストは、1GB/月あたり0.020ドルで、同じか長期ストレージは1GB/月あたり0.010ドルです。ちなみに、どちらのタイプのデータも、最初の10GB/月が無料です。
また、Google BigQuery のクエリには、[オンデマンド]と[定額制]の2つの価格モデルがあります。オンデマンド価格は、1TBあたり5ドルで、毎月1TBが無料となります。月額定額制の場合、500スロットあたり10,000ドルで請求されますが、年間契約にすると、500スロット/月あたり8,500ドルで課金されます。なので BigQuery の定額制は、大量のデータを扱い、予測可能なデータコストを求める企業に最適です。
4.Snowflake
Snowflake を使って、大規模企業級のクラウドデータウェアハウスを設定することができ、このツールを使えば、さまざまな非構造化ソースや構造化ソースからデータを分析することができます。マルチクラスタの共有アーキテクチャにより、ストレージと処理能力が分離されるので、ユーザーの活動に応じた CPU リソースの拡張が可能です。また、このスケーラビリティにより、クエリのパフォーマンスが上がり、実用的なインサイトがより早くもたらされます。
また、Snowflake のマルチテナントのデザインにより、組織全体でリアルタイムにデータを共有することができ、それはデータを移動することなく実現されます。
料金体系
処理したデータ量に応じて請求する他の多くのデータウェアハウスツールと比べて、Snowflake の料金は秒単位の請求に基づきます。Snowflake のコンピュートコストは、最低60秒から秒単位で課金されますが、価格は地域、プラットフォーム、および選択した価格帯によって異なります。ユーザーは、[スタンダード]、[エンタープライズ]、[ビジネスクリティカル]、[VPS(バーチャルプライベート Snowflake)]から選べ、スタンダード層の平均計算コストは、1秒あたり0.00056ドル(1クレジットあたり)で、エンタープライズ層になると、1秒あたり0.0011ドル(1クレジットあたり)になります。
5.Micro Focus Vertica
Vertica は、AWS や Azure などのプラットフォーム上のクラウドで利用できるSQLデータウェアハウスであり、オンプレミスやハイブリッドでの展開も可能です。このツールはカラムナストレージに対応しており、MPPを使ってクエリ速度を上げます。また、シェアードナッシングアーキテクチャにより、共有リソースの競合を軽減します。
Vertica には、ML(機械学習)、パターンマッチング、時系列など、アナリティクスのための機能が組み込まれており、OLEDB (Object Linking and Embedding Database)などの標準的なプログラミング・インターフェースにも対応しています。さらに、このソフトウェア圧縮を利用してストレージを最適化します。
料金体系
Vertica には、1TBまでと3ノードまでの無料コミュニティ層があり、有料のクラウド層だと、時間単位で課金されます。また、Verticaでのコンピューティングのコストは、リージョンと、64ビットのAmazon マシンイメージ などのフルフィルメント(商品を受注してから発送するまでの一連の工程)オプションによります。ちなみに、価格は1時間あたり2ドルからになります。
6.テラデータ
テラデータは、膨大な量の企業データをクラウド上で収集・分析するためのデータウェアハウスプラットフォームです。このツールは、超高速の並列クエリインフラストラクチャを提供し、それによって、実用的なインサイトへのアクセスが速くなります。また、テラデータの QueryGrid は、ベストフィット・エンジニアリングをもたらし、複数の分析エンジンを導入することで、業務に最適なツールを提供します。
さらに、スマートインメモリ処理を採用し、追加コストなしでデータベースパフォーマンスの最適化もします。SQLを使って、データウェアハウスは商用およびオープンソースの分析ツールに接続されるのです。
料金体系
テラデータは、従量制のモデルで動作しますが、料金体系は公表されていません。
7.Amazon DynamoDB
DynamoDB は、企業向けのスケーラブルな NoSQLであり、クラウドベースのデータベースシステムです。ペタバイトのデータに対して、1日あたり10兆や20兆のリクエストまでクエリ能力を拡張することができ、キーバリューとドキュメントデータ管理により、柔軟なスキーマを構築しています。また、キーバリューとドキュメント データ管理を採用して柔軟なスキーマを構築しているため、要件に応じて新しいカラムを追加することで、テーブルを自動的に拡張できます。
さらに、データベースシステムには、DAX(DynamoDB Accelerator)が搭載されています。これは、集計データの読み込みに必要な時間をミリ秒からマイクロ秒に短縮できるインメモリキャッシュでであるため、1秒間に数百万回のリクエストなど、超高速なクエリ処理を強力にサポートします。
料金体系
DynamoDB には、25GBのデータストレージと250万ストリームの読み取り要求を提供する無料層があり、無料階層を超えるストレージとコンピューティングについては、ユーザーは[オンデマンド価格]と[プロビジョニング容量価格]から選ぶことができます。
Amazon DynamoDB のオンデマンド価格は、100万回の読み込みにつき0.25ドル、100万回の書き込みにつき1.25ドルで課金され、ストレージコストは、データ1GBあたり0.25ドルです。
プロビジョンドキャパシティの料金体型は、変動するトラフィックに対応するユーザーに適しています。需要の増減を自動的に調整することができるため、計算コストを削減することができるのです。このモデルでは、プロビジョニングされた読み込みと書き込みに応じて、1時間あたりの柔軟な価格設定が適用されます。Amazon DynamoDB のコンピュートコストは、需要が上がれば上がるほど、同様に増加し、データストレージのコストは、1GBあたり0.25ドルで固定されています。
8.PostgreSQL
PostgreSQL は、クラウドで利用できるオープンソースのデータベース管理ソリューションです。中小企業でも大企業でも、このリソースをプライマリデータベースとして利用することができ、例えば、インターネット規模のビジネスアプリケーションの駆動に使うことができます。また、地理空間データを扱うには、PostgreSQL と PostGIS 拡張の統合を検討しましょう。この統合により、ロケーションベースのビジネスソリューションが提供できるようになりますよ。
さらに、このプラットフォームは、SQL と JSON の両方のクエリーに対応しており、MVCC(Multi-Version Concurrency Control)などの機能により、データベースのパフォーマンスを最適化することができます。
料金体系
オープンソースソフトウェアなので、利用は無料です。
9.Amazon RDS
Amazon RDS によって、費用対効果の高いクラウドベースのリレーショナルデータベースを作成することができます。このプラットフォームは、PostgreSQL や Amazon Aurora など、6つのデータベースエンジンに対応しており、システム内でレプリケーションを生成して、運用ワークフローの可用性を高めることができます。例えば、リードレプリカでは、プライマリデータベースからの読み取りトラフィックを仮想コピーに振り向けることができ、大容量のアプリケーションへの対応が必要な場合に、このオプションを使用します。また、RDS のコンピューティングとメモリ機能を32 vCPUと244ギガバイトのRAMに拡張することもできます。
料金体系
Amazon RDS のコストは、本記事に挙がっている他のデータウェアハウスツールと比べて、少し複雑です。
料金体系は、以下によって決まります:
- 好みのデータベースエンジン
- 地域
- 単一または複数のデプロイメント
- オンデマンドまたはリザーブドインスタンスの1時間単位の課金
例として、Amazon RDS for PostgreSQL のコンピュートコストは、オンデマンド価格帯では1インスタンスで1時間あたり4.27ドルです。同様に、リザーブドインスタンス層では、1年契約の場合、1時間あたり2.73ドルです。また、ストレージコストはデータベースエンジン全体で統一されており、1GB/インスタンスあたり0.115ドルです。
10.Amazon S3
Amazon S3 は、中小企業から大企業まで、クラウドストレージのニーズに大規模に対応することができ、拡張性のあるオブジェクト指向のサービスであり、ビッグデータ分析にも対応しています。Amazon S3は、データを「バケット」に格納し、各バケットには最大5テラバイトまで格納することができます。また、このプラットフォームでは、費用対効果の高いストレージクラスのオプションがいくつか用意されており、例えば、たまにしかアクセスしないデータの保存に S3 Standard-IA (S3 Standard-Infrequent Access)を使えば、コストを削減することができます。
料金体系
Amazon S3 のストレージコストは、ストレージクラスによって異なり、ユーザーは、スタンダードから始まる7つのストレージクラスから選ぶことができます。ストレージは1GB/月あたりで課金され、例えば、スタンダードクラスでは、最初の50TBは1GB/月あたり0.023ドルとなり、データ量が増えるにつれて、そのコストは少しずつ割安になっていきます。
また、Amazon S3 のコンピュートコストは、リクエストの種類、リクエスト量、ストレージクラスに応じて変化します。
11.SAP HANA
SAP HANA は、インメモリキャッシング機能を備えたクラウドベースのリソースであるため、高速でリアルタイムのトランザクション処理と、企業規模のデータ分析に対応します。また、データアクセス、統合、仮想化のためのシンプルで集中的なインターフェースを提供します。
データフェデレーション(複数のインターネット サービス間のユーザ認証連携)があれば、データを移動することなく、リモートデータベースにクエリを実行でき、そのデータソースには、Hadoop や SAP ASE(Adaptive Server Enterprise)などがあります。また、SAP HANAは、テキスト分析や予測分析、インテリジェンス駆動型アプリの開発に対応しています。
料金体系
SAP は HANA の料金に関する情報を開示していません。
12.MarkLogic
MarkLogic は、強力なクエリと多彩なアプリケーションサービスを備えたNoSQL データベースシステムを提供します。あらかじめ確定されたスキーマのためのネイティブストレージを備えていることから、どんな形式やタイプのデータでも、スキーマにとらわれないプラットフォームでそのまま取り込むことができます。また、地理空間データ、JSON、RDF、動画などの大容量バイナリーに対応しており、内蔵の検索エンジンは、データを読み込んだ後のクエリーを簡素化します。さらに、データを読み込んだら、すぐに質問して答えを得ることができます。
料金体系
MarkLogic は消費量に応じて課金され、以下の3段階の価格帯があります:
-
低優先度の固定層: この層でのコンピュートコストは、1時間/MCUあたり$0.074で、ストレージは、$0.1/GB/月で課金される。
-
スタンダードオンデマンド: ユーザーが需要を上下にスケールアップすることができる。この階層でのコストは、1時間/MCUあたり0.125ドルで、ストレージは、1GB/月あたり0.10ドルで課金される。
- スタンダードリザーブド: 一定量のトラフィックが予想されるユーザーは、計算能力を毎年リザーブできる。この価格帯では、計算は1時間あたり0.071ドル/MCUで課金され、ストレージ費用は、他の2つの階層と同じ。
13.MariaDB
MariaDB は、顧客向けアプリケーションに対応する、大規模企業級のデータベースツールです。また、リアルタイム分析を行うためのカラムナーデータベースの作成にも使えます。このソリューションでは、MPP(大規模並列処理)も採用しているので、数千億行に及ぶSQLクエリーを実行することができ、それを行う前のインデックスの作成は必要ありません。また、MariaDB は、ワークロードやビジネスニーズに基づいて、あるいはクラウド上でスケールアウトすることができます。
料金体系
MariaDB Cloud の価格は、Foundation層で1時間あたり0.45ドルからとなっていますが、同社は料金の仕組みを詳しくは公表していません。
14.Db2 Warehouse
IBM Db2 Warehouseは、フルマネージドでスケーラブルなクラウドデータストレージプラットフォームであり、アナリティクスや AI(人工知能)のアプリケーションに適しています。このシステムには、ML(機械学習)ツールが内蔵されており、エコシステム内で ML モデルをトレーニングしてデプロイするのに、それを利用することができます。また、ML 開発のために対応する言語として、SQL と Python などがあります。
さらに、Db2 Warehouse には直感的な UI や REST API が備わっており、処理能力やストレージの拡張性を管理するのにそういったツールを使用できます。複数のサーバーを使うことで、プラットフォームの MPP 機能が強化され、それによって、大規模なデータセットに対する超高速な並行クエリを実現するのです。
料金体系
Db2 Warehouse は、価格帯を9つ提供しています。Flex One は最も基本的な階層で、シングルパーティションのインスタンスを提供しており、データウェアハウスのプロジェクトを開始する企業に最適です。ちなみにこの階層での計算コストは、1インスタンス/時間あたり0.68ドルです。
15. Exadata
Oracle の「自律型データウェアハウス」は、「Exadata」のクラウド基盤上で稼働します。この自動運転プラットフォームは、適応型 ML を活用して管理タスクを自動化し、その範囲は、チューニングやパッチ適用から、データベースの監視、アップグレード、セキュリティまで多岐にわたります。
Exadata データウェアハウスの作成は簡単です。テーブルを指定し、数回のクリックでデータを読み込むことから始めましょう。このシステムは、パフォーマンスとスケーラビリティを上げるのに、並列処理とカラム処理を採用しています。
料金体系
Oracle には、自律型データウェアハウスの料金体系が2種類用意されています。従量課金モデルは、OCPU(Oracleがサービスの構築に使用する処理ユニット)/時間あたり2.52ドルで請求されます。同じくストレージ費用は、1TB/月あたり222ドルです。
月次フレックスモデルは、ユーザーが事前に計算能力をリザーブでき、OCPU/時間あたり1.68ドルの価格で課金されます。ちなみにこの層のストレージは、1TB/月あたり148ドルです。
16.BI360 Data Warehouse
Solver BI360 で、企業はCRM、ERP、会計ソフト、非構造化データストアなど、異種ソースからの膨大な量のデータの統合が可能になります。それはデータベースの導入と BI(ビジネスインテリジェンス)のワークフローをシンプルにするために、あらかじめ設定されており、クラウドベースのソリューションには、例えばデータエクスプローラーを使ったデータ探索というような、直感的なダッシュボードと分析のインターフェースがあります。また、モジュールやディメンションを追加することも可能です。
データウェアハウスは、MS SQL Server 上で動作し、自動データローディングツールが内蔵されています。それによって、データベースの問い合わせや検索を軽快に行うことができるのです。
料金体系
BI360 は、データウェアハウスの価格を公表していませんが、いくつかの試算によると、BI360 data warehouse の価格は、1ユーザー/月あたり312ドルとなっています。
17.Cloudera
Cloudera の運用データベースは、低レイテンシー、高同時性のクラウドホスト型プラットフォームであり、ビッグデータの分析や、リアルタイムの BI の抽出に適しています。このリソースは、ポータブルで柔軟な配布に対応しており、費用対効果を高めます。それによって、オンプレミスとクラウドベースのサーバーの間を移動するのに必要な弾力性がもたらされます。
このプラットフォームは、HBase を利用して、非構造化データ用のカラムナ型NoSQLストレージを作成しますが、Kudu によって Cloudera 内で構造化データ用のリレーショナルデータベースを作成することができます。また、このツールは、リアルタイムおよび過去のデータに基づく予測モデリングに対応しています。
料金体系
Cloudera データウェアハウスは時間課金制で、1時間/インスタンスあたり0.72ドルからになります。
まとめ
クラウドベースのデータウェアハウスは、CRM などのサードパーティとの統合と相まって、企業データの潜在能力を引き出すことができますが、Integrate.io だと、100 以上の一般的な SaaS アプリケーションやデータストアのデータ統合ができます。デモを予約して無料トライアルを開始し、データウェアハウスに向けたデータの変換とクリーニングを始めましょう。
関連記事: How to Choose the Right Data Warehouse Tool for Your Business (ビジネスに最適なデータウェアハウスツールの選び方)