ビジネスのニーズや目的に適したデータウェアハウスを選定することは、ビッグデータ戦略の重要な要素です。残念なことに、あまりにも多くの企業が、自社に最適なデータウェアハウスをどのように選択すれば良いかという問題に悩んでいます。

大方の予測では、データウェアハウスのプロジェクトの60~70%は失敗するとされています。。その理由は、コストや時間の見積もりが悪かったり、組織内の賛同が得られなかったり、最初から間違ったテクノロジーを選択していたりと、さまざまな理由があります。 

しかし、データウェアハウス・プロジェクトが成功すれば、強力なROIを実現し、より鋭いデータドリブンなインサイトを提供することでビジネスを変革することができます。

Snowflake、Google BigQuery、Amazon Redshiftは、成熟した堅牢なクラウドベースのデータウェアハウスの巨人であり、何千もの顧客に利用されています。すでにRedshiftとSnowflakeRedshiftとBigQueryを比較してきましたが、どちらがバトルに勝つのでしょうか。Integrate.ioは、このバトルにおいて中立の立場です。Integrate.ioは3つのデータウェアハウスすべてをサポートしているので、クライアントはどのクラウドデータウェアハウスを選択してもパワフルなデータ統合パイプラインを構築することができます。 ただ、SnowflakeとBigQueryを比較しているクライアントには、正しい選択をしてもらいたいと考えています。

この記事では、価格、パフォーマンス、機能セットなどの要素に基づいて、SnowflakeとBigQueryの完全な比較を提供します。Snowflake vs. BigQueryに関して知っておくべきことをすべて掘り下げて、お客様のビジネスに最適なデータウェアハウスソリューションを選択できるようにします。

SnowflakeとBigQuery 主要な相違点

Snowflake vs. BigQueryに関する疑問にすぐに答えが欲しいという方のために、簡単な概要をご紹介します。記事の残りの部分では、これらの問題について詳しく説明します。

SnowflakeとBigQueryの主な違いは以下の通りです。

  • 価格: Snowflakeでは、コンピューティングリソースに時間ベースの価格設定モデルを使用しており、ユーザーは実行時間に応じて課金されます。BigQueryは、演算リソースにクエリベースの価格設定モデルを採用しており、ユーザーはクエリに対して返されるデータ量に応じて課金されます。BigQueryストレージは、Snowflakeストレージよりもテラバイトあたりの価格がわずかに安くなっています。
  • パフォーマンス: 独立したサードパーティのベンチマークによると、SnowflakeのパフォーマンスはBigQueryのパフォーマンスよりも明らかに優れています。ただし、この結論は普遍的なものではなく、BigQueryがSnowflakeを上回る状況もあります。
  • 使いやすさ: SnowflakeとBigQueryはどちらもユーザビリティで高いスコアを出していますが、Snowflakeの方が若干使いやすいかもしれません。とりわけ、BigQueryはサーバーレスであるため、すぐに立ち上げて実行することができます。
    スケーラビリティ: SnowflakeとBigQueryはどちらも高度なスケーラビリティ機能を備えています。しかし、BigQueryは、すべてを内部でハンドリングしているため、ユーザーが手動でスケーリングやパフォーマンスチューニングを行う必要がなく、やや優位に立っています。
  • セキュリティ: SnowflakeとBigQueryの双方が機密データの機密性と整合性を保護する堅牢なセキュリティ機能を搭載しています。さらに、どちらのソリューションもHIPAAやPCI DSSなどの業界特有の規制に準拠しています。

Data Warehouses、ETL、 OLAP: 簡単な復習

データウェアハウスは、組織の内部および外部のさまざまなソースから情報を収集し、保存する集約型のデータリポジトリです。データウェアハウスは、BIやアナリティクスの "工場 "として機能します。生データはデータウェアハウス内にダンプされ、そこで処理されることで、緊要度の高いビジネスクエリに対して回答し、予測や予算の決定に役立ちます。

データウェアハウスは、営業、マーケティング、カスタマーサービス、人事など、組織全体からデータを取り込むことで、アナリティクス処理のワークロードの実行を大幅に容易にします。SnowflakeとBigQueryは、大規模な組織のBIおよびアナリティクスのニーズに対応できるエンタープライズクラスのデータウェアハウスです。

データウェアハウスの一般的なユースケースとしては、トレンド分析があります。例えば、どの顧客が最も価値があり、どの顧客が最も解約しやすいかについて興味がある場合、支援してくれます。データウェアハウスをSalesforceのようなCRMプラットフォームに接続し、Salesforceのデータをインジェストして、適切なクエリを実行することができます。

データウェアハウスは、データを取得するためにETL(抽出、変換、ロード)プロセスを使用します。

  • 抽出:データはまず、組織の内部または外部のソースデータベースまたはファイルから抽出されます。
  • 変換: データは、ターゲットデータウェアハウスのスキーマと制約に適合するように、洗浄、準備、変換されます。
  • ロード: データがターゲットデータウェアハウスにロードされます。

ETLは、変換する前にデータロードを行うELTと密接に関連しています。しかし、データウェアハウスでは従来、ETLを必要としてきました(ELTではなく)。これは、入力データをデータウェアハウスに取り込む前に、入力データをリレーショナル(行-列)形式で整理する必要があるためです。

SnowflakeとBigQueryはどちらもETLとELTの両方で動作するように設計されています。 Snowflakeはロード中またはロード後のデータ変換をサポートしています。そのため、ELTとも互換性があります。一方、Bigqueryの場合、多くのデータ統合の専門家は、最初にデータをBigQueryにロードしてから必要な変換を行った方が効率的であるため、BigQueryではETLではなく、ELTを使用することを推奨しています。

データウェアハウスは、OLAP(オンライン分析処理)システムです。OLAPシステムは、大量のデータをクロールして意味のある傾向を見つけ出す、ビジネスインテリジェンスとアナリティクスに焦点を当てています。つまり、OLAPシステムは、比較的少数の人々からの大量のトランザクションをサポートする必要があります。データを変更する機能ではなく、クエリとレポーティングこそがOLAPシステムの最も重要な機能です。

SnowflakeとBigQueryの間には、OLAPに関していくつかの重要な違いがあります。Snowflakeのウェブサイトによると、OLAPはSnowflakeデータベーススキーマの「基盤となる部分」です。一方、BigQueryは、従来のOLAPツールを必要としないアドホッククエリを得意としています。

データウェアハウス用語の細かい点について説明したところで、最も人気のあるクラウドデータウェアハウスソリューションであるSnowflakeとBigQueryの2つを比較してみましょう。

thumbnail image

Snowflake とは?

Snowflakeは、SaaS(サービスとしてのソフトウェア)プラットフォームとして提供されるデータウェアハウスソリューションであり、クラウド向けに専用に構築されています。Snowflakeのデータウェアハウスは、2つのパブリッククラウドサービスのいずれかでホストすることができ、Amazon Web ServicesとMicrosoft Azureの2つのパブリッククラウドサービスのいずれかでホストすることができます。

Snowflake社によると、Snowflakeは「従来のデータウェアハウスよりも高速で使いやすく、はるかに柔軟性が高い」とのことです。 Snowflakeは、Hadoopなどの既存のソリューションを構築するのではなく、クラウドに最適化されたアーキテクチャを持つ新しいSQLデータベースエンジンを使用しています。

Snowflakeの注目すべき点は、データウェアハウスのコンピューティング要件とストレージ要件を完全に分離できることです。これにより、両方の要件をそれぞれ上下にスケールアップすることができ、コストを削減しながら、より多くの柔軟性を得ることができます。

thumbnail image

Google BigQuery とは?

Google BigQuery は、Google独自のデータウェアハウスソリューションです。2010年に初めて発売されたBigQueryは、C-StoreやMonetDBに次いで一般に公開されたデータウェアハウスソリューションの1つです。

BigQueryは、Google Cloud Platformとして知られるGoogleのクラウドコンピューティングのエコシステム全体の中で重要な役割を果たしています。BigQueryの主な競合相手は、Snowflake、Amazon Redshift、Microsoft Azure Synapse Analytics(旧Azure SQL Data Warehouse)などの他のクラウドデータウェアハウスの巨人です。

DremelはGoogleが開発した強力なクエリエンジンで、BigQueryでクエリを実行するために使用されています。Googleの言葉を借りれば、Dremelは "非常に大規模なデータセットに対してSQLのようなクエリを実行し、わずか数秒で正確な結果を得ることができるクエリサービス "です。 BigQueryとDremelは、BorgColossusなどの他のGoogleのクラウドテクノロジーによってサポートされており、リソースの割り当てやDremelのジョブにデータを提供するのに役立っています。

Snowflake vs. BigQuery 価格

データウェアハウスソリューションを選択する際、多くの企業にとってコストは最も重要な関心事です。ここでは、SnowflakeとBigQueryの価格について比較していきましょう。

Snowflake 価格

Snowflakeの料金はいくらですか?答えは、どの程度使用するかによります。前述したように、Snowflakeはコンピュートとストレージを分離しているため、それぞれに別々のコストがかかります。

まず、Snowflakeのストレージの価格設定は、前払いの場合は1テラバイトあたり23ドル/月、オンデマンドの場合は1テラバイトあたり40ドル/月です。

しかし、Snowflakeのコンピューティング価格設定はもう少し複雑です。Snowflakeデータウェアハウスには、7つの異なるサービス層があります。最も安い(つまり「スタンダード」)コンピュート価格は、1時間あたり2ドル、または1時間あたり1クレジット(米国東部地域のAWSホスティングに基づく)です。これは、1秒あたり$0.00056の価格に換算されます。

まだ混乱している方のために、同社は見込み客向けに包括的なSnowflakeの価格ガイドを提供しています。 

BigQuery 価格

一方で、「BigQueryの価格は?」という質問は、さらに答えにくいかもしれません。

Snowflakeと同様に、BigQueryもコンピュートとストレージの価格設定を分けています。Googleは、アクティブなストレージの場合はテラバイトあたり月額20ドル、長期ストレージの場合はテラバイトあたり月額10ドルの定額料金を請求しています。さらに、毎月最初の10ギガバイトのストレージは無料です。これにより、BigQueryのストレージ価格はSnowflakeのそれよりも明らかに安くなっています。

しかし、BigQueryのコンピュート価格では、事態はより複雑になります。Googleはオンデマンドクエリに1テラバイトあたり5ドルの料金を課しています。また、ユーザーは500スロット(スロット:SQL クエリの実行に必要な演算能力の単位)を月額定額料金10,000ドル、または年払いの場合、月額定額料金8,500ドルで購入することができます。さらに、毎月最初のテラバイトのクエリは無料です

BigQueryは、使用された時間ではなく、返されるデータ量ごとに課金されるため、BigQueryデータウェアハウスのコストを見積もるのがより困難になる場合があります。

Snowflake vs. BigQuery Pricing: 結論

ストレージ価格の面では、BigQueryがSnowflakeと比較して明らかに優れています。しかし、コンピューティング・コストを考慮すると、BigQueryの方が高額なソリューションになる可能性があります。

Snowflakeの時間ベースの価格モデルは、一定の実行時間を要するユーザーや、毎日何百、何千ものデータ量の多いクエリを実行するユーザーにとっては、Snowflakeの方が優れたオプションである可能性が高いでしょう。一方、BigQueryのクエリベースの価格モデルは、大量のデータマイニングを行うユーザーや、特定の日に処理アクティビティが急増するユーザーにとっては、より費用対効果が高いものとなるでしょう。

Snowflake vs. BigQuery パフォーマンス

SnowflakeとBigQueryを比較する上で次に明らかなのはパフォーマンスです。

テクノロジーブログGigaOmは、2019年の一連のベンチマークテストにおいて、Snowflakeが多くのメトリクスで一貫してBigQueryを上回っていることを明らかにしました(テストには、Amazon RedshiftとAzure SQL Data Warehouseという他の2つのクラウドデータウェアハウスオプションも含まれていました)。

テストでは、業界標準のTPC-DSデータセットを使用しました。このデータセットは、電子商取引小売業者の架空のデータに基づいて「汎用的な意思決定支援システム」をモデル化するために使用されるものです。GigaOm社は、合計30テラバイトのデータセットを対象に、合計103回のテストを実施しました。

Snowflakeは、103個のTPC-DSクエリをすべて完了するのに合計5,793秒を必要としました。しかし、BigQueryはその6倍以上の37,283秒を要しました。

もちろん、すべてのユースケースにおいてSnowflakeがBigQueryよりも高速であるというのは、あまりにも還元主義的です。例えば、GigaOmは、純利益により測定された最もパフォーマンスの高い項目と最もパフォーマンスの低い項目の調査を含むベンチマークテストのクエリーで、BigQueryがSnowflakeを上回ったことを明らかにしました。

さらに、SnowflakeとBigQueryともに活発に開発が行われており、新機能やパフォーマンス強化が定期的に行われています。SnowflakeとBigQueryの現在および今後の変更点は、どちらのデータウェアハウスソリューションが真に優れたパフォーマンスを発揮するかという観点をシフトさせる可能性があります。

Snowflake vs. BigQuery 特徴

データウェアハウスソリューションを選択する際に最も重要な問題は、おそらく価格とパフォーマンスの2つですが、それだけではありません。このセクションでは、SnowflakeとBigQueryの間で決定する際に考慮すべきその他の重要な要素について説明します。

Snowflake vs. BigQuery: 使いやすさ

SnowflakeとBigQueryは、使いやすさという点では、どちらも「ユーザーフレンドリー」という評価を受けています。

ビジネス・ソフトウェアのレビューサイトG2では、Snowflakeの平均的な使いやすさの評価は9.0となっています(全データウェアハウス・ソリューションの平均8.7と比較して)。一方、BigQueryは8.5の使いやすさの評価を得ています。

例えば、BigQueryがサーバーレスで完全に管理されたデータウェアハウスであるという事実は、使いやすさのスコアに大きく貢献しています。データをGoogle Cloud Platformにアップロードしてしまえば、ユーザーは長いセットアップや設定プロセスを経ることなく、BigQueryを使い始めることができます。

SnowflakeとBigQueryはどちらも使いやすいですが、Integrate.ioはさらに使いやすくしてくれます。事前に構築されたシンプルなワークフローと統合機能により、Integrate.ioはデータウェアハウスを管理する際の複雑な作業を省き、クエリの結果そのものに集中できるようにしてくれます。

Snowflake vs. BigQuery: スケーラビリティ

Snowflakeを使用すると、ユーザーはコンピュートとストレージリソースそれぞれで上下にスケーリングすることができます。Snowflakeには、プラットフォームの実行中にクエリ時間を改善するための自動パフォーマンスチューニングとワークロード監視が含まれています。

一方、BigQueryは、スケーラビリティの問題を完全に処理します。サーバーレスを謳っているので、BigQueryは大規模なデータ・ワークロードを処理するために、必要に応じて追加のコンピュート・リソースを自動的にプロビジョニングします。これにより、ペタバイトのデータでも数分で簡単に処理できるようになります。

Snowflake vs. BigQuery: セキュリティ

医療、金融、小売業のデータなど、機密情報や機密性の高い情報を処理する組織は、データウェアハウスのセキュリティに特に注意を払う必要があります。SnowflakeとBigQueryの両方が、データを保護するためのエンタープライズクラスのセキュリティ機能をユーザーに提供しているという朗報があります。

Snowflakeは、SOC 1 Type IIとSOC 2 Type IIの両方のコンプライアンスに加えて、HIPAAとPCI DSSにも対応しています。その他のSnowflakeのセキュリティ機能(階層によって異なります)には、以下のようなものがあります。

  • 多要素認証
  • OAuthとユーザーSSOのサポート(シングルサインオン)
  • IPホワイトリスト化とブラックリスト化
  • アクセス制御
  • データの自動暗号化

BigQueryは、他のGoogle Cloud Platformソリューションと同様に、転送中と休止中のデータの自動暗号化を提供します。GoogleのCloud Identity and Access Management(IAM)機能により、管理者はユーザーのクラウド・リソースへのアクセスを微調整することができます。また、BigQueryはHIPAAおよびPCI DSSのコンプライアンス基準にも対応しています。

まとめ

SnowflakeとBigQueryはどちらも機能豊富なデータウェアハウスソリューションで、あらゆる規模や業界の企業がBIと分析のワークフローを改善するのに役立ってきました。しかし、この詳細な分析を通して、SnowflakeとBigQueryを比較する際に役立つ重要な相違点を明らかにしました。

BigQueryはストレージの面ではSnowflakeよりも安価ですが、BigQueryの独自のクエリベースの価格モデルは、複数のコンピュート層を持つSnowflakeの時間ベースの価格モデルとは大きく異なります。さらに、最新のベンチマークのセットによると、パフォーマンスの面では、SnowflakeがBigQueryを全般的に上回っています。

Snowflake を使用するか BigQuery を使用するかにかかわらず、データウェアハウスの選定は、データ統合ワークフローの一部にすぎません。情報を効率的に抽出、変換、およびデータウェアハウスへのロードを行うには、すべてのデータソースに対応できる強力なETLソリューションが必要です。

Integrate.ioは、Samsung、Deloitte、PwC、IKEAなどの企業にとって、そうしたソリューションとして利用されています。Integrate.ioは、データパイプラインの合理化とシンプル化を支援し、単一の集約されたデータウェアハウス内ですべてのデータソースを統合します。SnowflakeとBigQueryの統合についての詳細をお知りになりたい方はオンライン相談、または無償トライアルをお申し込みください。