あなたのデータに最適なデータベースを探していますか?たくさんの選択肢がある中で、どれを使えばいいのかを考えるのは難しいかもしれません。しかし、特にビッグデータを扱っていて、大量のデータセットをすでにお持ちの場合には、Verticaには多くの利点があります。
Verticaとは?
Vertica は、ビッグデータを扱うために設計された大規模並列処理(MPP)データウェアハウスプラットフォームです。このプラットフォームは、他のデータベースではサイズ的に適さないような大規模なデータセットを扱うことができます。
Verticaが優れたデータベースである理由
Verticaが選ばれる理由はいくつかあります。Hadoopと統合しているので、より高度なデータ分析のワークフローに最適です。その他の理由としては以下が挙げられます。
コストパフォーマンスに優れている
自己管理型のMPPデータベースであるVerticaは、他の製品にはない拡張性と柔軟性を備えています。コモディティハードウェア上で容易に使用できるため、必要に応じてデータベースを拡張することができます。このため、小さく始めてデータウェアハウスを成長させていきたいと考えている人にとって、Verticaは良い選択肢だと言えます。
Verticaのパフォーマンスはすばらしい
カラムナーストレージのオプションにより、プラットフォームの速度が格段に向上するため、Verticaは他のほとんどのデータ・ストレージ・ソリューションよりもはるかに効率的です。インデックスやマテリアライズド・ビューさえも必要ないほど高速です。
高度なアナリティクス機能
Verticaは、長年にわたって固有のSQL構文を完成させるために多くの時間を費やしてきました。しかし、地理空間分析や分散Rなど、データ分析を向上させるために使用できる多くの高度な分析ツールを含むように、その範囲を拡大しています。
Verticaを選ぶ理由は?
企業のデータベースニーズにVerticaが最適かどうかはまだわかりません。新しいプラットフォームに飛びつく前に、十分な情報を得ることは常に良いアイデアですが、Verticaには優れた機能があります。
Verticaはオンプレミス環境でMPPのパフォーマンスを提供
同様のプラットフォームの多くは、クラウド上でしか利用できず、オンプレミスのローカルマシンでアクセスすることはできません。しかし、VerticaはHadoopと同様、コモディティハードウェア上に展開することができます。これにより、ローカルのコンピュータであっても、どのような能力であっても使用することができます。 プレディクティブ・アナリティクスは、どこからでも、あるいは自分のオフィスでも実行することができます。
データサイエンスや機械学習を含むワークフロー
データサイエンスや機械学習、AIに関わるワークフローが多い企業であれば、Verticaが活躍します。PrestoやSparkのように、HDFSに直接クエリを実行できます。また、さまざまなデータタイプの膨大なデータセットを扱うことができ、データサイエンティストやデータアナリストが分散Rを使って大規模なクエリを作成することができます。これらはすべて、VerticaのSQLエンジンと、ニーズに合わせて設計されたアルゴリズムによって実現されています。
価格で考慮すべきこと
Verticaのライセンス費用は、いくつかの点で異なります。期間の長さと必要な生データの保存量が最終的な価格に影響します。適切な見積もりを得るためには、特定のニーズについてベンダーに直接相談する必要があります。マイクロフォーカス社のVerticaチームは、いつでもお客様に必要なオプションを見つける支援します。
Verticaを使用する
Verticaの仕組みがわかったところで、実際にこのプラットフォームを使ってデータマネジメントを改善する方法について知りたいのではないでしょうか。Verticaのプラットフォームとその大規模な機能については、学ぶべきことがたくさんありますが、ここでは基本的なことをご紹介します。
Vertica アーキテクチャー
幸いなことにVerticaでは4つのCで機能を決定しており、プラットフォームで何ができるかを簡単に覚えれるようになっています。
Column storage(カラムストレージ)
クエリのパフォーマンスを向上させ、データ検索を高速化するために、Verticaのアナリティクス・プラットフォームでは、テーブルのカラムを構成するデータベース・オブジェクト(プロジェクション)を保存しています。これを1つのプロジェクションにまとめることができ、マテリアライズド・ビューのように動作するため、クエリの実行が高速化します。
Compression(圧縮)
Verticaでは、高速な検索のためにカラムを別々に保存するので、データの圧縮が重要になります。VerticaではLZO圧縮を採用しており、解凍がほぼ瞬時に行われるように最適化されています。
Clustering(クラスタリング)
クラスタリングとは、VerticaがMPPの分散データベースノードを管理する方法を意味します。Verticaは、すべてのノードをクラスタにまとめます。これにより、どのノードでもクエリの実行が可能となり、高可用性、高パフォーマンス、機能性の向上、特定の情報の迅速なリカバリを実現します。
Continuous Performance(連続性能)
オープンソースのMPPデータベースなので、Verticaは随時、バッチでのデータ更新をイメージするかもしれません。しかし、このプラットフォームでは、通常のやり方とは異なり、継続的にデータを自動ロードします。非常に高速で、クエリに応じてリアルタイムに情報を提供するため、計算時間を短縮することができます。
まとめ
大量のデータを保存しながら、高速性と最小のレイテンシーを必要とする企業にとって、Verticaは優れた選択肢となります。クエリ実行の高速化やカラムナー・ストレージの効率化など、パブリック・クラウドにおける高度な分析のためのプラットフォームとしてVerticaを使用することには、多くの魅力があります。
Integrate.ioを使うメリット
Integrate.ioは信頼のおけるETLプラットフォームです。分析のために様々なデータをVerticaにロードすることを容易にします。
Integrate.ioのデータ管理プラットフォームがどのようにお客様のプロセスを改善できるか、オンラインデモでご確認ください。