データは組織の成長において重要な役割を担っており、企業はデータボルト、データマート、データレイク、データウェアハウスなどのデータおよびビッグデータ基盤の構築に巨額の資金を投じています。このようなインフラは、1日中機能する強固なETLのパイプラインを使って、複数のデータソースから入力され、データ基盤は、リアルタイムの分析とデータ主導のビジネスインサイトを提供するために、24時間365日の稼動が必要です。
データが重要であればあるほど、データストレージのインフラやデータウェアハウスのプロセスには、電力消費コストの増大がつきものです。2020年には、世界のデータセンターのエネルギー消費量は約400テラワット時(TWh)となり、その割合は指数関数的に増加しています。データの前例のない増加と二酸化炭素排出量の増加により、持続可能なデータウェアハウスのデザインは、世界中のリーダーにとって重要な関心事となっています。
ITの持続可能性が未来永劫のために重要な理由
データセンターが消費するエネルギーは、世界のエネルギー需要の1%に相当し、2025年には世界の消費量の5分の1に相当するとの調査結果もあります。データセンター内のサーバーは、稼働するために大量の電力を必要とし、また、サーバーは熱を発しており、その熱は周辺環境に放出されます。
より環境に配慮したデータウェアハウスのデザインに移行することは、組織と環境にとって有益です。エネルギー消費量が減れば、電気代や冷却装置への支出も減り、より健康的でクリーンな環境に不可欠な二酸化炭素排出量と環境への負荷を減らしているということにもなります。
IT機器の二酸化炭素排出量測定
クラウドコンピューティングによる世界の排出量は、全世界の温室効果ガス排出量の 2.5% から 3.7% を占めており、改善すべき点を知ることは、より環境に優しいインフラへの第一歩になります。ちなみに、データセンターは主に大型のサーバーラックで構成され、毎秒ごとにデータを収集・保存しています。
IT機器からの二酸化炭素排出量を測るのは簡単なことではありませんが、どこが問題になっているかを知るのは簡単です。どの電気機器にも、エネルギー定格があり、新しい技術に基づいて作られた機器は、消費電力が少なく、全体的にエネルギー効率が高くなるようにデザインされています。もし、データウェアハウスがまだ旧式の機械で動いているのであれば、そろそろ変更の時期が来ているのかもしれません。
ユーティリティコンサルタントのマーク・ブラムフィット氏は、電気使用量を測定し、その地域の炭素係数を乗じてCFP(カーボンフットプリント)を測定することを提案しており、この方法で測ると、より正確な数値が得られます。
環境に優しい再生可能エネルギーの貯蔵と処理への取り組み
世界中の重要な組織が、二酸化炭素排出量を削減する方法を研究して大きな成果を上げており、2021年11月に開催されたCOP26会議では、気候変動の悪影響への対策や気候リスクへの対応に向けたいくつかの取り組みに道筋が付けられました。その結果、多くの企業が、企業のさまざまな側面から排出されるCO2を測定・管理し、持続可能なインフラへと焦点を移すようになりました。
しかし、最近の報道では、IT部門は十分なことをしていないと非難されており、多くの環境保護主義者から、IT企業が数カ月ごとに新しいハードウェアを押し出すのではなく、古い製品のリサイクルや再利用を推し進めることを望まれています。WG21(ワーキンググループ21)の別の報告書では、最近の技術的進歩は効率が飛躍的に向上していないと強調されており、これまで、電子機器のエネルギー効率はおよそ2年ごとに2倍になっていましたが(ムーアの法則)、そのカーブは平坦になり始めています。
では、ソフトウェアやクラウド分野が二酸化炭素排出量を削減するための主な方法について見ていきましょう。
自動化によるアプリケーションの最適化とプロセスにおける無駄の削減
コンサルティング会社のマッキンゼー&カンパニーが70の大規模データセンターのエネルギー使用量を分析したところ、計算処理に使われたエネルギーはわずか6~12%であることがわかりましたが、データセンターは、関連性を維持して最大限の利益を提供するために、24時間365日稼働していなければいけません。ただ、連続稼働は必ずしも必要ではなく、ソフトウェアのプログラミングが悪かったり、SQLの最適化が悪かったりした結果でしかない場合もあります。
持続可能性の実現は、ハードウェアの最適化やグリーン電力によるものだけではありません。ソフトウェアを最適化することで、企業は未稼働のコンピューティングと二酸化炭素排出量を削減することができ、有望なETLパイプラインは、データの流れと品質を定め、可能な限り最短時間でデータの取り込みを行います。SQLクエリの記述が不十分だと、実行に何時間もかかり、それによってより多くのエネルギーが消費され、環境にも悪影響を及ぼすことから、データアーキテクチャの再検討や、混雑するポイントの把握、さらにクエリの実行とデータフローの最適化が不可欠になります。
大手クラウドプロバイダーが注目するグリーンデータセンター
AmazonやMicrosoftなどの世界的な大企業は、すでにカーボンニュートラルなインフラを目指して取り組みを始めています。例えばAmazonは「The Climate Pledge」を共同設立し、2040年までにカーボンニュートラルを達成することを目標としており、その中には、再生可能なエネルギーや最大100%のリサイクル素材を使ったデータセンター建設戦略の見直しも含まれています。ちなみに、データ処理や機械学習などのオンプレミス・コンピューティングのワークロードをAWSに移行することで、ワークロードの二酸化炭素排出量を約80%削減できるという研究結果があります。
しかし、Amazonはここで終わりではなく、2025年までにすべての業務を再生可能エネルギーだけで行うなど、さらに多くの課題に取り組んでいます。Amazonに続いて、他の多くの企業もグリーンデータのストレージソリューションの導入に取り組み始めており、その代表的な企業が、Facebook、Google、Netflixです。
持続可能なデータウェアハウス構築のための5つのデザインヒント
持続可能なデータウェアハウスやデータレイクの構築はそこまで難しくはありませんが、特定のステップをいくつか踏まなければならないこともあります。エンジニアは、ある一定の側面に留意し、特定のユースケースを定めて、その結果が環境にとって確実に安全であるようにしなければいけません。以下に、データセンターのデザイン戦略をいくつかご紹介します。
プランニング
成功するベンチャー企業では、常にプランニングが重要な役割を果たしています。データウェアハウスのデザインは、供給するデータやビジネス要件を含め、徹底的に考え抜かれる必要があり、以下のような特徴を考慮して、常に先を読むことが重要です:
- データソース:データからのすべてのタッチポイントを取り込む
- 取り込まれるデータの種類:構造化データ、非構造化データ、またはその両方を取り込むかどうか
- スキーマの確定:すべてのリレーショナルテーブル向けのメタデータ管理
そのような情報は、データ量が限度を超えると、経営にとって脅威となります。無責任な管理によって不正確なデータが収集されると、その修正のために必要な時間とリソースはもちろんのこと、エネルギーを浪費し続けることになるのです。
標準化
標準化とは、リレーショナルデータベースシステム内のデータ構造のことであり、データベースの標準化によって、データベース全体が一つのフレームに変換されます。そして劣悪なデータベースの構造は、以下のような要因で特定できます:
- データベースとテーブルが同じ又は繰り返し使われている。
- テーブルに重複した行が含まれている。
- テーブルにインデックスが作成されていない。
- 複数の関連するテーブルの間に関係がないか、弱い。
標準化された構造で、クエリの実行や、データの読み込みと処理の高速化が実現され、それによってサーバーやその他のコンピューティングマシンの負荷やエネルギー消費量を削減することができます。
文書化
データベースのドキュメントは包括的であればあるほど、長期的なユースケースに適しています。ドキュメントには、データベースのメタデータ、テーブルスキーマ、ストアドプロシージャに関する情報などが含まれており、テーブル間の関係も文書化されているので、長期的に見ると非常に便利です。さらに、文書化で問題のデバッグにかかる時間が短縮され、新入社員や研修生にガイドラインを提供しやすくなります。
ユースケースの理解
保存されたデータがどのように使われるかを覚えておくことが不可欠であり、データベースデザインはそれに従って構成されます。企業は、組織内のBI(ビジネスインテリジェンス)、ML(機械学習)、およびデータ分析にデータを使うことができますが、データベースのデザインは、将来的に追加の微調整が必要ないように、そのような目的にすべて対応しなければいけません。
分析
データ分析は、データベースエンジニアにとって重要な仕事です。組織はそれに応じてデータモデルを分析・理解・実行しなければなりません。データは処理やクリーニングされ、適切なテーブルへの格納が必要であり、遭遇するタイプに対応するために、すべてのデータソースを特定することもできます。
このようなプラクティスは、データ品質にプラスの影響を与え、データウェアハウスにかかる時間を短縮します。
持続可能なデータ戦略による持続可能なデータウェアハウスデザインの確保
持続可能なデータウェアハウスのデザインは、地球環境に配慮する組織の責任に影響し、持続可能なデータ戦略は、データ統合および処理パイプラインを定めて効率化します。さらに、データ戦略の持続可能性は、以下で説明するような小さなタスクによって管理されます。
持続可能なデータ収集
持続可能なデータ収集戦略には、最小限のリソース使用でのデータ取得や、将来の拡張性を提供するパイプラインが含まれます。データウェアハウスは常にデータを収集・保存しているため、持続可能なアプローチとは、二酸化炭素排出量の大幅な削減ということになります。自動化と最適化されたSQLクエリにより、サーバーのワークロードが最小限に抑えられ、エネルギー使用量を削減することができるのです。
持続可能性の観点から、データ収集は将来的に新しいデータソースを統合しやすくすることにも重点を置く必要があります。
データ管理ツール
データ管理ツールには、多くの利点があります。データの収集、処理、クリーニングのプロセスの自動化や、異なるデータストア間の移行のサポートを実現し、データ関連のタスクに高度に最適化されています。また、データ管理ツールはデータエンジニアの作業負荷を軽減するだけでなく、効率的に仕事をこなし、それによってリソースの利用を最小限に抑えられます。さらに、使われていない処理コアを解放し、それによって不必要なエネルギーの浪費を抑えることができます。
持続可能性を測る正しいKPIの設定
グリーンデータのウェアハウスに向けた労力は、進捗状況を正しく把握しなければ何の成果も生まれません。なので、組織は自分たちが確実にプラスの影響をもたらすことができるように、正しいKPIを定めなければならず、そのようなKPIは、一定期間内に達成すべきマイルストーンと連動している必要があります。例えば1週間あたりの電力消費量の追跡は、省エネを確実にするための素晴らしい方法です。クラウドデータウェアハウスを使っている場合は、AmazonやMicrosoftなどのプロバイダーにエネルギー消費量のレポートを要求するのもいいでしょう。
データ統合を自動化しよう
Integrate.io は、様々なデータプラットフォームからのデータ統合を提供するデータプラットフォームであり、この素晴らしいデータの取込および移行のパイプラインで、データウェアハウスが数回のクリックで確実に利用でき、さらに、Google アナリティクス、Amazon S3、HDFSなどのソースからの統合ができます。統合とウェアハウスに加えて、Integrate.io はデータ分析を提供し、データの把握や、意思決定をサポートします。
要件について迷っている場合は、24時間365日ご利用可能なカスタマーサービスがお手伝い致します。担当者との個別セッションをぜひ今すぐご予約ください。