分析のワークロードのパブリッククラウドへの移行は、近年の最大級のビッグデータトレンドの一つであり、以下のようにその勢いは衰え知らずです:
- 2021年には、パブリッククラウドインフラが35%成長すると言われている
- パブリッククラウドサービス市場は、2023年には全世界で6,230億ドルに達すると言われている
- 企業の半数がクラウドサービスを120万ドル以上利用している
(出典)
もちろん、パブリック クラウドでデータを処理するには、まずデータ移行を通じてそのデータをパブリック クラウドに取り入れないといけません。そうなると、企業には、データのサイロ化、データ量の増大と複雑化、GDPR(EU一般データ保護規則)、CCPA(カリフォルニア州消費者プライバシー法)、HIPAA(医療保険の相互運用性と説明責任に関する法律)などのセキュリティやコンプライアンスの問題などの課題に対処するために、強固で成熟したデータ移行ソリューションが必要になります。
Azure Data Factory は、Azureユーザーが企業データのETLパイプラインを構築できるようにする、Microsoft Azure のクラウドコンピューティングプラットフォームのデータ移行サービスです。ただ、Azure Data Factory にはオプションや設定が多数ありますが、どれが自分のビジネスに適しているのでしょうか?
Azure Data Factory による Microsoft の ETL を理解するのは大変です。そこでこれから、パブリッククラウドで分析ワークロードを処理するための方法の利点についてご説明します。それから、プロセス全体を効率化する代替案についてお話しましょう。
Integrate.io は、データ駆動型チームのためのベスト ETL ソリューションであり、データの抽出、変換、格納が簡単です。早速デモを予約して、詳細をぜひご確認ください。
ETL とは
ETL(抽出、変換、格納)は、データ統合プロセスの最も一般的なパラダイムの1つです。
以下は、ETL の3つのステップです:
- 抽出:ファイルやデータベースなどのソースがあるところからデータを抽出する
- 変換:データをソースのフォーマットから目標位置のスキーマに合うように変換する
- 格納:最後に、分析およびレポート作成のために、データをデータウェアハウスなどの目的の場所に格納する
分析ワークロードに必要なデータは、組織の内外を問わず、さまざまな形態や場所に存在することがあります。なので最大限の効率を得るには、そのようなデータをデータウェアハウスなどの一元的なレポジトリに保存する必要があります。データにアクセスしやすく、分析しやすい状態を保つためには、この形式での適切な保存が不可欠であり、ETL は、データ移行プロセスの重要な部分であることから、多くのデータソースをより簡単に、より効率的に統合することができます。
最後に、ETL はもう一つのデータ統合パラダイムである『ELT』とは違います。頭文字からわかるように、『ETL』と『ELT』は「格納(L)」と「変換(T)」の段階を実行する順序が違います。ELT は、データウェアハウスに一度格納されたデータを変換します。対する ELTは、データ専門家が変換したいデータを選択することができ、大量の非構造化情報を格納する際の時間を節約することができます。
ETL のメリット
より多くの企業がリアルタイムのデータインテリジェンスを必要とする中、ETL の価値はかつてないほど高まっています。以下は、ETL を組織に取り入れることで得られるメリットです:
- データパイプラインの構築にかかる時間の短縮:ETL はデータ変換に関連する多くのプロセスを自動化するため、その分他のタスクに集中できる。
- 大規模なデータエンジニアリングチームがない中小企業に適している:最高の ETL ツールはコードを必要としないので、ユーザーは労力をかけずにダイナミックなパイプラインの作成ができる。
- ETL プロセスの自動化によって、手作業によるパイプライン構築で発生するヒューマンエラーやその他の問題が軽減される:ETLツールは、データガバナンスのフレームワークのコンプライアンスを高め、データ保護違反による高額な罰則を防ぐことができる。
- ETL ツールで、データを別の目的地に移動する前にデータを検証できる:それによって、不要なデータ、重複したデータセット、法律に準拠していないデータなどを削除できる。
Azure Data Factory とは
Azure Data Factory は、Microsoft Azure のユーザーが様々なソースからのデータを Azure パブリッククラウドにまとめられるようにする、フルマネージドのデータ移行・統合サービスであり、Adobe や Concentra などの企業は、このツールを使って様々な場所にあるデータを組み合わせ、仮想環境に移行しています。
また、Azure Data Factory サービスでは、Microsoft の SQL Server のオンプレミスデータと、Azure SQL Database、Azure Blob Storage、Azure Table Storageのクラウドデータの両方を統合することができます。
Azure Data Factory が関連データを集めると、Azure HDInsight(Apache Hive および Apache Pig)のようなツールでサッと処理することができます。また、Azure Data Factory がデータ統合プロセス全体をエンドツーエンドで自動化および調整し、それによってユーザーが、確実に ETL データ パイプラインで単一の画面を利用できるようにします。
Microsoft によると、Azure Data Factory は「[従来の ETL プラットフォーム]というよりは、[EL(抽出と格納)および TL(変換と格納)のプラットフォーム]のようなもの」です。Azure による ETL の理解の一部として、Azure Data Factory が、データ移行プロセス中に複雑なデータ変換を行うのではなく、データ自体のオーケストレーションと移行に重点を置いていることを理解しておきましょう。
さらに、Azure Data Factory は、技術的にはそれ単体では完全な ETL ツールではありません。というのも、データソースに作用するかしないかわからない様々なタスクを実行できる制御フローを確定しているからです。ただ、Azure Data Factory は、最近まで 情報の移行を扱うデータフローに対応していませんでしたが、幸いにもそれが変更され、それによってユーザーへの魅力が増してきています。
そして Microsoft は、Azure Data Recovery に定期的に機能を追加しており、2020年12月には、組織が機密データを処理・共有する際に、HIPAA などのデータガバナンスの枠組みを遵守することを支援する「Azure Purview」という新サービスを導入しています。
関連記事:データエンジニアがMicrosoft Azureを検討すべき理由
SSIS とは
Microsoft の SSIS (SQL Server Integration Services) は、Microsoft の SQL Server の データベースソフトウェアの一部であるオンプレミスのデータ移行・統合ツールです。
SSIS は、Microsoft のDTS(データ転送サービス)ツールキットの後継としてSQL Server 2005 で初めて登場しましたが、Azure Data Factory を導入する前、Microsoft は SSIS を SQL Server との間でデータ統合と変換パイプラインを構築するための主要なツールとみなしていました。
SSIS には多彩な機能があり、以下のような便利な機能があります:
- SQL ステートメントの実行
- データソースの収集、クレンジング、統合
- SQL Server、Oracle、Db2 などのデータベースや、Excelスプレッドシートなどのソースからのデータ抽出
- ETLデータソースとターゲットの確定
- ユーザーに優しいグラフィカルツールとウィザード
Azure Data Factory が登場しましたが、SSIS はすぐになくなることはありません。この2つのツールは今、切磋琢磨しているとさえ言えるでしょう。Azure Data Factory の新しいバージョンには、『Integration Runtime』という、異なるネットワーク環境でのデータ統合機能を提供する機能が含まれており(Microsoft は2021年9月に Integration Runtime の最新版をリリースしています)、特に、この機能によって Azure Data Factory は、異なるデータソース間の自動インポートおよびエクスポートのパイプラインである SSIS パッケージを実行することができるようになりました。
マッピングデータフローとは
パブリッククラウドへの移行に伴い、Microsoft は ETL とデータ移行の提供の見直しが必要でした。SSIS はオンプレミスやIaaS(サービスとしてのインフラ)のワークロードには適していますが、パブリッククラウドにはあまり向いていないのです。
マッピングデータフローは、2019年10月に利用可能になった Azure Data Factory の機能であり、これによって Azure Data Factoryは、制御フローとデータフローの両方を組み合わせて、データウェアハウスの内と外の両方で情報を移行する、より完全な ETL ソリューションとなることができます。
また、マッピングデータフローを使うことで、Azure のユーザーは、使いやすいビジュアルインターフェースでデータ変換をコードを書くことなく構築でき、そのデータフローを Azure Data Factory のパイプライン内のアクティビティとして実行できます。
Microsoft の製品管理担当パートナーディレクターであるマイク・フラスコ氏の言葉を借りると: 「データファクトリーは、今やクラウドでの ETL をシンプルにし、インフラ管理不要であらゆるデータサイズに拡張できるコード不要でサーバーレス環である[マッピングデータフロー]をユーザーに提供するようになりました。」ということです。
マッピングデータフローの WYSIWYG 環境(What You See Is What You Get:最終的な仕上がりを画面上に表示して確認しながら編集できること)は、Azure Data Factory のユーザーにとって、コード優先でもノーコードでも、ニーズに合わせてビッグデータのパイプラインを開発できる柔軟性を備えています。それによって、高度なコーディングスキルを必要とするツールを敬遠していた人達にも、サービスの魅力を伝えることができるようになりました。
関連記事: What Is No-Code?
マッピングデータフローが対応している ETL アクティビティは以下の通りです:
- 結合
- 集計
- ピボット
- ピボット解除
- スプリット
- ルックアップ
- 並べ替え
マッピングデータフローは、現在技術業界を悩ませているデータサイエンティスト不足を解消するための重要な一歩です。「市民データサイエンティスト」(データ駆動型インサイトにアクセスする必要のある非技術系社員)が、これを使って ETL パイプラインを構築し、データ統合と変換プロセスをシンプル化できますからね。
Microsoft ETL:SSIS か Azure Data Factory のマッピングデータフローか
これまでのお話を踏まえて、Azure Data Factory で ETL を行うには、どういった方法があるのでしょうか?
マッピングデータフローは、Azure Data Factory で ETL を実行するための最新の方法ですが、唯一の方法というわけではありません。ただ、Azure Data Factory でよく使われている機能である『Integration Runtime』のおかげで、Azure Data Factory 内から SSIS パッケージを実行することは、オンプレミスのデータ ワークロードを維持するための実行可能な方法であることは確かです。
マッピングデータフローも SSIS も、ETL データパイプラインの構築プロセスを劇的にシンプル化することができます。SSIS はオンプレミス、クラウド、またはハイブリッドクラウド環境で実行できるため、非常に柔軟性があり、マッピングデータフローは現在、クラウドデータ移行ワークフローにのみ利用可能です。
そうすると、SSIS と Azure Data Factory を組み合わせるべきでしょうか?それは、各々の状況の具体的な内容によって変わってきます。Azure Data Factoryは、クラウド上で大量のデータを扱うのに適した強固なツールであり、SSIS はより軽量で小規模なジョブに適しています。また、両方の技術を使う際には、お互いの足を引っ張り合わないようにする必要があるため、手間をかける価値があるかどうかを検討する必要があります。もし、このようなツールの使用経験が不十分であれば、大変な作業を代行してくれる 自動 ETL プラットフォームにしておきましょう。(詳しくは次のセクションでお話します)。
関連記事: Allow Integrate.io Access To My Data on Azure Blob Storage
Azure Data Factory の代替案
Azure Data Factory は、その充実した機能セットと評判にもかかわらず、Azureによる ETL を理解するのに知っておくべき重要な制限事項がいくつかありますが、Azure Data Factory が Microsoft と Azure のソースからデータをサッと簡単に統合する必要がある Azure のユーザーに適していることは明らかです。
また、Azure Data Factory には、Amazon Redshift、MongoDB、Salesforce など約90種類のネイティブコネクタがあります。ただこのツールの統合機能は、他のデータ統合ソリューションと比べるとかなり少ないです。
もう一つ細かいことを言えば、Integrate.io は ETLデータ統合プラットフォームであり、あらゆるETLソースからクラウドデータウェアハウスへのパイプラインを簡単に構築できる点も見逃せません。ドラッグ&ドロップのシンプルなインターフェースと100以上の内蔵された統合機能により、Integrate.io は強力で情報量の多い ETL ワークフローを構築でき、それによってよりスマートなビジネスインサイトをすぐに得られるようになります。
実際、ビジネスソフトウェアのレビューサイト「G2」によると、Integrate.io の平均評価は 星5つのうち4.3であり、現在も、最も人気のあるデータ統合プラットフォームの1つとなっています。
以下は、このプラットフォームに対するユーザーの声です:
- 「Integrate.io はユーザーに優しい点が気に入っています。コードを知らなくてもシステムを接続できるので、技術的なバックグラウンドがあることはプラスになりますが、必要なわけではありません。また、サポートもありがたいです。問題にぶつかったり、回避策に行き詰まったりしても、サポートスタッフが的確に解決策を導いてくれます」。(金融サービス業の管理者)
- 「Integrate.ioのサポートは一流です。彼らは、ユーザーが自社の製品で可能な限り最高の体験ができるように常に一生懸命やってくれます。」(マーケティング/広告の管理者)
- 「Integrate.ioは非常に柔軟で、私たちのニーズを満たしてくれます。」(ニール・A.)
Integrate.io ができること
Azure Data Factory は、Microsoft SQL Server、Azure SQL Database、Azure Blob Storage、Azure Table Storage などのソースから構造化、半構造化、非構造化データを統合する強固で成熟したソリューションです。また、Power BI や Azure HDInsight など、Microsoft の BI および分析ソリューションともうまく統合できます。
でも、Azure Data Factory よりも幅の広いクラウドデータ統合ソリューションをお探しでしたら、Integrate.io を試してみてはいかがでしょうか?
Integrate.io は、複数のソースからデータを抽出し、そのデータを正しいフォーマットに変換して、分析用の最終目的地に格納することで、ユーザーが必要とするリアルタイムの BI(ビジネスインテリジェンス)を提供します。さらに、Integrate.io のユーザーは、ワールドクラスのカスタマーサービス、シンプルな価格設定、強力な REST API、データパイプラインの構築をシンプルにする 100 以上のネイティブコネクタがすぐに使えるようになっています。
また、Integrate.io のデータ統合プラットフォームには、Azure SQL Database や Azure Blob Storage との統合など、Azure ユーザーにとって魅力的な多くのメリットがあります。
Integrate.io がデータ駆動型ワークフローの構築と革新的なビジネスインサイトの取得にどのように役立つかご覧になりませんか?Azure Data Factory によるMicrosoft ETL をお知りになりたい方は、データ統合の専門家チームによるデモにぜひお申し込みください。