時は2024年。この10年間で、私たちは手動のファイル仕分けが ETL(抽出、変換、格納)になり、ETL が ELT(抽出、格納、変換)になり、ELT が dbt(data build tool)になるのを見てきましたが、役員室では今でもスプレッドシートが使われ、重要なビジネスワークフローはフラットファイルがで埋められています。
あるビジネス慣行やビジネスプロセスが飛躍的に進歩した一方で、停滞しているように見えるビジネス慣行やビジネスプロセスがあるのはなぜでしょうか?その答えはそれほど単純ではありませんが、あらゆる問題が「データ専門チームによって解決されるデータ問題」として一括りにされてきたことが一因です。そして筆者たちは、「このようなデータの問題は、大規模なデータ ウェアハウス/レイク (Snowflake ですね!)と、そのデータレイク (あるいは今はデータレイクハウスでしょうか?)を何とか手なずける将来のツールですべて解決できる」という考えを広めてきました。
なので今後の投稿では、コスト、セキュリティ、チームの健全性を考慮すると、これがひどいアプローチであることが判明している理由について筆者の考えを共有していこうと思います。 そして本記事では、独自のツールセットと運用に適した適切な名前を付けるに値するデータ問題の一つの切り口について、筆者たちの考えを共有したいと思います。
では、オペレーショナル ETL について見ていきましょう!
オペレーショナル ETL の定義
データ分野全体がここ数年で最も注目されている市場の 1 つとなっているため、多くの新しい企業が設立され、カテゴリの細分化、バズワードが発生し、このマーケティングすべてに巨額が費やされました。
この時間と費用の大半は、「データ駆動型企業」という経営者の夢と主張を実現するために費やされてきました。ダッシュボードを必要とする人々の手に届けるという最終的なゴールは変わりませんが、ダッシュボードのためのデータを準備するプロセスが、主な「イノベーション」が起こっている場所です。また、ETL 市場のこの分野は、レポーティングとアナリティクスのための一元化された「信頼できる唯一の情報源(Single source of ftruth)」の作成に重点を置いており、「分析 ETL」と呼ぶことができます。
企業は優秀なチームを雇い、最新のデータスタックを構築するために膨大な資金を費やしていますが、こうした企業の9割は、「データ主導型になる」という取り組みに対してプラスの ROI(投資利益率)を得られていないと思われます。そして残り1割の企業は、データで解決すべきビジネス上の問題を明確に理解し、これらの取り組みを一握りのコアダッシュボードに絞り込むことに成功し、必要なデータでそのダッシュボードを強化するのに何億円も費やす必要がないことを認識しています。
そして ETL 市場の一部で、よりトレンドの分析 ETL に比べてイノベーションは遅れていますが、企業に定量化可能な膨大な ROI をもたらしているのは、ビジネスプロセスの自動化と手動データ準備の効率化です。これらのビジネスに欠かせないプロセスは、従業員が実行するワークフローとして始まることが多く、非効率でヒューマンエラーの影響を受けやすく、企業が規模を拡大し始めると常にボトルネックになります。
また、オペレーショナル ETL は、ビジネス ワークフローの自動化や、手動のデータ管理のシンプル化を行う ETL 市場のこの部分に焦点を当てており、それで企業は拡張しやすくなります。
オペレーショナル ETL のユースケース
オペレーショナル ETL がカバーするユースケースは多岐にわたりますが、主なユースケースを以下で3つ見てみましょう:
1.CRM と ERP へのデータの準備と格納
CRM(顧客関係管理)や ERP(企業資源計画)への見込み客/顧客/パートナーのデータ準備や格納が必要な企業があり、顧客に最もよく使われているのは、Salesforce、HubSpot、NetSuite あたりです。
2.B2B データ共有
2024年、企業にとってファイル共有は、社内外でのデータ共有の最も一般的な方法です!大体これらは CSV/Excel/JSON/XML ファイルですが、クリーン度の状態はさまざまであり、ビジネスプロセスで使う前にデータ変換作業を行ってクリーンアップして標準化する必要があります。また、チームや企業間でこのようなファイルを共有する最も一般的な方法に SFTP や FTP があります。
3.データ製品の強化
「データ製品」という用語は比較的新しく、その漠然した感じや曖昧さを考えると、この用語は好ましくはありませんが、よく使われて定着しつつあるようです!データ製品とは、基本的に企業のデータウェアハウスからのデータを使うあらゆるビジネスアプリケーションを指し、そのビジネスアプリケーションにとって、データの鮮度は不可欠であり、必須条件です。そしてデータ製品は通常、データウェアハウスからのデータを使っており、本番データベースからデータウェアハウスにデータを取得するには、CDC(変更データキャプチャ)ベースのデータベースレプリケーションが必要です。
分析 ETL と オペレーショナル ETL
分析 ETL は、ETL 市場で最も熱く、最も議論されている部分であり、企業がチームにダッシュボードを装備することによってデータ主導型になりたいと思っているところです。企業内のデータ支出の大部分がここに費やされるのは皮肉なことですが、そのような企業に、この取り組みから得られるビジネスへの影響の例を共有してくださいとお願いすると、苦戦を強いられます。ダッシュボードは必要ないとは言いませんが、これらのイニシアチブの ROI には大きなズレがあり、それが最近の企業再編や人員整理でデータチームが大きな打撃を受けている理由となっているのです。
分析 ETL の世界では、主に「ETL」と「ELT」の2つのアプローチがあります。ETL の支持者は、データウェアハウスに格納する前にデータを変換することを好み、ELT の支持者は、データがデータウェアハウスに格納された後にデータを変換することを選択し、大体その変換を行うために dbt のようなツールを使います。
また、分析 ETL は、企業の意思決定を後押しする「信頼できる唯一の情報源(Single source of truth)」の作成に関するものであり、オペレーショナル ETL は、ビジネスを拡張し、チームがより価値の高い業務に集中できるようにするために、ビジネスプロセスや手作業によるデータ準備を自動化することに関するものです。
ETL 市場のこれらのサブセットは、それぞれ企業にとって重要ですが異なる目的を担っており、データアーキテクチャを計画する際には、その違いを理解することが重要になってきます。
オペレーショナル ETL に Integrate.io を選ぶ理由
Integrate.io プラットフォームの豊富な製品提供は、オペレーショナル ETL と分析 ETL の両方のユースケースに対応することに全力を尽くしていますが、Integrate.io の本当の強みと専門知識はオペレーショナル ETL に集中しています。オペレーショナル ETLのユースケースがあるのであれば、Integrate.io は評価リストの上位に入るでしょう。以下は、我々が誇るプラットフォーム全体の特徴です:
- 使いやすさ
シンプルかつパワフルなポイント&クリック、ドラッグ&ドロップのプラットフォームであり、技術者でないユーザーでも、エンジニアリングチームのサポートなしにデータパイプラインの構築や管理ができるよう、究極の使いやすさを追求したプラットフォームを構築しました。
- 価値を実現するまでの時間
Integrate.io を使えば、企業は数週間や数ヶ月ではなく、数日でデータパイプラインを本番稼動させることができます。納期に間に合わなかったり、実装に時間がかかったりすることはもうありません。
- 業界を牽引するサポート
最高の顧客体験を提供することが、Integrate.io のサービスの目指すところです。Integrate.io にとってサポートとは、顧客がサポートチケットを開く必要があるときだけではなく、顧客とのあらゆるやり取りが「サポート」であると考えます。最初にお電話をいただいたときから、専任のソリューションエンジニアが担当し、評価、オンボーディング、導入後まで、顧客とともに作業を行います。
本当に際立っているのは、顧客がこのプラットフォームを使う際の以下のようなオペレーション ETL の ユースケースに対応している、深いレベルの機能です;
1.CRM と ERP へのデータの準備と格納に Integrate.io を使う理由
このユースケースは、(REST API、ファイル、データベースなどの)Integrate.io の柔軟なデータインジェストと、Salesforce/HubSpot/NetSuite に格納する前のローコードデータ変換により、顧客から好まれています。
特に Salesforce のユースケースにおいて、Dataloader では物足りない、MuleSoft では多すぎるという場合にご利用ください。
ユースケース特有の Integrate.io の利点は以下の通りです:
- Salesforce、HubSpot、NetSuite の双方向コネクタ
- どこからでもデータを取り込む
- REST API、SOAP API、データベース、SaaSアプリ、ファイル、データウェアハウス、どこでも!
- ジョブ実行ロジックのオーケストレーション層
- 例:
- パイプライン 2 を開始する前にパイプライン 1 を完了しなければいけない。
- パイプライン実行の前にこのSQL文を実行する
- 例:
- Salesforceの高度な機能
- バルク(1.0および2.0)および SOAP API コネクタ
- 標準、カスタムを問わず、すべてのオブジェクトに格納可能
- データ格納の種類を選択:挿入/アップサート/更新/削除/ハード削除
- バッチサイズのカスタマイズ
- 最大許容エラー数の確定
- エラーをエラーログファイルに出力
2.Integrate.io で B2B データ共有をする理由
Integrate.io の強固なファイル処理とデータ変換機能により、このユースケースは顧客の間で最もよく使われている一つとなっており、ファイルや変換要件がどれほどエキゾチックなものであろうと、おそらくそれ以上のものを処理してきました!
ユースケース特有の Integrate.io の利点は以下の通りです:
- SFTP 用の双方向コネクタ
- すべてのファイルタイプに対応: Excel、CSV、Text、XML、BAI - 何でも対応可能!
- ファイルのデータ取り込みと準備
- データ変換なしでファイルを転送するファイル移動オプション
- 転送先のフォーマット: Delimited / Line Delimited JSON / Parquet
- 必要に応じて出力ファイルを圧縮 :なし/Gzip/Bzip2
- 転送先ファイル名のカスタマイズ
- ファイルやディレクトリの状態に応じた出力先アクションのカスタマイズ
- 出力を1つのファイルにまとめる
3.データ製品の強化のために Integrate.io を使う理由
Integrate.io の 60秒 CDC データレプリケーションで、企業はデータアプリケーションに必要なデータの鮮度と信頼性を得られます。
ユースケース特有の Integrate.io の利点は以下の通りです:
- 市場最速(60秒)のデータレプリケーション
- データベースのパフォーマンスに影響を与えない CDC ベースのレプリケーション
- パイプラインのアップタイムを保証:データ製品には信頼できるデータが必要であり、Integrate.io がパイプラインの積極的な監視や、確認された問題の解決または警告を行う。
- データ量に関係なく、遅延のないデータレプリケーション
- データウェアハウスからデータを公開するための API の即時生成
Integrate.io は分析 ETL も行うのではないのか
はい、企業の 分析 ETL のユースケースに対応できますが、Integrate.io が最適な分析ETL のユースケースもあれば、他のプラットフォームがより適しているケースもあります。
Integrate.io がかなり適している 分析ユースケース
- データウェアハウスにデータを格納する前に、ローコードでデータ変換を行いたい企業
- 大量の REST API やファイルをデータウェアハウスに取り込みたい企業
- データウェアハウスへの 60秒 CDC データベースのレプリケーションが必要な企業
Integrate.io がそこまで適していない 分析ユースケース
- 既製の SaaS コネクタを数多く備えたプラットフォームを求めていの企業。Integrate.io は第1層のネイティブコネクタはあるが、第2、第3層のロングテールコネクタには力を入れていない。
- dbt のようなものを使ってデータウェアハウスでデータ変換を行おうとしている企業。Integrate.io のレプリケーションはデータベースのレプリケーションに重点を置いているため、他の多くのソースをレプリケーションし、データウェアハウスで変換を行う必要がある場合は適していない。
まとめ
本記事が、オペレーショナルETL とは何か、オペレーショナルETL と分析 ETLの違い、そして Integrate.io の位置づけを理解する上でお役に立てれば幸いです。Salesforce、ファイル、REST API、リアルタイムデータレプリケーションのいずれかのユースケースがあるのであれば、Integrate.io が適している可能性が高いでしょう!
自身のユースケースについてのさらに詳しい情報をご希望の場合は、当社のソリューション・エンジニアにご相談いただければ、要件を理解した上で、弊社が適しているかどうかをお知らせし、もし弊社が適していない場合は、より適切なソリューションをご案内いたします。