鉱山の奥深くに埋もれている未精製の金のような生のデータは、現代のビジネスにとって貴重な資源です。しかし、そのデータから利益を得るには、データ変換のプロセスが必要です。

データ変換とは、データを抽出し、データをふるいにかけ、データを理解し、分析可能な形に変換するプロセスです。 そこでETL(抽出、変換、ロード)パイプラインの出番です。ETLプロセスにおける重要な段階として、データ変換は、ビジネス・インテリジェンス・プラットフォームが情報からアクションにつながるインサイトを導き出すため、やり取り可能なフォーマットやスキーマに変換するのに必要となります。

良質なデータは、伸び悩んでいるビジネスを効果的に成功させることができます。

グローバル市場において、良質なデータはダイナミックなビジネス分析を可能にし、ビジネスの俊敏性を高めてくれます。本質的には、良質なデータはサプライチェーンの効率性と顧客満足度を高めます。

反対に、質の悪いデータは、CTO、BIの専門家、開発者をぐっすり眠らせてくれない悩みの種となっています。質の悪いデータとは、疑わしい、欠落している、または欠陥があるデータのことです。また、非常に危険なデータでもあります。実際、質の悪いデータは誤った意思決定や利益の損失につながる可能性があります。Gartnerによると、データの質が悪いことで、企業は年間数百万ドルの収益分のコストを負っています。この金額こそがデータ変換の重要性を証明しています。

しかし、インサイトのバリューチェーンは、最も弱いデータリンクと同じくらい強度しかありません。KPMGによると、CEOの71%が信頼できないデータからのインサイトを無視したことがあると答えています。BIの専門家が、実際の分析に従事する前にデータの準備(クリーニングと変換)に80%の時間を費やしているのも頷ける結果です。

しかし、データ変換がどれほど不可欠なものであるかは、データエンジニアとデータサイエンティストだけしか理解していないのではないでしょうか。みなさんとみなさんのチームにデータ変換の重要性を理解してもらうために、今回は以下のトピックを取り上げたいと思います。 

  1. What is Data Transformation?
  2. データ変換のタイプ
  3. データ変換における課題 Top4

What is Data Transformation?

生データやソースデータはよく以下のような問題があります。

  • 矛盾: 関連するデータと無関係なデータの両方が含まれている。
  • 不正確:不正確に入力された情報や欠落した値が含まれている。
  • 重複: 重複したデータが含まれている。

データ変換とは、これらのソースから信頼性の高い良質なデータを抽出するプロセスです。これには、データをある構造(または構造のない構造)から別の構造に変換して、データウェアハウスや別のアプリケーションと統合できるようにするのも含まれます。これにより、高度なビジネスインテリジェンスツールに情報を公開して、価値のあるパフォーマンスレポートを作成したり、将来のトレンドを予測したりすることができます。

データ変換には、データの理解とマッピング、データの変換という2つの主要な段階があります。

Stage 1: データの理解とマッピング

データ変換の第一段階では、データソースを特定して検討します。データソースの例としては、以下のようなものがあります。

  • 様々な業務システムに接続されたデータベース
  • 会計ソフト
  • CRMプラットフォーム
  • ストリーミングソース
  • 顧客ログファイル
  • ウェブアプリケーションデータ
  • モバイルアプリの利用統計に関連する情報

データソースを特定したら、それぞれがどのようなデータ構造を持っているか、そしてそれらを接続するために必要な変換の種類を決定します。以下のような質問をしてみましょう。

  • 列と行はどのような感じか?
  • どのようにラベル付けされているか?
  • どのような情報が含まれているか?
  • あるデータ・ソースの情報は、他のソースとどのように関係しているのか? 

次に、データマッピングを実行して、さまざまなデータ ソースのフィールドがどのように関係しているか、また、どのようなタイプのデータ変換が必要かを定義します。 

Stage 2: データ変換

データ変換の第二段階では、第一段階でマッピングしたさまざまなデータ変換を実行します。これを行うには、いくつかの戦略があります。 

  • ハンドコーディングによるETLソリューション: 従来は、SQLやPythonでコードを手書きすることで、スクリプトを使ってETLプロセスをセットアップしていました。これは、オフサイトの開発者に与えられるタスクであり、それは時間のかかるプロセスでした。また、オフサイトの開発者は要件を解釈しなければならなかったため、プロセスはよく誤解や意図しないエラーを引き起こしていました。

  • オンサイトサーバーベースのETLソリューション: オンサイトETLソリューションは、オンサイトのサーバーを介して情報を抽出、変換、およびオンサイトのデータウェアハウスにロードするために動きます。ほとんどの企業は現在、クラウドベースのデータウェアハウスとETLソリューションに移行していますが、オンサイトETLにはまだその役割があります。オフサイトスクリプティングソリューションと比較して、オンサイトETLは、エンドユーザーによる監視が容易になるという利点があります。しかし、それを管理するために専門スタッフを雇う必要があるかもしれません。 

  • クラウドベースのETLソリューション: Integrate.ioのようなクラウドベースのETLソリューションは、データ変換の未来の形です。これらのソリューションは、オンサイトのサーバー上ではなく、クラウドで動作します。これらのソリューションは、SalesforceのようなクラウドベースのSaaS(Software as a Service)プラットフォームをAmazon Redshiftのようなクラウドベースのデータウェアハウスにリンクさせる場合に特に便利です。また、オンサイトのビジネスシステムをクラウドベースのデータウェアハウスに統合するのにも役立ちます。多くの企業は、エンドユーザーがデータ変換を簡単に操作・制御できるように、ドラッグ&ドロップ式のグラフィカルなインターフェースを特徴としています(データサイエンスの専門知識がなくても)。さらに、データが必要とする変換を自動的に実行する自動統合機能も提供しています。

データ変換のタイプ

以下に、あなたのETLプラットフォーム、またはあなたのデータチームがETLプロセス中に実行するであろう変換の種類をリストアップしました。これらのタスクの大部分は、データ変換プラットフォームを使用することで自動的に実行することができますが、場合によっては自身でETLプロセスを設定し、コード化する必要があるかもしれません。 

翻訳に際して詳細は割愛します。(上記リンクからご確認ください。)

データ変換における課題 Top4

最近の調査によると、企業はデータドリブンのゴールに対して遅れをとっています。調査参加者の72%が社内のデータ文化を形成できておらず、52%が競争力を維持するためにデータとアナリティクスを活用していないと答えています。

なぜ企業は目標を達成できていないのでしょうか?いくつかの可能性が考えられます。

  1. 人材のギャップは克服できないかもしれない: インフラストラクチャにもよりますが、データの変換には専門家のチームやオンプレミスのインフラストラクチャへの多額の投資が必要になる場合があります。データ変換のプロセスを最適化するために、新しいツールが進化しています。しかし、ビッグデータ技術をうまく使いこなすには、知識と才能の両方が必要です。
  2. データの準備と移行のプロセスは複雑で時間がかかる: データサイエンティストやBIの専門家は、データ準備のプロセス(変換前)に時間の3分の2以上を費やしていると主張しています。2017年のCrowdflowerのレポートによると、データサイエンティストはデータのコンパイル、クリーニング、整理に51%の時間を費やしています。また、データセットの収集やパターンを特定するためのデータマイニングにも30%の時間を費やしているとされています。
  3. 適切なツールがなければ、データ変換は不慣れな人にとっては困難なプロセスである: 理想的には、変換を開始する前にデータ探索とマッピングを行う必要があります。適切なロードマップがなければ、データ変換というすでに困難な作業は、より困難なものになります。しかしながら、適切なツールと専門知識がない場合は、ロードマップとワークフローの作成は不可能かもしれません。
  4. 持続可能で耐障害性のあるデータパイプラインを開発するには、多くの場合、合意形成が必要になる: 多くの企業にとって、効率的なデータ・パイプラインを構築するには、主要な利害関係者の広範な協力が必要です。パイプラインの構築に先立ち、データ収集と変換プロセスに関するコンセンサスが必要になることは多くあります。これは、言うは易く行うは難しです。

さらに、パイプラインはスケーラビリティと機能性をサポートするための変更に簡単に対応しなければなりません。ETL地獄への道は広く、スキーマの進化をサポートするための効率的なメカニズムがない場合は特にそうなると言えます。

Xpelntyを使うことでデータ変換を効率的に

コードを書くか書かないか、それが問題です。Integrate.ioを使えば、バグを修正するためにPig、SQL、Javaのコードを扱う必要はありません。私たちのクラウドベースのETLプラットフォームは、基本的な変換から高度な変換までを簡単に実行することができます。

Integrate.ioは俊敏性を高めてくれます。Integrate.ioでは、複数のデータソースを統合し、リアルタイムでデータから洞察を得ることができます。つまり、信頼できるデータを使用してアルゴリズムを最適化し、ビジネスの俊敏性を達成することができます。もう一つの利点は?適切なETLプラットフォームは、運用コストとCapExコストを節約することができます。Integrate.ioのソリューションはクラウドベースなので、高価なインフラを維持するためにIT人材に頼る必要はありません。

最後に、Integrate.ioはネットワーク、システム、物理的なセキュリティを提供し、SOC2に準拠しています。物理インフラはAWSの技術を利用しており、ISO 27001、Sarbanes-Oxley、PCIレベル1、SOC 1とSOC 2/SSAE 16/ISAE 3402の認定を受けています。また、このプラットフォームは国際的なプライバシー法にも準拠しています。