ビッグデータには大きな可能性がありますが、その可能性を活用するためには、データ処理チームはデータセットの中身をどのように定義するかを理解しなければなりません。この定義のプロセスでは、データを最も効果的に活用するために、データの主要な側面を特定する必要があります。これらは一般的に「ビッグデータの7つのV」として知られています。しかし、場合によっては、「10のV」と呼ばれることもあります。

データセットの「7つのV」を知ることが、データ活用戦略の出発点となります。この情報を知れば、ビジネス目標を達成するためのシームレスなデータパイプラインを開発することができます。

1) Volume(データ量)

その膨大な量のデータこそが、「ビッグデータ」という名の由来となっています。しかし、実際にどのくらいのデータがあり、どのくらいの量を生み出しているのかご存知でしょうか?データの量が多いと、その情報をどのように管理し、変換するかについて、現在のデータセットにしろ、継続的な自動処理にしろ、決める必要があります。これは、ビジネスの規模が大きくなり、テクノロジーが発展するにつれて特に重要になります。そして、これは現在様々なデータ量を管理している中小企業と大企業に当てはまります。

今のデータ量は処理することはできるかもしれませんが、データが指数関数的に大きくなったときのことを先に考えておくのが賢い方法です。例として、相互接続されたデバイスからのデータだけを考えてみましょう。接続されているデバイスが3台、4台から20台、200台と増えていくと、データ量がどのように拡大していくのかを想像してみてください。

2) Velocity(速度)

どのくらい速くデータにアクセスすることができるでしょうか?Velocityとは、データがどれだけ早く入ってきて、どれだけ早くそのデータを利用できるかということです。データをビジネスインテリジェンスに変換するには、リアルタイムで行われるのが理想ですが、構造化されていないデータをどれだけ早く実用的なアナリティクスに変換できるかは、多くの要因によって決まります。

その要因には、データパイプラインの効率性も含まれます。例えば、一部の企業は、データレイクハウスを使用する方が、データレイクとデータウェアハウスの機能を1つにまとめることができるため、より効率的です。データレイクハウスを利用することで、データの処理と利用のスピードを上げることができます。

ビッグデータのスピードには、目に見えるビジネス効果があります。これは例で示すのが一番いいでしょう。あるフードデリバリー会社は、Google Adwordsキャンペーンの開始を計画しているおり、投資収益率を最大化するために、そのキャンペーンに売上の見込みを反映させたいと考えています。スポーツファンが大きな試合中に食べ物を注文することを知っているその会社は、試合の最初の45分間の販売量をモニターすることで予測される販売量を決定し、選手がまだフィールドでプレーしている間に広告キャンペーンを開始します。

こうした迅速な対応を実施するには、ビッグデータをほぼリアルタイムで活用する必要があります。リアルタイム処理能力がすでに備わっていなければ、これはほぼ不可能な作業です。

3) Variety(多様性)

通常、データは多くのさまざまなソースから得ることができます。その結果、多様性が生まれます。つまり、データは構造化されていたり、半構造化されていたり、非構造化されていたりします。データ変換プロセスの前に、そして時にはデータ変換プロセス中に、一貫性のあるデータを開発することは重要な要素の一つです。さまざまなソース、特にデータレイク(通常は非構造化)、データウェアハウス(通常は構造化)、データレイクハウスに保存されたデータにアクセスする場合、一貫性を確保することが非常に重要です。

4) Variability(変動性)

構造化データと非構造化データの違いに加えて、すべてのデータが同じように動作するわけではありません。さまざまな速度でアップロードされます。データには、さまざまなデータタイプが含まれていることがほとんどです。典型的なフレームワークに収まらない情報が多数含まれているかもしれません。Variabilityの性質と度合いを理解することは、データ処理の計画を立てるのに役立ちます。

5) Veracity(正確性)

データの強さは、データセットの信頼性につながります。正確性とは、データソースの信頼性と重要性、情報の信頼性、ビジネスケースとの関連性を指します。正確性は精度と似ているかもしれませんが、データセットに含まれるエラーの数だけではありません。変換パイプラインで実行されるデータの品質に関係しています。

正確性は、企業によって変わります。データソースは、実績があれば正確性が高く、まだよく知られていないものであったり、あまりうらやまれるような実績がなければ正確性は低いかもしれません。例えば、ある企業では、ある製品を購入する消費者と、その顧客が追加のトレーニング・プログラムに申し込む可能性との間に強い相関関係があることがわかるかも知れません。その製品を購入した顧客のリストは、トレーニング・プログラムのマーケティング・キャンペーンを目的としたものであり、高い正確性を持っています。ビッグデータ処理の最終目標がトレーニングプログラムのビジネスを後押しすることであれば、その特定の顧客リストは高い正確性を持っていると見なすことができるでしょう。

6) Visualization(可視化)

ビッグデータは1つだとして、そのデータが何を表しているかを知ることは全く別物です。データセットが一般的なものであれば、何百万、何十億もの情報があるかもしれません。それは、企業内のユーザーにとって意味のあるイメージに変換されるべきです。生データをどれだけ簡単に、関連性があり実行可能なビジュアルに変換できるかを自問自答してみてください。

この概念を理解する最も簡単な方法は、ビッグデータに関しては、従来の可視化技術の限界を認識することです。エクセルのスプレッドシートのような標準的なソフトウェアツールを使用して、シンプルで小さなデータセットをプロットすることは簡単です。例えば、一定期間の株価を追跡するグラフがあります。データと価格の2つのポイントがあり、結果的に素早く簡単にグラフを作成することができます。

ビッグデータに関して言えば、2つのポイントだけのデータよりもはるかに多くのデータを持つことができます。何十億もの関連するポイントを簡単に手に入れることができます。しかし、これでさえ、ちょっとした工夫で可視化することができます。グラフの代わりに、ツリーマップやデータをサブセットに分類し、正確で使いやすいビジュアルを提供することができます。

7) Value(価値)

データ変換プロセスに着手する前に、その価値があるかどうかを知る必要があります。このデータは最終的に何を提供するのか?「あれば便利な情報」と「必要不可欠な情報」を区別する準備をしておきましょう。「あってよかった」情報は投資対効果をもたらす可能性がありますが、データ戦略プロジェクトは、ビジネスの目的に応じて最高の利益をもたらしてくれるものにフォーカスするのが最善の方法です。

追加の3つのV

これらはビッグデータの「7つのV」ですが、多くのコメンテーターはさらにいくつかの要素を追加しています。これらは、新しいプロジェクトに着手する前にデータセットを評価するための追加要素です。具体的には、妥当性、脆弱性、揮発性のことです。

Validity(妥当性)

妥当性は、正確性よりも少し狭義だと考えることができます。これは、データ変換プロセスの間に削除または修正しなければならない誤った情報の量を指します。データの正確性は、データのクリーニングに費やす時間に直結します。

データがどの程度きれいか汚れているかを判断するには、少量のサンプリングで分析することができます。これは手動で行う場合もあります。その場合、データサイエンティストがデータを読み取って、その妥当性のレベルを判断します。また、企業によっては、インテリジェントな提案を活用し、可能性のあるエラーを発見し、除去するためにAIを活用したデータの「スクラビング」ソリューションを導入しているところもあります。

データサンプルを分析後は、合理的な判断を下すことができます。たとえば、Salesforce データベースから得られるデータは、顧客向けの E コマース Web サイトから得られるユーザからの情報よりも、エラーや誤った情報が少ない場合があります。

Vulnerability(脆弱性)

セキュリティ・チームは、すでにデータ・セキュリティを熟知しているはずです。セキュリティチームは、特定のデータセットやデータパイプラインに沿った特定の場所がサイバー攻撃に対して特に脆弱であるかどうかを教えてくれるかもしれません。データセットに個人や個人の顧客情報が含まれており、特定の法的規制に該当する場合には、セキュリティ上の懸念は非常に重要です。

Volatility(揮発性)

「揮発性」という言葉の定義には様々な方法がありますが、本来の目的としては、「データが劣化するのはいつなのか」ということに尽きます。データは貴重なものであり、古い情報は単にアーカイブする必要があるかもしれません。しかし、古くなったり、時代遅れになったり、無関係になったり、不正確になったりすることもあります。古くなった情報や無関係な情報は、そのような情報であることが明確に特定されていない場合には、多くのリスクを伴います。これらのリスクには、古い住所の顧客へのリマーケティングから、古い人口統計情報や販売情報に基づいた製品展開戦略の立案まで、あらゆるものが含まれます。

幸いなことに、このようなビッグデータの誤った使用を防ぐことができます。データの年齢と関連性を慎重に検討し、その有効期限と古い情報をどうすべきかを決めましょう。

なぜビッグデータの7つのVを知っておくべきか?

ビッグデータのこれらの要素は、単なる知的なエクササイズではありません。データを効率的に処理するためには、これらの要素を知ることが重要です。具体的には、データを操作するための適切なツールを見つけたり、この新しいデータに基づいてワークフローを開発したり、データの信頼性を維持するためのガイドラインを見つけたりするのに役立つのが「7つのV」です。これにより、ビッグデータは、戦略的で収益性の高い意思決定を行うために必要なアナリティクスとビジネスインテリジェンスを提供してくれます。

適切なツールを見つけることは、最適なデータパイプラインを開発することにつながります。あなたのデータパイプラインにはETLまたはELTが含まれます。Integrate.ioは、このプロセスを完成させるためのマーケットで最も信頼されているプラットフォームの一つです。Integrate.ioがユーザーフレンドリーなインターフェイスと優れたプラットフォーム機能を通じて、どのようにデータパイプラインを改善できるかを知るには、ぜひオンラインデモにお申し込みください。