データレイクについて
データレイクは、基本的には無限のリポジトリであり、その価値やフォーマットを考慮せずデータを投入することができます。データレイクは、構造化されていないデータ、構造化されたデータ、履歴データをユーザーが必要とする分だけ保存することができるため、将来的に必要になるかもといったデータを保存するには最適です。
しかし、データレイクは自由度が高いからといって、すべてのデータを単純にデータレイクに捨てればいいというわけではありません。もしそうした場合、データレイクが現在のビッグデータ問題の一因になってしまう危険性があります。このブログでは、データレイクに保存されているデータが分かりやすく、有用で、妥当なものにするために、データレイクを構築する方法について解説します。
データレイク: なぜビジネスに有用なのか?
データレイクでは、データは元の形式のまま、または非常に基本的な「クリーニング」プロセスを経た後、他のデータソースに変換や統合されることなく保存されます。このため、データレイクは、完全に構造化されていないデータと高度に構造化されたデータの両方を含む、幅広いデータを保存することができます。この種の非構造化ストレージ(Amazon S3のようなもの)は比較的安価であるため、多くの企業にとってレイクは比較的費用のかからない選択肢となっています。
さらに、コストが安いため、データは無期限にデータレイクに保存することができます。そして、データレイクからデータを抽出する際には、必要なデータのフォーマットを決めて取得することができます。
この自由度の高さにより、データレイクは非常に柔軟性の高い場所として機能し、データレイクに保存されているデータに対してより幅広い分析を行うことができます。具体的には、ソーシャルメディアの投稿やカスタマーサポートのコールノートなど、データレイクを利用することで、データサイエンティストやユーザーは、これまでアクセスできなかったデータを分析することができます。
データレイクは潜在的に素晴らしいツールだと言えます。しかし、これはデータが何らかの形で危険にさらされていない場合にのみ可能です。さらに、データ自体は変換も統合もされていないため、一般的にはデータの分析には、構造化されたウェアハウスよりも時間がかかります。
では、これらの潜在的な問題を回避し、データレイクを最大限に活用するにはどうすればよいのでしょうか?次の章で細かくみていきましょう。
成功につながるデータレイクアーキテクチャを構築する
従来のデータウェアハウスでは、データは変換され、標準化され、分析ですぐに使えるように統合されます。ウェアハウスではこうしたやり方は有効ですが、それをデータレイクで同じようにクレンジングと標準化を行うと、有用な情報を失うことになりかねません。
店舗の倉庫と、何年もほったらかしの巨大なストレージスペースのようなものをイメージしてください:あなたはすでに多少は、店舗の倉庫に何の在庫があるかを知っていて効率的に仕事ができ、より把握しやすいように整理されています。しかし、何年もほったらかしのストレージスペースとなると話は変わってきます。何が入っているのか、特定の物がどれくらいの価値があるのか、正確にはわかりません。つまり、単純にモノと同じように整理して、異常値を取り除いてしまうと、あなたにとって有益な情報の宝庫を捨ててしまうことになるかもしれないのです。
それを防ぐには、カオスを制御し、柔軟で論理的なデータレイク・アーキテクチャを構築する方法を学ばなければなりません。
Related Reading:
The Ultimate Guide to Data Architecture
データレイクとデータウェアハウス:7 Key Differences
1. データレイクアーキテクチャーを決める
データレイクは通常、Hadoopなどのビッグデータプラットフォームと自作のツールを組み合わせて作成されます。例えば、多くの企業は、Hadoopとリレーショナル・データベースを組み合わせたハイブリッド・アーキテクチャを選択しています。これは、リレーショナルデータウェアハウス(現時点では大多数を占める)を持っている企業にとっては理にかなっていますし、現時点では大多数の企業がそうしています。
SEE ALSO: Data Lake vs Data Warehouse: 7 Critical Differences
データレイクの作成をどのように始めるかを決める際には、何があなたのビジネスに最適なのかを検討することが重要です。現在、分析が十分に行われていないデータはありませんか?割れ目から抜け落ちているのは何でしょうか?多くの情報を発信していて現時点で十分に活用できていないソースはありますか?
特に過去のデータには、隠された気付きが含まれていることがあります。例えば、サポートへの問い合わせデータは、最初にオープンされた時から作業中、最終的に解決されるまで、一連のステータスを経て処理されています。解決後には、製品レビュー、ロードマップ上の製品機能、機能開発、製品への一般的なリリースなど、さらにステータスが変化することもあります。データレイクは履歴データの保存にほとんど制限がないため、1つのサポートチケットは、これらのステータスの変更ごとに1つずつデータレイクに多くのレコードを持つことになります。
過去履歴レポートのためのサポートチケットのこの包括的な履歴ビューは、チケットが処理されている間のサービス品質を正確に評価するのに役立つかもしれません。もし皆さんがカスタマーサービスやユーザーエクスペリエンスを向上させたいと考えているのであれば、このような情報を分析するのが良いでしょう。このような情報は、適切なデータのみを保存することに重点を置くデータウェアハウスでは失われてしまうかもしれません。
その場合の目標は、自社のビジネスにおけるより大きな分析業務とニーズをしっかりと理解し、データレイクを使用してそうした大きな目標の達成を支援することです。
構築したいデータレイク・アーキテクチャの種類を選択したら、適切なデプロイと実装のために従うべき多くのベストプラクティスがあります。
2. データレイクのベストプラクティスに従う
無駄なデータを入れない
データレイクは非常に柔軟性に富んでいるため、多くの人はデータの構成や構造を考慮せずに、現時点で必要のないデータをただ単に「捨ててしまう」傾向があります。これでは、ユーザーはデータレイクをナビゲートするのが非常に難しくなり、蓄積されたデータが無駄になってしまう可能性が高くなります。
SEE ALSO: DATA HOARDING: A BAD HABIT COMPANIES NEED TO OVERCOME
管理プロセスを作り、データレイクゾーンを設定する
これを回避するために、新しいデータをレイクに入れる際の管理されたプロセスなど、いくつかのルールを実装してください。データはクレンジングや変換されるべきではありませんが、プロセスは必要です。このプロセスを定義する際には、より大きな目標を念頭に置き、データレイクを自社でうまく機能するようにすることを忘れないでください。
次に、情報を整理し、論理的でアクセス可能な状態に保つために、データレイク内にゾーンを設定するのが効果的な方法です。標準的なゾーニング手順には次のようなものがあります。
- Transient zone:一時的なコピーのような短命のデータを保持するために使用されます。
- Raw zone:未加工データが維持され、機密データがトークン化、暗号化、またはその他の方法で保護される場所。
- Trusted zone:一旦データの品質が検証され、検証されると、このゾーンでは「真実のソース」になります。
- Refined zone:加工されて強化されたデータが保管されている場所です。
データレイクをきれいに維持するためには、物理的または論理的に分離されている必要があります - 異なるサーバー上で、特定のアクセス権限と共に。
データのプライバシーとセキュリティを維持する
アクセス権については、ロールベースのアクセス制御、権限付与、データの暗号化などのセキュリティ対策を常に確立するようにしてください。このような制限は、最もraw formのデータを保護し、無秩序になったり混乱したりするのを防いでぐれます。
変更管理
これは、おそらく最も困難であり、最も必要となるベストプラクティスです。データレイクが大きくなり、さまざまなソースから新しい情報を取得し続けると、データセット内でもデータセット間でも関係を維持することがますます重要になってきます。これは複雑なプロセスであり、あなたのアクティビティログ(誰が、いつ、何をして、データレイクに変更を加えたか)と、データセットおよびフィールドがどのように他と関連しているかといったようなシステムの両方をトラックする必要があります。これには、すべてのソースを監視し、基本的にデータに触れるものすべてを監視することも含まれます。
たとえ100%完璧にできなくても、ここで重要なのは、できる限りのことをすることです:不完全なトラッキングであっても、ギャップを埋めるのに役立ち、データレイクの柔軟性と拡張性を維持することができます。つまり、常に有用であり、悪い問題にはならないということです。
全体的に、データレイクの目標は、体系的で論理的で明確であることです。これは直観的ではないように思えるかもしれませんが、データレイク固有の自由と柔軟性があることを考えると、障害というよりはむしろ道具としたいのであれば、これは不可欠です。
何から始めればいいのかわからない場合、または何かサポートが必要な場合は、お気軽にお問い合わせください。Integrate.ioの専門家がデータの保存と統合プロセスをお手伝いしますので、お客様はコアビジネスの業務に集中できるようになります。
データレイクの構築にIntegrate.ioがどのように役立つかについて詳しく知りたい方は、是非オンラインデモをお申し込みください。