IDCs Global Datasphereによると、2020年だけで64.2ZBのデータが作られました。この数は、2020年から2025年にかけて毎年23%ずつ増加すると予測されており、そのため、効率的なデータ管理と制御のためのデータガバナンスのフレームワークが必要になってきます。そして、それによってこのような大量のデータから最大限の価値を引き出すことができるようになるでしょう。
このようなフレームワークは、データの完全性、データ保護、データセキュリティのために必要とされるでしょう。実際、BDOによると、データ侵害の平均コストは約380万ドルと推定されています。
モルドールインテリジェンスが、データガバナンスの市場規模が2026年までに52億8000万ドルに達すると予測しているのも当然といえるでしょう。では、データガバナンスについてもう少し深く掘り下げてみましょう。
データガバナンスとは
データガバナンスの定義は、世の中にかなり多く存在します。
オットー氏(2011b)によると、データガバナンスとは、『データを企業のアセットとしてどのように扱うかを定めるフレームワーク』です。
同様に、エイブラハム氏ら(2019)は、データガバナンスとは『データの管理に対する統制と権限の行使である』とし、コルタイ(2016)は、データガバナンスとは『特定のシステムに従って決定権や責任を割り当てる意思決定と権限の行使である』と定義しています。
データガバナンスが現代のデータスタックに重要な理由
チョン氏 とチェンジ氏 (2007)は、『優れたデータガバナンスはデータの品質と効果的なデータ管理を保証するだけでなく、それによって企業はデータに関する取り組みを企業の目標に合致させることができる』と述べています。また、データガバナンスによって組織のさまざまな部分からの連携が促され、それによって、チームの同期が保たれ、組織全体でデータの一貫性が失われるのを防ぐことができます。
AIやML(機械学習)の普及がますます進む中、データガバナンスの重要性はさらに高まっており、GPAI(AIに関するグローバルパートナーシップ)によると、データガバナンスが悪いと、AIの取り組みに大きな弊害がもたらされることもあり得るといいます。
例えば、採用のためにAIツールを使っている企業は、そのモデルが偏った結果を出していることに自分で気づくこともあるかもしれませんが、優れたデータガバナンスがあれば、AIモデルに与える前に、基礎となるデータセットを適切に検査し、固有の偏りを取り除くことができます。
データガバナンスのポリシーとは
アルバディ氏ら(2018)によると、データガバナンスのフレームワークやポリシーは、データの整合性、可用性、セキュリティ、ユーザビリティ、一貫性、監査可能性の管理に使える標準や手順で構成されています。
一方、カトリ氏とブラウン氏 (2010)は、ガバナンスポリシーは、5つの意思決定領域(後述)で構成され、データガバナンスのためのハウツーガイドを形成しているとしています。
企業にデータガバナンスポリシーが必要な理由
ヤンセン氏ら(2020)は、ビッグデータの台頭により、組織がAIやMLの取り組みを促進するためにBDAS(ビッグデータ・アルゴリズム・システム)を利用することが増えていると主張して、データガバナンスポリシーの必要性を正当化しており、実際BDASはローン助成金や入学判定など、さまざまなユースケースで役立っています。
しかし、それにはさまざまなリソースからの膨大な量のデータが必要なため、社内外からデータを調達することになり、コンプライアンスや管理の問題が発生する可能性があります。
実際、マッキンゼーによれば、GDPR(一般データ保護規則)などの規制要件の高まりに対して、データガバナンスはコアコンピタンスの元になるといいます。
データガバナンスフレームワークの決定領域
いいデータガバナンスのフレームワークは、ある種の要因の上に成り立っていますが、その前に、先に述べたようなデータガバナンスの意思決定領域を理解することが、より重要です。
フー氏ら(2011)は、このようなドメインについての包括的な説明をしています。まず、データガバナンスのフレームワークの最上位に位置するのが、『データ原則の領域』であり、これはデータの目的と目標を定め、組織のデータアセットから最大の価値を得るためにデータの使用を指示するものです。
データ品質は、あらゆるガバナンスフレームワークの重要な要素です。AIやMLのコンテクストでは、データ品質が低いと偏った予測につながり、誤った意思決定が起こってしまう可能性があります。もちろん、データ完全性やデータインテグリティ、データ精度など、データ品質に含まれるさまざまな領域にも対処が必要です。
次に、メタデータ管理です。これには、データの発見と利用を簡潔にするための様々な取り組みが含まれています。基本的にメタデータは、例えば、「物理ストレージのメタデータは、物理ストレージのソースについてユーザーに説明する」というように、特定のカテゴリに従って他のデータソースを記述します。
来歴のメタデータには、データソースの作成者、作成日、変更の詳細に関する情報があり、ドメイン固有メタデータには、販売、財務など、ビジネス機能に特化した情報があります。
次に、データアクセスです。この領域では、誰がどのようなデータにアクセスできるか、またアクセス要求がどのように処理されるかについて、アクセス基準の概要を説明します。これは規制遵守のために不可欠なものです。
最後に、データライフサイクルの領域では、データの作成、データ処理、データ保存、データ使用、データアーカイブ、データ破棄の段階が含まれます。カトリ氏とブラウン氏(2010)は、データガバナンスは、保管コストを最小限に抑えるために、データが各ステージでどのように移動するかを決定する必要があると述べています。
データガバナンスフレームワークの4本柱
このような領域を念頭に置きながら、いいデータガバナンスプログラムには、少なくとも『人』、『プロセス』、『貢献者』、『テクノロジー』の4つの柱があります。
『人』または『データスチュワード』は、組織内のデータガバナンスを推進する主要な人物であり、各チームのデータ要件の特定、必要なスキルセットの評価、トップマネジメントの賛同獲得を行います。
『プロセス』には、効果的なデータ管理のためのポリシーと標準が含まれ、目標やKPIの確定や、進捗を測定するためのメトリクスの確立という形で行うことができます。
『貢献者』は、IT専門家、アナリスト、データオーナーなど、あらゆるステークホルダーがなれ、データガバナンス戦略全体が確実に正しい方向に向かっているようにするためのガイドとして動きます。
最後に、『テクノロジー』は、適切なデータプロファイリング、データリネージ、データパイプラインの自動化などを実現するデータガバナンスツールに関係します。
データガバナンスのベストプラクティス&ヒント - いいデータガバナンスポリシーの書き方
効果的なデータガバナンスは、一晩で実現できるものではありません。データガバナンスを確実に成功させるには、ベストプラクティスにいくつか従う必要があります。
マッキンゼーは、卓越性を推進するためのデータガバナンスのベストプラクティスを6つ挙げています。まずは、Cレベル(経営幹部レベル)のエグゼクティブを巻き込むことです。最高データ責任者がデータガバナンスのイニシアティブを取り、その重要性と課題を浮き彫りにする必要があるのです。
そして、組織全体のデータガバナンスの取り組みを指揮し、ビジネス目標との整合性を確保する上級管理職のメンバーからなる「データガバナンスチーム」の結成が必要です。
このチームは、データ標準を日々実施するためのデータスチュワードとして機能するSME(主題専門家)を選ぶといいでしょう。彼らは、データガバナンスプロセスが確実に守られるように、注意が必要なデータ要素やデータの問題を確定してくれます。
データスチュワードには、目標を測定するためのメトリクスの確定も含まれ、それは「非効率的なデータガバナンス構造がいかに収益損失につながるか」を強調することで、経営トップから常に支持を得るということにもなります。
その方法として、1つは「高品質なデータから恩恵を受けることができる既存のプロジェクトと目標を結びつける」というのがあります。たとえば、組織がERPシステム(統合基幹業務システム)のアップグレードを計画している場合、効果的なERPシステムというのはデータ品質に大きく依存することから、優れたデータガバナンスが不可欠になります。
さらに、組織は小規模から始めるべきであり、テストのために特定のビジネスユニットの重要なデータアセットを特定することによってすべてを一度に行うのは避けるべきです。
例えば、特定のビジネス領域における機密データは最初に対処されるべきであることなど、データアセットの重要性は、様々な観点から判断するといいでしょう。
最適なポリシーの決定には、組織はデータの複雑さと規制要件のレベルの評価が必要であり、データセキュリティに関する規制が高くて企業データが複雑であればあるほど、データガバナンスポリシーはより包括的なものになります。
その目的は、価値の創造とリスクの軽減の間で適切にバランスを取ることですが、価値創造が高まるほどデータへのアクセスが広くなる一方で、リスク軽減はマスターデータの集中管理ということになってデータの利用が制限されることから、この2つの目標は相反するものです。
とはいえ、ポリシーのデザインは(1回こっきりでなく)繰り返し行われるプロセスであるべきです。どの組織も最初からうまくいくとは限りませんし、データ標準やプライバシーに関する法律が進化し続ける中でも同じことが言えます。日々、さまざまな種類のデータが生成される中、ガバナンスのフレームワークは随時適応していけるようにすべきなのです。
最後に、データスチュワードは、組織のさまざまなステークホルダーの積極的な参加を確保するために、明確なビジョンの策定が必要です。
優れたデータガバナンスのフレームワークの目的達成の限界とは
アルハッサン ら(2019)は、誰にでもできるガバナンスフレームワークに不可欠な成功要因を6つ定めていますが、誰にでもできるといえども、さすがにすべてを正しく理解するには多少の労力が要ります。
従業員の能力を考慮しましょう。ガバナンス戦略は、それを作る人によってその良し悪しが決まります。力不足な人がすると、ガバナンスプログラムの拡大が妨げられるだけでなく、データのワークフローに非効率性がもたらされるでしょう。
ただ、それだけではありません。他のガバナンス戦略と同様、プロセスや手順を明確にすることも重要です。なのに組織はこの点を見落としがちで、それがチームの間に多くのフラストレーションを引き起こす可能性があるのです。
さらに、最新のツールに投資し続ければいいというものでもなく、それよりも、適切なツールへの投資が重要です。コストに見合う価値のあるITシステムが優先され、ベンダーの営業に惑わされないようにすべきです。しかし悲しいことに、ベストなものを手に入れようと急ぐと、組織は誤ったソリューションを採ってしまいます。
次に、データポリシーの遵守のしやすさです。データプライバシーを保護しようとすると、ポリシーが非常に煩雑になり、最も単純なタスクでさえも摩擦が生じてしまいます。
また、経営トップが関与しないことで、ガバナンス実現のための責任者の役割と責任が曖昧になることもあります。
組織は、時としてガバナンスチームを遠ざけようとする間違いを犯しますが、このようなやり方では、ガバナンスは単なる言葉の羅列になってしまい、熱意があまり伝わりません。
最終的に、データは当たり前のものだと思われがちです。大量に存在するため、その重要性が薄れてしまうのです。
データガバナンスの主な責任者は
まず、データガバナンスは最高データ責任者の職務内容に含まれると思われるかもしれませんが、それはおそらく短絡的な見方です。
一国の統治に多くのステークホルダーがいるように、データガバナンスにも世界の人口と同じように様々なステークホルダーが関わってきます。
2020年GPAI(AIに関するグローバルパートナーシップ)のレポートでは、これが完璧に説明されています。もちろん、ガバナンスが必要な理由を問うところから始まり、データ品質と規制遵守の達成という明確な答えが返ってきます。ただ、このような規制は誰が作っているのでしょうか?
そしてここからが、ポリシー制作者の出番です。彼らは、データ市場を規制して搾取を回避することを目的とする一方で、データサイエンスの技術について従業員を教育するよう組織に義務付けています。データガバナンスは、このような政策や意識向上プログラムへの対応による当然の結果なのです。
民間レベルでは、組織は顧客のプライバシーを保護することによる社会的責任の維持が必要であり、顧客管理をより効果的に行うためのデータモデルの開発も必要です。また、組織がより包含的になると、ガバナンスチームだけでなく、さまざまな部門の従業員もポリシーの策定に参加するようになります。
また、一般市民さえもそれに関わっているとも言えます。より包含的な社会であれば、関心を持ったメンバーがデータセキュリティに関する法律をより厳しくするよう政策立案者に働きかけを行うでしょうからね。
国際社会からの圧力が、データガバナンス構造を形付け、整えることもあります。このグローバル化の時代において、組織は常に国境を越えて規模を拡大し、国境を越えた顧客にアピールしながらグローバルなデータ標準を満たすことが求められているのです。
また、国連などの機関は、すべてのステークホルダーが公平に競争できるように、より公平な社会の目標を設定することで、ガバナンス政策に影響を与えています。
ETLデータガバナンスの導入のためのIntregate.io
データガバナンスの重要性について述べてきましたが、組織にデータガバナンスのフレームワークが必要な理由は明らかですね。
また、前述したように、テクノロジーはガバナンス戦略の大きな柱の一つです。このことを念頭に置き、integrate.ioがお手伝いします。
Integrate.ioは、データパイプラインを最適化し、データウェアハウスがデータ漏洩の被害を受けやすい「データジャングル」とならないようにする最先端のデータ統合ツールです。
ローコードでETLのパイプラインを速やかにに実装し、貴重な顧客インサイトを得ることができます。
準備はいいですか?担当者にお問い合わせ頂き、ぜひintegrate.ioをお楽しみ下さい。