ブラック・スワン」という言葉は、人類の歴史の中で、発生した時点においては前例がなく、予想もしていなかったような出来事が、予期せずに発生し、大きな影響力を持つことを意味するメタファー(暗喩)となっています。エコノミストのNassim Nicholas Talebは、彼の2001年の著書「まぐれ―投資家はなぜ、運を実力と勘違いするのか」でこの用語を普及させました。ブラック-スワン理論は、ローマの詩人ユヴェナルによる2世紀のラテン語の表現に由来しており、そこで彼はこの現象を「rara avis in Terris nigroque simillima cygno」と表現しています。

このラテン語の表現は、「その土地では珍しい鳥で、黒い白鳥にとてもよく似ている」と訳されています。当初、黒鳥は存在しないとする説が大多数を占めていました。この説の例としては、グーグルの成功、9・11同時多発テロ、ソ連の崩壊、インターネットの台頭などが挙げられます。中国当局が世界保健機関(WHO)にコロナウイルスを初めて報告して以来、この言葉はパンデミックの代名詞となっています。グーグルニュースで「ブラックスワンイベント COVID-19」と検索すると、240万件以上の結果が出てきます。しかし、1月26日にCOVID-19の蔓延は「非線形」であり、潜在的に深刻になる可能性があると警告する論文を共著したNassim Nicholas Taleb氏は、この新型コロナウイルスがブラックスワンイベントであることを否定しており、実際には Grey Rhino(灰色のサイ)であるとしています。

このGrey Rhinoという言葉は、政策アナリストのMichele Wucker氏は、2012年のギリシャ金融危機後、2013年にダボスで開催された世界経済フォーラム(WEF)での講演で、経済学者や世界の指導者に紹介したのが始まりです。これは、既知で緊急性の高いリスクを意味していますが、対策が講じられていないものを指します(高い可能性があるにもかかわらず、無視されている脅威で、大きな影響力を持つもの)。この危機について、Wucker氏は最近、次のように書いています。

「パンデミックとその可能性の高まりについて我々が知っていることを考えると、アウトブレイクは非常に高い可能性と影響力があります。私は真にこのような想像できないほどの潜在的な影響と非常に可能性の高い結果と同時に、顕著で、目に見えていて、すぐそこまで差し迫ったイベントを表す言葉として「Grey Rhino」という造語を作りました。 」

COVID-19パンデミックは猛威を振るっており、世界中の政府、企業、個人に並々ならぬ変化を起こしています。例えば、強制ロックダウンや国民皆保険のベーシックインカムが挙げられます(パンデミックの数ヶ月前には予測できなかったことです)。市民は、新しい経済面・健康面の課題に立ち向かうために、自分たちの生き方を完全に変えざるを得なくなりました。人間と組織の行動の変化は、ウイルス自体の直接的な影響をはるかに超えた意味合いを持っています。企業は、機械学習(ML)システムとパイプラインに何百万ドルもの投資を行い、戦略的な意思決定を行うための情報を提供しています。パンデミックによってもたらされた消費者や企業の行動の急激な変化は、過去のデータに基づいて予測を行う予測モデルの精度に大きな影響を与える可能性があります。このことは、データとアナリティクスの専門家にとって何を意味するのでしょうか?また、業界にはどのような影響があるのでしょうか?

COVID-19はデータモデルにどう影響するか?

データサイエンスのプロダクション(本番利用環境)構築への影響は劇的でした。セグメンテーションや予測に使用されていたモデルの多くは、トラフィックやショッピングパターンが変化したり、サプライチェーンが分断されたり、国境がロックされたりした際に崩壊し始めました。特に将来についての不確実性があるようなストレスの多い時期には、意思決定がより困難になります。データサイエンスの核となる問題の一つである「コンセプト・ドリフト」と呼ばれる突然変異と加速が見られました。 

COVIDの場合、コンセプト・ドリフトは、社会的な行動の変化と、ソーシャルディスタンス、ロックダウン、自己隔離、その他の様々な人間のニュアンスやパンデミックへの反応の結果として生じる経済活動のもつ不安定性によって発生します。この反応は、市場動向、不正行為の予測、需要予測などに関する前提条件を劣化させ、無効にし、パターン、結果、行動を予測するために構築されたモデルの大部分は、もはや実行可能なものではありません。その代表的な例が、詐欺検知モデルです。従来、このモデルは片道航空券の購入を赤旗と見なし、航空会社の不正行為の重要な兆候と見なしていましたが、もちろん、現在では、最早そうではなくなりました。

COVIDは、データサイエンティストが過去のデータに頼ってモデルを精緻化することはできないことを示しています。業界は俊敏性、適応性を高め、デプロイされたモデルの応答性を維持するための新しいプロセスに取り組む必要があり、予測可能性が低くなった世界でモデルがより堅牢で適切なフェイルセーフを持つようにする必要があります。モデルの監査とストレステストが新しい常識になるでしょう。

つまり、人々の行動が根本的に変化すると、それまでの行動パターンに基づいたデータサイエンス・モデルでは、客観的な現実を伝えるのに苦労します。データサイエンスのシステムは、時に自己修正して自分自身を正すことができますが、他のケースでは、システムに組み込まれる基本的な前提条件がもはや保持されないため、新しいシステムを精緻化することができず、無用の長物となってしまいます。このような場合、モデルやデータパイプライン全体が無意味になってしまいます。

COVID-19はデータチームにどう影響するか?

データチームは、彼らのコードベースだけでなく、作業環境の混乱にも直面しています。リモートワークは新しい常識となっており、多くの利点がある一方で、多くの欠点もあります。データチームは伝統的に非常に結束力が強く、生産的なアウトプットのためには自由な情報とコミュニケーションの流れが必要です。ソフトウェアエンジニアリングのプラクティスとプロセスを機械学習プロセスに効果的に適用することはできません。

ソフトウェアエンジニアリングは本質的に、コンピュータが定義された機能を実行するために実行できるプログラムの設計と実装です。プログラムがその動作の正式な仕様を満たすことを証明することが可能であり、これがソフトウェアエンジニアリングのためのツールとプロセスを形成してきました。多くのデータサイエンスチームは、前述のソフトウェア方法論に非常に似たワークフロープロセスを使用しています。しかし、それらはあまり有用ではありません。AIやMLモデルの正しさを証明することは不可能であり、(教師あり)機械学習では、訓練データセットがシステムの唯一の証明可能な、または保証された側面であり、 不確実性は機械学習に内在します。

リモートチームの生産性を向上させる新しいプロセスが出てきた場合、データプロフェッショナルをソフトウェアエンジニアと均一に扱うべきではありません。

thumbnail image

データチームが生産性を取り戻すには?

世界中のデータチームは、現在の不一致や濁ったデータストリームに対処するために、さまざまな戦略を使っています。以下は、瀕死のモデルを再生させるために使われているテクニックです。

  • データを選び抜き、その関連性を証明する。COVIDによって引き起こされた異常を削除し、COVID以前のデータに基づいて値を算出する。平滑化予測技術を適用して、パンデミック前およびパンデミック後のデータをナビゲートする。
  • 海外のデータソースのホットスワップを可能にするために、外部データとデカップリングされたシステムの使用を増やす。客観的なリアリティを得るためには、異種データソースの組み合わせをモデルに供給する必要があるかもしれません。システム設計では、ホットスワップを可能にし、モデルの突然変異バージョンを迅速かつ簡単に展開できるようにする必要があります。
  • モデルを一貫して監査し、自動化されたストレステストを実施する。現在は非常に不確実性の高い時代であることを考えると、もはやモデルの基礎となる習慣的な社会習慣に頼ることはできません。ある程度のカオス工学を導入して、Grey Rhinoのイベントを発見し、それを緩和する必要があります。レジリエンス(回復力)が鍵であり、厳密なテストによってのみ得られるものです。データチームは、サイトリライアビリティ・エンジニアと連携して、フェイルセーフやサーキットブレーカーの計画と設計を行う必要があります。
  • シナリオとシミュレーションの計画では、Grey Rhinoのイベントに対応したモデルを作成することができます。例えば、あるワクチンが有効でないシナリオと、18-24歳のみに有効であるシナリオのモデルを作成することができます。冒頭で述べたように、Grey Rhinoとは、既知で緊急性の高いリスクがあるにもかかわらず、対策が講じられていないことを意味します(可能性は高いが、大きな影響力を持つ脅威が放置されていること)。このようなシナリオに備えて計画を立て、準備をしない言い訳はありません。それが生き延びるための鍵であり、リスクを軽減する最善の方法なのです。

データセクターにおける不況の影響

データサイエンティストはCOVIDとの戦いにおいて極めて重要な役割を果たしています。医療提供者は、パンデミックの影響をいち早く受けた国々のデータを活用して、病院のベッド、マスク、人工呼吸器のニーズを予測しています。社会はこの分野の価値を見てきましたが、調査によると、データチームは、特に大企業の間では、現時点ではまだ広範なレイオフや一時解雇は見られません。しかし、テック系スタートアップ企業の労働者はレイオフの影響を受けやすいでしょう。ニューヨーク・タイムズ紙は、コロナウイルスのパンデミックがテック系スタートアップ企業、特にテック系スタートアップ企業に与えている課題について調査した記事を掲載しています。 

コロナウイルスは、スタートアップ企業にとっては比較にならないほどの急激な混乱を引き起こしています。従業員はビデオ通話で一時解雇や人員カットの情報を得ており、IPO の計画は保留され、多くの若いテック企業の資金調達は枯渇している

Burtch Works は、International Institute for Analyticsと提携して調査を実施した。300人の調査回答者のうち57%が人員配置や雇用計画に変更はないと回答し、さらに22%が雇用凍結やレイオフの準備をしているがまだ対策を講じていないと回答しています。

COVID以前はデータ求人の市場は好調で、2月に発表されたDice Tech Jobsのレポートによると、データエンジニアの需要は50%増、2019年のデータサイエンティストの需要は前年比32%増となっています。企業は過去10年間でデータ人材を見つけることが非常に困難な状況にあるため、現在のデータ人材を維持するために最大限の努力をすることになるでしょう。

Integrate.io: データプロフェッショナルのための完璧なETL

現在の環境は、データの専門家にとってチャレンジングで予測不可能なものであり、より多くの未知数が存在し、仕事に適したツールを選択することがこれまで以上に重要になっています。COVIDの世界では、予測不可能な世界で客観的なリアリティを得るために、異種プラットフォームにまたがる複数のデータソースを統合する必要があります。ETLツールは、まさにこれを実現するツールであり、今後ますます重要になってくるでしょう。

ETLツールは、ソースデータベースからデータを抽出し、ソート、結合、再フォーマット、フィルタリング、マージ、集計などの操作を使用してデータを変換し、情報をデータストアやデータウェアハウスにロードして、ビジネスインテリジェンスツールでスピーディにアクセスして使用することができます。最新のETLツールには、手書きでコード化されたデータパイプラインを介してデータを移動する従来の方法よりも、より速く、よりアクセスしやすい結果を得るためのグラフィカルなインターフェースが含まれています。

ETLツールは、データのサイロを破壊し、分析のためにアクセス可能で使いやすいものにしてくれます。要するに、ETLツールは、最終的にはビジネスのためのデータドリブンな意思決定(DDDM)へと発展するデータウェアハウスプロセスの初めの重要なステップなのです。

しかし、すべてのETLツールが同じというわけではありません。他のものと比較すると、Integrate.ioのように、より使いやすく、より強力なものもあります。Integrate.ioは、数分でビジュアルなデータパイプラインを作成できるクラウドベースのETLプラットフォームです。Integrate.ioの視覚的なドラッグアンドドロップのインターフェースはとても使いやすく、まるで騙されているかのように感じてしまうかもしれません。オンラインデモをリクエストし、ぜひご自身の目で確かめてみてはいかがでしょうか?