MongoDBからデータを抽出、変換、ロードできる速度が速ければ速いほど、ビジネスプロセスやビジネスインテリジェンスシステムにとっても有利になります。問題は、ほとんどのETLソリューションがMongoDBのダイナミックスキーマ、NoSQLサポート、JSONデータ型の管理に苦労していることです。
Integrate.ioは違います。カスタムコードも遅延も混乱もなく、簡単で手間をかけなくて済むようMongoDB統合のために最適化されています。
あなたの企業の誰でも、技術経験に関係なく、Integrate.ioを使って強力なETLワークフローを設定し、MongoDBデータを最も人気のあるデータウェアハウスにプッシュして変換することで、正確で最新のビジネスインテリジェンスを得ることができます。
Table of Contents
What’s MongoDB?
What’s ETL?
MongoDBのETL処理が難しい訳とは?
MongoDBのETL処理に最適なIntegrate.io
What’s MongoDB?
MongoDBは、データサイズや品質、形式に関係なく、あらゆるタイプの運用データを管理・保存できる、最も人気のあるオープンソースのNoSQLデータベースです。大量の非構造化データや構造化データを高速に処理するという点では、リレーショナルデータベースでは追いつけない部分をMongoDBは得意としています。
柔軟性、JSON ファイルとの互換性、動的スキーマの使用で評価されている MongoDB は、キー/バリューストア、ドキュメントベースのデータベース、リレーショナルフォーマットと非リレーショナルフォーマットを混在させたアプリケーションのデータ管理を容易にします。
MongoDB の強みは以下の通りです。
- 水平方向にスケーラブル:NoSQL データベースとして、MongoDB は水平方向にスケーラブルです。つまり、シャーディングやデータベースに対してサーバーを追加することで、データ量をいくらでも処理できるように拡張できるということです。
- 柔軟性:MongoDB は JSON や NoSQL のデータを保存・管理することを目的に作られており、あらゆるタイプのデータ形式や構造をサポートする柔軟性を持っています。
- 動的スキーマ:MongoDBは、既存のスキーマを変更しなくても変更できる動的スキーマを提供しています。
- 高性能:シンプルなクエリに関しては、MongoDBはスピードとパフォーマンスを提供します。
- ウェブベースのアプリに最適:MongoDBはウェブアプリケーション向けのデータベースとして特に人気があります。
- オープンソース:MongoDBはオープンソースで、誰でも無料で利用できます。
- クラウドベースのオプション:MongoDB Atlasはサブスクリプションベースのフルマネージドのグローバルクラウドデータベースで、Amazon AWS、Microsoft Azure、Google Cloud Platform上でMongoDBを実行することができます。
Learn more about Integrate.io’s MongoDB connections here.
What’s ETL?
ETL(Extract、Transform、Load)とは、あるソースまたはデータベースからデータを取り出し、変換し、別のデータベースまたはデータウェアハウスにロードするプロセスのことです。ほとんどの場合、企業はアプリケーションや生産システムから大量のデータをデータウェアハウスに統合するためにETLを使用します。データウェアハウスに入ってしまえば、高度なビジネス・インテリジェンス・ツールが情報を分析し、そこから価値あるメトリクスを抽出することができます。
誰でも使える自動化されたETLプラットフォームとして、Integrate.ioがどのように役に立つかをご紹介します。
- 抽出:Integrate.ioには、事実上あらゆるデータソースやデータベースからデータを読み取って抽出することができるように、幅広い範囲の事前構築されたコネクターが含まれています。Integrate.ioは、あなたが望む頻度でこれらのETLによるデータ統合をスケジュールすることができます。
- 変換:Integrate.ioは、100以上の自動データ変換(join、sort、assert、limit、aggregate、 cross joiningなど)を提供します。Integrate.ioでは、複数のデータテーブルを結合したり、重複したレコードを削除したり、列ごとにデータを並べ替えたりといった変換を、データが転送先に転送されている間に「インパイプライン」で実行することができます。
- ロード:Integrate.ioにはネイティブのコネクタが含まれており、どんなデータソースからでもデータを抽出し、どんなデスティネーションにもロードすることができます。ソースがMongoDB、MySQL、PostgreSQL、その他のものであっても、データを取得し、Redshift、BigQuery、Snowflake、その他のシステムにロードするための準備をすることができます。何よりも優れている点は、Integrate.ioがこのプロセスを誰でもできるようにシンプルにしてくれることです。
Read more about extract, transform, load processes here.
MongoDBのETL処理が難しい訳とは? Integrate.ioはどう役立つ?
MongoDBから従来のデータウェアハウスへのETLは大きく異なる2つのシステム間でデータを移動するため、困難です。MongoDBでは、構造化されていないデータや非リレーショナルデータ(JSONファイルタイプ、ダイナミックスキーマ、深い入れ子になったオブジェクトなど)を扱うことがよくあります。これらは、RedshiftやAzureのようにリレーショナルで構造化されたデータを必要とする典型的なデータウェアハウスにとっては異質な概念です。
Integrate.ioは、MongoDB統合の主要な課題を克服するために以下の機能を提供しています。
- 動的スキーマからリレーショナル形式への移行: MongoDB は、定義済みのリレーショナルスキーマではなく動的スキーマを使っています。このため、MongoDBからリレーショナル形式を必要とする一般的なデータウェアハウスにデータを移行する際には、問題が発生します。Integrate.ioのデータマッピングツールを使えば、移動先に読み込む前にMongoDBのデータを互換性のあるスキーマに変換することができます。
- 矛盾するデータ型の変換: MongoDBコレクション内の異なるドキュメントで、異なるデータフィールドタイプ/値を使用していることは珍しくありません。たとえば、あるドキュメントでは電話番号を文字列 [(555) 555-5555] として記録し、別のドキュメントでは番号 [555555555555] として記録しているとします。Integrate.ioの自動化されたソリューションでは、リレーショナルデータウェアハウスにデータをロードする前に、単一のフォーマットを選択し、外れ値を変換することができます。
- 互換性のないデータ型の変換:MongoDBは、Javascript、正規表現、ObjectIdなど、データウェアハウスがサポートしていないであろう多種多様なデータ型をサポートしています。Integrate.io はこれらのデータ型を、データウェアハウスがサポートしている形式に素早く変換することができます。
- 深くネスト化されたオブジェクトや配列をフラットにする: MongoDBでは、深くネスト化されたオブジェクトや配列を作成することができます。Integrate.ioのデータマッピングツールを使えば、ネスト化されたオブジェクトを素早く抽出してフラットにし、リレーショナルデータウェアハウスのレコードに収まるようにすることができます。
- データウェアハウスのスキーマに新しいフィールドを追加する:MongoDBではUPDATEコマンドで新しいフィールドをドキュメントに追加できますが、リレーショナルデータウェアハウスではこのような変更を行うのはそう簡単ではありません。MongoDBで新しいフィールドが検出された場合、Integrate.ioは自動的に対応する変更を、追加先のスキーマに追加したり、ALTERしたりすることで行うことができます。
- カラムのサイズ変更:MongoDBはドキュメント全体に16MBのしきい値を設定していますが、個々の文字列列の長さを制限するわけではありません。しかし、リレーショナルデータウェアハウスでは文字列カラムのサイズに制限があるかもしれません。Integrate.ioを使えば、MongoDBのカラムがデータウェアハウスの制限を超えたときにはいつでもリサイズするようなワークフローを設定することができます。
MongoDBのETL処理に最適なIntegrate.io
Integrate.ioは、MongoDBとの間でデータを抽出、変換、ロードするための最も使いやすく、最も費用対効果が高く、安全な自動化されたソリューションです。その理由は以下の通りです。
Integrate.ioはコーディングスキル不要で簡単に使える
- ネイティブMongoDBコネクター:Integrate.ioのネイティブMongoDBコネクターは、直観的でノーコードのインターフェースを提供し、MongoDBデータを準備してデータウェアハウスに移動して分析するETLパイプラインを素早く簡単に設計できます。
- スキルは必要なし:Integrate.ioのポイントアンドクリックのインターフェースはとても使いやすいので、経験やトレーニングに関係なく、誰でもプラットフォームを使ってパワフルで洗練されたETLプロセスやデータ変換を開発することができます。
- 無制限のIntegrate.io電話サポート:すべてのIntegrate.ioサービスレベルのコミットメントで、統合スペシャリストとの無制限の電話とビデオ会議サポートを受けられます。担当の統合スペシャリストは、プラットフォームの使用方法を教え、接続を設定する際にリードし、ETLの課題を解決するのを支援します。
Integrate.ioは予測可能な価格設定で費用対効果が高い
- コネクションベースの価格設定(日本は時間ベースでも提供):Integrate.ioは、データ量や処理レベルではなく、接続ごとに定額料金を請求します。そのため、Integrate.ioは、データ接続数を調整した場合にのみ変更される予測可能な月々の請求書を実現します。 *日本では時間ベースでの価格プランも提供しています。
- 必要な分だけ支払う MuleSoft、Talend、Jitterbitのような最も広く使われているデータ統合プラットフォームは、あなたが必要としないであろうサービスや機能を幅広く提供しています。しかし、あなたはそれらのためにお金を払わなければなりません。Integrate.ioは、エンタープライズグレードで使いやすいETLサービスのみを提供することに焦点を当てているため、プラットフォームは、TalendやMulesoftのような主要な競合他社よりも劇的に安価です。
- 専門家の力は必要ありません:Integrate.ioの使いやすさは、統合の専門家、開発者、特別な訓練を受けたスタッフを雇う必要がないことを意味します。
- オンサイトサーバーやホスティングは不要:Integrate.ioはクラウドネイティブのプラットフォームなので、追加のサーバーやオンサイトのハードウェア費用が発生しません。
Integrate.ioは最先端のセキュリティ、コンプライアンス、暗号化機能を備えています。
- SSL/TLS:SSL/TLS暗号化に対応しています。
- コンプライアンス基準:SOC 2、HIPAA、GDPRのコンプライアンス基準に適合しています。
- 暗号化:プラットフォーム上のすべての顧客データを暗号化します。
- セキュリティ検証:セキュリティ証明書と暗号化アルゴリズムの継続的な検証
- ファイアウォールアクセス制御:内部接続と外部接続の両方へのアクセスを自動的に拒否するファイアウォールのアクセス制御。個々のポート/プロトコルへのアクセスを特別に許可する必要があります。
- フィールドレベルの暗号化:フィールドレベル暗号化で情報を暗号化および復号化する暗号化ツール。
- 鍵認証:承認されたIntegrate.ioスタッフのみが、鍵認証を通じてIntegrate.ioオペレーティングシステムにアクセスすることができます。
MongoDBのスピード、柔軟性、そして素晴らしいデータインジェスト機能は、高度なビジネスインテリジェンスを実現するためにマイナスになりません。Integrate.ioがあなたのチームにいれば、MongoDBの統合は素早く、簡単に、手頃な価格で、安全に行えます。
MongoDBのデータをどうやってデータウェアハウスに送信するか是非ご覧ください。