デジタル時代において、データ転送はあらゆる規模のビジネスにとって不可欠です。ETL(抽出、変換、格納)プロセスは、生のデータをデータウェアハウスなどの目的地に移動するための基礎となっていますが、そのファイルの転送に使うプロトコルは、オペレーション全体の効率性とセキュリティに影響を与える可能性があります。そこでこのガイドでは、最もよく使われているファイル転送プロトコルと、今日の技術状況におけるその関連性について包括的に説明します。
以下は、本記事の主なポイント5つです:
- FTP は基本的なものだが、暗号化されていない
- FTPS は FTP に SSL/TLS 暗号化が追加されたものである
- SFTP は SSH 経由で安全に作動する
- SCP は SSH を使ってスピードアップできるが、機能は限られている
- GDPR や HIPAA のような最新のポリシーでは、安全な転送が好まれるため、SFTP が最も推奨される
このガイドでは、コンピュータネットワークを介してサーバーからクライアントにファイルを移動し、ETL がそのファイルからビッグデータ分析用の読み取りができる形式にデータを変換できるようにするために、最も使われている転送プロトコルについて見ていきます。ここでは、FTP、FTPS、SFTP、SCP、およびその他の転送プロトコルを比較してみましょう。
FTP とは
FTP(ファイル転送プロトコル)は、1970年代からファイル転送の基本的な方法として使われており、TCP/IP(ネットワーク機器をオンラインで接続するフレームワーク)を介してコンピュータ間でファイルを移動する簡単な方法です。以下は、 FTP の一般的な機能です:
- FTP サーバーにファイルをアップロードする
- そのファイルを TCP/IP 経由で FTP のホストに中継する
- 受信者がファイルにアクセスして、そのファイルをダウンロードする
FTP は3つのデータ表現(8バイナリデータ、ASCII 7ビット、EBCDIC 8ビット)を扱い、3つの転送モード(ブロック、ストリーム、圧縮)のいずれかを使ってファイルを移動します。
メリット:
- 40年にわたる実績があり、迅速でわかりやすい
- 複数のディレクトリ転送を同時に処理する能力がある
デメリット:
- 暗号化されていないため、潜在的なセキュリティ上の脅威がある
- デュアル・データ・チャネルを使うため、不正なデータ傍受のリスクが上がる
GDPR (EU一般データ保護規則)やHIPAA(医療保険の相互運用性と説明責任に関する法律)のようなデータガバナンスポリシーが進化する中、特に機密データの転送を FTP に頼ることは、多くの現代企業にとって取りたくないリスクとなっています。
FTPS とは
FTPS(File Transfer Protocol Secure)は、「FTP/SSL」と呼ばれることもあり、FTP の強化版として1990年代に登場したものであり、FTP の下に SSL/TLS レイヤーを組み込み、データ・チャンネルを暗号化することで、転送時のセキュリティが強化されています。
メリット
- 多くのインターネット・インフラには SSL が組み込まれており、FTPS によるファイル転送が簡単に行える
- 強力な認証
- X.509 証明書(公開鍵証明書の標準フォーマット)の機能
デメリット
- ファイアウォールに干渉することがあることから、最初に大変な思いをするユーザーもいる可能性がある。
オススメ参照:FTPS ETL to Your Warehouse
SFTP とは
SFTP(セキュアファイル転送プロトコル)は1990年代後半に導入されたものであり、 FTP の暗号化された代替手段があることによって、SSH 経由で作動します。このプロトコルは、転送中のファイルのセキュリティを保証することから、データ侵害に対する強固な選択肢となります。
SSL と同様に、SFTP はファイル転送時にコマンドを使ってデータ接続を実行し、ファイルの受け手は SSH サーバーに接続して、暗号キー(SSHキー)またはユーザー名とパスワードの組み合わせでサーバーを認証します。
オススメ参照:SFTP ETL to Your Warehouse
メリット
- データファイルの暗号化
- コマンド実行
- IPV6 HTTP に対応
- TMUX に対応
- ユーザー名/パスワード認証
- 公開鍵認証
- 単一のチャネルでのファイル転送
- 様々な種類のフラットファイル、区切りファイル、平文ファイル、CSVファイル、一般的なフラットファイル、カンマ区切り値のファイル、シンプルな構造のファイルに最適
デメリット
短所はほとんどなく、特に ETL においては、FTP よりもはるかに安全な代替手段である
SCP とは
SSH プロトコルを活用した SCP(セキュアコピープロトコル)は、暗号化された IP ベースのデータトンネルを介してファイルを転送し、それによって速度とセキュリティの両方を確保します。そしてこれは、「ローカルホスト」と「リモートホスト」(または2つのリモートホスト)間でファイルを移動することによって行われます。
メリット
- SFTPと同様、認証に SSH プロトコルを使うため、より安全な FTP 代替手段となる
- 特に遅延の大きいネットワーク上では、SFTP よりもファイル転送が速い(場合もある)。
デメリット
- ファイル管理機能がない
- ファイル転送の再開はほとんど対応されていない
- ファイル転送専用に作られており、SFTP とは違って、ディレクトリやディレクトリリストを作成したり、ファイルを削除したりすることはできない。具体的なデータ・タイプにもよるが、その範囲ははるかに限られている。
その他の FTP
-
TFTP(トリビアル ファイル トランスファー プロトコル):UDP(ユーザーデータグラムプロトコル)を使ってファイル転送を行う。TFTP の歴史は80年代初頭にさかのぼり、現在ではほとんど使われていない。
- MFT(マネージドファイル転送):SFTP や FTPS などのプロトコルに対応する管理コントロール機能があり、銀行業界で使われているMFT だと、金融ファイル転送時に追加の暗号化が提供される。
FTP、FTPS、SFTP、SCP、それとも別のプロトコルを使うべきか
サイバー脅威がかつてないほど大きくなり、データガバナンスとコンプライアンスへの注目が高まる中、FTP は最善策ではない可能性があります。また、SCP は優れた FTP 代替手段であり、遅延が多大きいネットワークでは SFTP よりも高速な場合もありますが、ファイル転送に限定されます。なので、ファイルの削除やディレクトリの作成、その他の機能の実行はできません。
そうなると、残りは SFTP か FTPS ということになります。FTPS は効果的で暗号化のメリットもありますが、本質的には FTP の拡張であり、今でも接続には2つ使います。対する SFTP は全く別のプロトコルで、単一の接続であるため、データがハッカーに盗まれるリスクは下がります。そして2023年現在、データウェアハウスプロジェクトで最も安全なファイル転送プロトコルは SFTP で、FTPSは 2位です。
それに伴い、効率性とセキュリティの両方を提供する SFTP が最有力候補に上がりました。FTPS は安全ですが、依然として旧式の二重接続システムで作動しており、それによって潜在的な脆弱性が否めません。
Integrate.io ができること
Integrate.io は SFTP に全面的に対応しており、FTPS をデータ分析用の分析プラットフォームと統合できることによって、それを ETL ワークフローのテンプレートにすることができます。また、フラットファイルデータベース、リレーショナルデータベース、データウェアハウス、データベース管理システム、データレイク、BI(ビジネスインテリジェンス)ツールとの間で、フィールド名やデリミタ、その他のデータマークアップの問題を気にすることなくファイルを送受信できます。
さらに、Integrate.io は、コードやデータエンジニアリングを必要としないため、ファイル転送やデータフォーマットが簡単です。SFTP、FTPS、またはその他の転送プロトコルのいずれを使う場合でも、Integrate.io の 14日間無料トライアル をお試しいただけますので、ぜひお問い合わせください。