私たちの行動によりデータが生み出されている現代。インターネット、PC,スマートフォンにより絶え間なくデータが生成され増え続けている中、企業はデータから価値を⽣み出し、新たなビジネスモデルの創出や社会課題の解決の鍵としてデータ活用を模索しています。多くの企業ではデータを利用できる環境を構築しており、データウェアハウス、データストレージ、そして最新のETLツールにより、データ主導型の判断を実現しています。
2019年の時点で、Blissfullyの2020 SaaSトレンドレポートによると、中小企業(0-50人の従業員数)は平均102個、中規模企業(101-250人の従業員数)は約137個のSaaSアプリケーションを使用しています。これらのSaaSアプリケーションは、CRMからマーケティングオートメーションアプリ、ヘルプデスクツールなどの課金サービスにまで及びます。また、これらのアプリケーションは、数千から数百万行のデータをログに記録でき、APIを介してデータやログを分析することで企業に貴重なインサイトを得ることが可能となります。
今回、この記事では、モダンETLプロセスについてまとめます。ETLプロセスとは何か、なぜデータ駆動型にしなければならない理由なども深掘りしていきます。
ETLプロセス:データ駆動型ビジネスの基盤
どの企業でも、誰でもがスマートでデータを用いた意思決定を行うことを望んでいます。
例えば、カスタマーサポートチームは、サポートチケットの傾向を確認し、会話のテキスト分析を行って、顧客が満足する回答を提供できるかを望んでいます。
マーケティングチームは、さまざまな広告プラットフォームでのパフォーマンスと支出のROIをより効率的に把握することを望んでおり、製品チームとエンジニアリングチームは、生産性メトリックまたはバグレポートを掘り下げて、リソースの優先順位付けを改善したいと望んできます。
ETLプロセスは、これらすべての異なる部署のニーズを理解し、各部署で仕事をよりよく遂行するために必要な情報を取得できるようにします。企業は、Extract(抽出)、Transform(変換)、Load(格納)の略であるETLプロセスを通じて、さまざまなデータソースからデータウェアハウスにデータを取り込みます。ニーズごとに違うチームは、集約し蓄積された分析しやすいデータにすることで容易に分析することができるため、データを用いた正しい意思決定を行うことが可能となります。
従来型のETLプロセス
従来の抽出ステップには、ファイル、データベース、またはAPIなどのデータソースからデータをバッチ処理により抜き出します。変換ステップでは、分析に適した形でデータウェアハウスが取り込めるように、データのクリーンアップとモデル化をし、格納ステップでは、クリーンアップされたデータがデータウェアハウスに格納され、蓄積されます。
このように従来のETLプロセスはシンプルでどのデータも取り込める拡張性が高いと見えますが、実はそうとも言えません。
多くの場合、データの流れを維持するスクリプトを開発および保守するには、フルタイムのデータエンジニアが必要となります。なぜならばデータプロバイダーがスキーマまたはAPIを変更することが多く、変更があるたびに、データエンジニアは緊急的にスクリプトを更新しなければならず、またそれに対応するため、一時的とは言えダウンタイムが発生します。さらに、現在、企業はデータ分析のために非常に多くの異なるデータソースからデータを取り込む必要があるため、それぞれのETLスクリプトを保守することはスケーラブルではないといえます。
ETLツールで最適な業務へ:モダンETLプロセス
モダンETLプロセスは、dubbed ELTと呼ばれたわずかに異なる順序に従います。この新しいプロセスは、従来と比較して低いストレージコストを実現する最新のデータウェアハウスを実現する結果として生まれました。
モダンETLツールはデータエンジニアの手間のかかる作業を受け持ちます。主要なSaaSアプリケーションを統合し、ほとんどの主要なデータウェアハウスに接続するように構築することができます。そのため、ユーザーは通常、アプリ内の単純なドロップダウン選択を介してオーケストレーションを制御できるため、独自のサーバーやEC2ボックスを立ち上げたり、Airflowなどのプラットフォームで実行するDAGを構築したりする必要がなくなります。
さらに、モダンETLツールは、新しいデータを段階的に追加したり、新しい行と変更された行のみを更新したりするため、より頻繁な読み込みが可能となるため、データ更新のリアルタイム化に近づいてるといえます。
モダンETLプロセスとデータウェアハウス
近年、データウェアハウスのストレージコストが大幅に削減されたため、企業はコストを気にせずに、できるだけ多くの生データソースを読み込むことができるようになりました。さらに、変換する前に生データを取り込むことができるため、個別のステージング領域を用意することなく、データウェアハウス上で変換を行うことができます。そして、データベース言語「SQL」を使えるなどデータの可用性も向上しました。
これらの結果、企業はデータを活用して適切な意思決定を行う際の柔軟性を高めることができるようになりました。
モダンETLプロセス:より良い結果をより速く提供
従来のETLプロセスでは、データと処理の要件が増大するにつれ、オンプレミス上のデータウェアハウスへの取り込みに失敗することが多く発生します。
IT部門はこの問題に緊急対応する必要があり、最悪の場合ハードウェアの追加など、すぐに問題解決ができなく業務に支障が出てしまうことがあります。
しかしながら、最新のデータウェアハウスとETLプロセスは、コンピューティングリソース管理をクラウドデータウェアハウスにオフロードすることで、この問題を回避します。また、多くのクラウドデータウェアハウスは、データが急増する場合に動的なスケーリングを可能にするコンピューティングスケーリングを提供します。これにより、計算コストの高いデータモデルの数を増やしながらより大きなデータソースを取り込む一方で、スケーラブルなパフォーマンスを引き続き利用することができます。
クラウドデータウェアハウスでのコンピューティングスケーリングを利用したコンピューティングパワーのコスト最適化により、企業はリソースを効率的にスケールアップまたはスケールダウンして社内ニーズに合致させながら、ダウンタイムをなくすことができます。さらに、クラウドデータウェアハウス上にテスト環境を構築して、データソースの品質や鮮度などを常に監視し、データパイプラインの問題をより迅速かつプロアクティブに解決することも可能となります。
ETLからELTへ
データ、分析、およびBIは、以前と比べ非常に進化してきました。この進化は、クラウドネイティブのデータウェアハウス、分析およびBIプラットフォームのクラウドネイティブアーキテクチャ、およびこれらのシステムを利用した組み込み分析の実現により、現代において「真にデータ駆動型であることが何を意味するか?」が再定義されることになりました。
モダンETLプロセスにより、さまざまなデータセットからインサイトを提供できるようになり、その結果、あらゆる種類の企業やチームがよりスマートな意思決定をより迅速に行うことができるようになりました。そして、より高度な分析、次のレベルのデータ収益化モデルの構築などへの扉を開くことと言えます。
データを使用して構築しているものが何であれ、最新のELTを導入することは、データからより多くのものをより簡単に取得するのに役立ちます。
データウェアハウスへの大規模な移行が進む中、将来を見据えて、データレイクがすべての生データソースの最初の宛先として広く利用されるとみています。それは、コスト面でのメリットももたらされるということでもあります。さらに、これらのデータレイク内での変換を可能にする新しいツールが形成され始めており、今後、データパイプライン内のツールがETLからELTへとプロセスの進化がし続けていくでしょう。
この投稿に記載されているすべてのデータは情報提供のみを目的としており、正確ではありません。前もってご了承ください。
本記事は、Sisense社の許諾のもと弊社独自で記事化しました。
https://www.sisense.com/blog/modernize-your-etl-processes-discover-better-insights/
※ SisenseおよびSisense Hunchは、Sisense Inc の商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。
キーワード
注目の記事一覧
- データパイプラインと変換ロジックを定義するノーコード/プロコードアプローチ
- 行動を喚起するチャート3選
- データウェアハウスの近代化-QlikとTalendの活用
- AIリテラシー、データリテラシーの新しい波
- 生成AIの力を引き出すOpenAIコネクターの活用
月別記事一覧
- 2024年8月 (1)
- 2024年7月 (2)
- 2024年6月 (1)
- 2024年4月 (1)
- 2024年2月 (1)
- 2024年1月 (1)
- 2023年9月 (1)
- 2023年8月 (2)
- 2023年7月 (1)
- 2023年6月 (1)
- 2023年5月 (2)
- 2023年4月 (2)