日々生成され保存されるデータの量は激増しており、多くの企業では、これらを価値ある資産と考え蓄積しています。データは、「構造化データ」と「非構造化データ」に大別され、前者は”列”と”行”の概念など、構造定義をもつデータを指し、主にデータベースやデータウェアハウスに格納され、最も分析に相性が良いデータとなります。後者は、構造定義そのもの自体を持たないデータのことを指し、音声、動画、ログなどさまざまな形態があるため、そのままでは分析に適しているとは言えません。
近年、この非構造化データに対して、企業は注目しはじめました。その背景には、非構造化データを蓄積できる「データレイク」の存在です。データレイクとは、非構造化データをそのままの状態で格納できるストレージリポジトリのことで、特に、音声や動画、SNSのログなどを含むあらゆる形式の非構造化データを、そのままの形式で貯めておけます。
この記事では、従来使われてきたデータウェアハウスに対して新たな技術であるデータレイクの相違点やこれら2つのパラダイムの対立、そして、企業がMicrosoft Azure Data LakeやAWSデータレイクなどクラウドベースのデータレイクがどのように活用されているかについて説明します。
データウェアハウスとデータレイクの進化
1990年代後半から2000年代初頭にかけて、「データウェアハウス」が登場しました。当時、ネットワーク化されていないレガシーシステムやアプリケーションが多数あり、接続をすることで企業内のデータがすべてこのデータウェアハウスに集約することができるようになりました。データウェアハウスにより、あらゆる情報が一つにまとめられたことで、組織に重要な意思決定を支援し、予測を立てられるようになるなど、企業にとって信頼できる唯一の情報源として今でも、利用され続けています。
データ分析を行う際に「テーブル結合」という手法を用いますが、実はデータウェアハウスの登場で生まれた手法と言えます。この手法ができたことで、ある環境に格納されているテーブルやデータを、さまざまなロジックを介して別の環境に関連付けることができるようになりました。 しかしながら、この便利な手法を使いこなすには、技術者に対して高度なスキーマ知識が必要となりました。
この分析に適したデータウェアハウスに対しても新たな懸念事項が露呈しました。それは、事前定義されたスキーマの範囲外に存在するデータを扱うシステムへ接続するのに難しいことでした。この柔軟性の欠如は、データからタイムリーに価値を引き出すためには障壁となりました。
データウェアハウスとデータレイクの間には3つの相違点があります。
構造化データと非構造化データ
データウェアハウスには、構造化された表形式のデータが必要です。 したがって、トランザクションデータはデータウェアハウスに対して最も最適なデータと言えます。データレイクは、すべての非構造化データを受け入れることができるという点が異なります。データレイクには、テキストデータだけでなく、画像、音声、およびビデオファイルなども保存できるようになります。
書き込み時のスキーマと読み取り時のスキーマ
データウェアハウスでは、事前にスキーマを定義しなければなりません。スキーマを定義することでデータが取り出しやすくなり、その結果分析もしやすくなります。データレイクでは、事前定義されたスキーマがありません。処理中にデータが読み取られた時に、解析が行われ、必要に応じて最適なスキーマを適合します。データサイエンティストは、この読み取り時のスキーマを作成し、また、分析に必要な情報を自ら選択することができます。
階層構造とフラット構造
データウェアハウスは、分析のためにデータは多数のテーブルで構築されており、そして接続方法などにより階層化されています。それに比べ、データレイクはフラットです。通常、さまざまなデータを時系列にに格納していきます。
データウェアハウスとデータレイク:データクラウドへの統合
この2つのデータストレージの考えは、相違しているように感じられますが、ここ数年間で技術進歩により収束し始めています。現在では、企業が大量のデータをデータレイクに保存している一方で、データを取り出したりする際や、データを擬似的に構造しているように見せるなど、データレイク上にデータウェアハウスのごとく抽象化する機能を持つ製品が提供されています。
ここでは一つの例として釣り用タックルボックスで考えてみましょう。釣り用タックルボックスの下部の箱は通常大きく開き、ツール、ルアー、釣り糸、オモリなど種類を分けず自由に保管できます。 これはデータレイクに似ており、構造を気にせずにストレージシステムに何でも入れる点と同じと言えます。
釣り用タックルボックスに入れる上部インサート箱は、エリアごとにオモリ用、フック用、ルアー用などに仕分けますが、これが仕分けするデータレイクの上にデータウェアハウスのごとく抽象化するイメージと同じと言えます。これらのアイテムはすべて下部の箱に保存できますが、釣り人は特定のアイテムを下部の箱から上部インサート箱へ整理することで容易に取り出すことができます。
このように、柔軟性が高く、データを区別せずにほとんどすべてのものを格納する効率的な方法を持ちながら、データウエアハウスのように特定のデータを素早く効率的に見つけながら高いパフォーマンスを提供をしていくのが最近のデータレイクと言えるでしょう。
このようなパラダイムシフトは、実は、2つの主要なクラウドプロバイダーであるAWSとマイクロソフトで展開されています。
従来のAWSデータレイクはAWS GlueとS3で構築されますが、Amazon Athenaによってクエリされ、Amazon EMR(Elastic MapReduce、ユーザーが巨大な非構造化データセットを並行してコーディングできるサービス)で準備、クリーンアップ、強化することができるようになります。さらに、AWSデータレイクインフラストラクチャ上で直接Redshiftを使用するオプションも提供しています。
マイクロソフトも同様の動きがあります。専用のコンピューティング、Sparkなどに加えて、データの取り込み、データパイプライン、サーバーレスSQLを含む完全なデータエクスペリエンスをマイクロソフトは提供しています。
今回、データウェアハウスとデータレイクについて語りました。
DX時代の今、クラウドデータソースからの分析はビジネス変革するための鍵です。企業がデジタルトランスフォーメーションを実現することができれば、競争力が強化され、さらに新たなビジネスモデル変革にもつながっていきます。だからこそ、今、始めるべき時期に来ていると言えるでしょう。
この投稿に記載されているすべてのデータは情報提供のみを目的としており、正確ではありません。前もってご了承ください。
本記事は、Sisense社の許諾のもと弊社独自の見解を追加し記事化しております。
https://www.sisense.com/blog/differences-between-data-warehouses-data-lakes/
※ Sisenseは、Sisense Inc の商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。
キーワード
注目の記事一覧
- データパイプラインと変換ロジックを定義するノーコード/プロコードアプローチ
- 行動を喚起するチャート3選
- データウェアハウスの近代化-QlikとTalendの活用
- AIリテラシー、データリテラシーの新しい波
- 生成AIの力を引き出すOpenAIコネクターの活用
月別記事一覧
- 2024年8月 (1)
- 2024年7月 (2)
- 2024年6月 (1)
- 2024年4月 (1)
- 2024年2月 (1)
- 2024年1月 (1)
- 2023年9月 (1)
- 2023年8月 (2)
- 2023年7月 (1)
- 2023年6月 (1)
- 2023年5月 (2)
- 2023年4月 (2)