GRANVALLEY
データであなたの「ミチ」をてらす

GRANVALLEY

ブログBlog

AIはデータエンジニアを支援するのか、仕事を奪うのか?

ロボットが人間の代わりに仕事をする。多くの映画やSF本などで表現されてきました。しかし、これが今、現実になろうとしています。AI(人工知能)は、ロボットの次に脅威だと考えられていますが、それはどのような仕事に対してでしょうか?ここでは、データエンジニアの視点から語っていきます。

一つの例として、多数のオープンソースパッケージまたは有料APIサービスからロジックを調達し、異なる種類のデータセットを接続してパイプラインを維持することは、実は、現在のAIにとって不向きかつ複雑なタスクとなっています。

AIとデータパイプライン

適切にセットアップされたデータパイプラインの利点は、複数のデータセットをBIツールにシームレスに接続して、クライアント、社内チーム、およびその他の利害関係者が複雑な分析を実行し、データを最大限に活用できるようになることです。

データエンジニアは、数テラバイトのデータをどこからでも分析できる場所に持ち込み、さまざまなライブラリやサービスを使用して変換し、安定したパイプラインを保つという課題に取り組んでいます。しかし、プロセス全体のデータ準備フェーズには独自の課題があります。このフェーズは創造的なプロセスであり、必ず作業は必要となるものですが、X時間ごとに保存やロジックを繰り返し使用するよう自動化することは容易ではありません。この問題を解決する方法が、人工知能と機械学習を取り入れることです。

拡張分析はビジネスインテリジェンスの次の段階であり、AI要素がBIプロセスのすべてのフェーズに組み込まれます。今日登場している強力なAI分析システムは、さまざまな方法でユーザーを支援するAIを備えていますが、この記事ではデータの準備に着目します。

AIが役立つデータ準備プロセスの3つのセクションは、データのクリーニングと変換、抽出とロード、および準備されたデータの検証です。

データの整理

「データは新しい燃料である」という言葉は、すでに決まり文句ですが、私たちの議論にとって、それはとても適切な比喩と言えるでしょう。ほとんどの企業は膨大な量のデータを保管していますが、未処理の状態ではあまり役に立ちません。さらに悪いことに、正規化されていないデータの分析は、誤った結果を導く可能性があります。データが燃料の比喩であり続けるには、データを保存されている場所から処理される場所へ移動させ、その真の価値を活用できる、安定した信頼できるパイプラインが必要です。

データエンジニアはデータを移動する間に、データを処理し、BIシステムに到達するまでに使用可能な状態へ近づけることができます。BIプラットフォームはすでにAIを使用して、さまざまな方法でデータクレンジングプロセスを支援しています。AIがあなたをどのように支援できるか見ていきましょう。

  1. AIアシスタンスは、結合する列、複合する列、および場合によってはディメンションテーブルを作成してファクトテーブルの結合を容易にするなど、日付モデル構造を提案できます。
  2. AIシステムは、単純なルールセットを適用して、すべてのテキストを小文字にし、値の前後の空白スペースを削除するなどの方法で、データの標準化を支援します。
  3. 学習データセットとして使用する完全にフォーマットされたデータセットが既にある場合は、AIアシスタンスを訓練して、より大きなデータセットがどのように見えるかを認識し、あなたが特定のタスクを伝えるのではなく、AIが全体的なアプローチでクレンジングすることができます。
  4. AIアシスタンスはデータの表示方法を学習するため、システムはすべての列をスキャンして、修正対象のレコメンデーションを作成したり、アクティブラーニングを実装したり、冗長レコードを削除(例えば、スペルミスによる重複の削除など)したり、コンテキストの手がかりを使用して欠損値を埋めたりします。

抽出と取り込み

クラウドデータウェアハウスの台頭により、企業のデータ処理方法に変化をもたらしました。過去には、レコードを整理するために、適切に編成されたデータベースが必要でしたが、現在データは、ユーザーが生成したデータから感覚的なデータまで、さまざまなソースからさまざまな形式で提供されるようになっています。特にサードパーティのデータを利用してビジネスロジックを強化する企業(天気予報が売り上げにどのように影響するか)が増えています。

AIデータ分析システムの高度化に伴い、構造化(数値)および非構造化(テキスト、画像、ビデオ)のすべてのタイプのデータを処理できるようになりました。

Redshiftのようなクラウドウェアハウスのデータストレージは非常に安価であり、データ収集とストレージを担当するさまざまな役割を持ちます。そのため、企業がすべてのデータがどのようにフォーマットされているかを考えずに、一旦クラウドウェアハウスに送りこみ、フォーマットされていても後で処理します。

ここは、AIBIの組み合わせが活躍する場所となります。データを抽出し、変換を実行してから、BIツールにロード。前述の同じAI機能をこの方法で適用して、エンドポイントで使用可能なデータを得ることができるようにります。(例:重複レコードの削除、空白値の入力、学習データセットに基づくクラスタリングやセグメンテーションなどの他のクレンジングおよび変換アクション)。データが保存されている場合でも、適切なAI分析ツールを使用することで、データをより適切な形にできます。そして、BIプラットフォームまたはデータサイエンスツールにデータをロードする際にも役立ちます。

次に、データをBIシステムに移動している間、AIアシストの大きなチャンスはプロセスを監視することです。ロードが失敗した場合、通常想定されるより時間がかかった場合、AIはそれを学習し、エンジニアへ問題があることを知らせます。ロードされるデータ量の突然の変化も知らせてくれるので、エンジニアはそれを調べて、より大きな問題があるかどうかを確認することができます。

要するに、強力なAI分析システムは、忙しいデータエンジニアリングチームの第2の目となり、分析チーム、そして最終的にはビジネスにより多くの価値をもたらす課題に集中することができるようになるでしょう。

外れ値、効率、および結果の検証

外れ値の検出は、AIシステムが処理できるように設計できるタスクの1つであり、完全ではない大量のデータを扱うデータエンジニアにとって大きなメリットがあります。AIは、テーブルが作成され、新しいデータがロードされるときにテーブルを監視し、出力を確認します。システムは列内の値をスキャンするときに、一意性、参照整合性(他のテーブルのキーである値に対する)、歪んだ分布、null値、許容値などをテストできます。基本的には、テーブル全体をチェックし、適用可能な一連のルールに基づいて「この列は正しいように見えますか?」という質問をします。AIは、ルールの1つが適用でき、列の値がルールの条件を満たさないと考えた場合、エンジニアにアラートを送信します。

確認作業をせずにデータが正しいと信じることは、良くない結果を招きます。おおよその答えを知っている質問がある場合、それはAIが出力したデータを大まかにテストするための最適な方法になります。もし回答が許容範囲内であった場合、準備プロセスが(許容可能)成功したことがわかります。もし大幅な不一致が出た場合は、システムを再トレーニングするか、使用している設定の厳格さ/緩みを調整する必要があります。

AIを備えたBIシステムが支援できるその他のタスクには、モデル全体で最も頻繁に発生する結合の表示や、事前集計の提案があります。これは、データアナリストがクエリを高速化させることや、それらを支援することに役立ちます。AIは列をスキャンし、一意性をテストすることもできます。たとえば、SalesforceアカウントのID列など、すべての値を一意にする必要があるにも関わらず、同じアカウントIDを持つ2人の異なるユーザーがいた場合、AIはそれを提示することができます。純粋な数値データの場合、AIは、不適切に入力された可能性のあるデータの外れ値を識別することができます。いずれにしても、AIはまたしても人間の第3の目となり、大規模で詳細なルーチン作業を行い、必要な場合にのみ結果を人間のデータエンジニアに提示します。

AIはエンジニアの仕事をしているか?

人間がロボットによって仕事を失うというのは面白い話ですが、実際には、データエンジニアにとって真実とはほど遠いものです。冗長データの排除、データセットのギャップの埋め合わせ、異常が発生した場合に人間のエンジニアへ知らせるなどの日常的なタスクへの取り組みには、AI分析システムがとても役立ちます。人間がやりたがらない重労働を行う、勤勉なデータエンジニアとしてのAIを増やすことで、人間のエンジニアは、より知的でクリエイティブな発想を持ち、企業にとってより大きなビジネスにつながることに取り組めるようにようになるでしょう。

 

この投稿に記載されているすべてのデータは情報提供のみを目的としており、正確ではありません。前もってご了承ください。
本記事は、Sisense社の許諾のもと弊社独自で記事化しました。
https://www.sisense.com/blog/will-ai-assist-data-engineers-or-replace-them/

SisenseおよびSisense Hunchは、Sisense Inc の商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。