GRANVALLEY

ブログBlog

ChatGPT AIでデータの準備を高速化する

公開日 2023年1月10日    最終更新日 2023年4月10日

2022年11月末にOpenAPIが発表したChatGPTは、人工知能の可能性に対する認識を一変させました。その破壊的なインパクトは、2007年のiPhoneの登場と比較されるほどです。

この記事では、ChatGPTがアナリティクスに対して変化をもたらすのかをまとめながら、分析プロセスの時間と労力の節約と、より多くのインサイトを得るための使用方法について説明します。

ChatGPTとは

ChatGPTは、GPT-3.5の上にGenerative Pre-training Transformer言語モデルとして構築されチャットボットです。幅広いユーザーの言葉を元に応答文を生成します。そのため、コーディング、顧客サービスの応答、言語翻訳の提供するなど、多くの使用例を持ち合わせています。

この記事ではSisenseとの連携について紹介します。ChatGPTをシームレスに統合することで、分析チームを強化することが可能になります。

ChatGPTを分析ツールと統合する必要がある理由

今日、ビジネスアナリストやデータアナリストは、分析に必要なデータの準備に全体時間の70~80%を費やしていると言われています。その大部分は、データの用意やラベル付け、分析に必要な新しい属性作成に費やされています。これは地道かつ非常に骨の折れる作業です。さらに、データセットに新しいフィールドを追加し、アナリストがそれを使ってスライスやダイスを行うのは、しばしば苦痛を伴います。

例えば、一見単純に見えるクエリを考えてみましょう。

「顧客の業種別内訳をみたい!」

これは、新規市場への参入や新製品の発売に関する意思決定を行う上で、非常に重要な問いとなります。しかし、データセットに含まれる何千もの顧客が、あらかじめデータ上で産業別にセグメント化がなされていなかったら?。データやデータモデルのフィールドに業種が無い場合、分析者はかなりの時間と労力を費やさなければなりません。

一般的に、一旦データに戻り、その分類をデータセットに追加し、データウェアハウスに再ロードすることになります。しかし、この作業は非常に時間がかかります。多くの場合、サードパーティのデータセットを目検で照合しながらGoogle検索を繰り返し、手作業で顧客レコードにタグ付けし、ExcelやカスタムPythonスクリプトで複雑なIF()式やVLOOKUP()式を使うなど、項目を追加するには、このような手間をかけた作業が必要です。もちろんデータモデルの更新は言うまでもありません。

さらに悪いことに、もしチームがその後、郵便番号や都道府県などの新しい方法でデータを分類しラベル付けする必要がある場合、再度手動でデータを準備することになります。

ChatGPTは、このような作業を自動で行います。しかし、前準備として、アナリティクスに織り込む必要があります。これを行えば、AIを搭載した常時稼働のパーソナル・データプレパレーションとデータアナリストボットをアナリティクスの一部機能とすることで、ChatGPTに尋ねるだけでデータとデータモデルを拡張・増強できるようになるのです。

ChatGPTを利用して作業を行うことで、分析チームはデータの準備や増強などの手作業から解放され、より付加価値の高い戦略的な作業に時間を割けます。さらに重要なのは、ChatGPTが裏で作業を行うことにより、分析クエリやデータのセグメント化をより柔軟に行えるようになり、時間の節約だけでなく、変革的な価値が得られることです。

Sisense + ChatGPT – 分析力を強化する新しい方法

ChatGPTをシームレスに統合することで、この力を直接Sisense Fusionで実現したいと考えました。この新しい統合は、Sisense Fusion のユニークで柔軟な機能を活用し、Sisense から ChatGPT への動的なクエリを実行する Python コードを構築し、その結果に基づいて Sisense ElastiCube に新しいデータベーステーブルと関係を自動的に生成しています。

Sisense の柔軟な API を使用して、Sisense BloX でインタラクティブな Q&A 環境を提供する全く新しい UI を作成しました。Sisense ユーザーは、データセットとモデルをどのように増強したいかを ChatGPT に伝え、ダッシュボードで直接その操作を行うことで、Sisense と ChatGPT が残りの処理を即座に行います。

この記事の冒頭で述べた「業種別の顧客の内訳をみたい」という問いに対して、SisenseとChatGPTを使用して、どのように機能するかを見てみましょう。

以下は、今回のデータ例です。最終的には業種別の顧客割合を知りたいのですが、見ての通り、データには存在しません。そのため、業種属性を追加する必要があります。

big_accounts

ChatGPTに必要なことを簡単に質問できるように、Sisense BloXを使って、Sisenseダッシュボード上にシンプルな対話型ウィジェットを構築しました。この新しいUIを使って、必要なことをChatGPTに問いかけます。

chatgpt-image

この例では、ChatGPTに自然言語で企業リストの業界セグメンテーションが必要だと伝えています。そして、ダッシュボード、ウィジェット、カラム名、最終的にChatGPTから業種ラベルを取得したい企業のリストを提供します。

UIは、質問をJSONとして、フォーマット化された顧客アカウントの動的な入力リストを含むPythonスクリプトを実行し、それをChatGPTに送信し、各顧客の業界を取得します。 また、定期的なデータモデル更新の際に、Q&A UIではなくPythonを実行することで、ChatGPTのリッチ化を追加することも可能です。

結果セットは、ChatGPTからJSONドキュメントとしてSisense Fusionに引き渡されます。Pythonスクリプトは、ChatGPTの結果セットに基づいてElastiCube(またはデータベース)に新しいテーブルを動的に作成し、モデル内のテーブル間に新しいリレーションシップを追加します。最終的には、何時間も何日もかけて行ってきたデータの準備作業を、その場にて短時間で終了することができました。

この例では、ChatGPTは、各顧客と関連する業界ラベルをJSONで返します。そして、スクリプトはこれをデータモデルに新しいディメンションとして追加し、口座名に基づく自然な結合で勝ち負けのファクトテーブルを自動的に結合します。

segmentation

データモデルに追加された拡張データを手に入れれば、分析を続けるのは簡単です。例えば、Sisense Fusionを使って、業種別の顧客分布を示す、2つの新しいビジュアライゼーションを作成することが可能となります。

chart-by-industry

このような統合により、数週間かかっていた分析が数分で完了するようになります。さらにインタラクティブなBloXウィジェットを使えば、ChatGPTが提供する他のあらゆるデータを、自然言語を使って簡単に補強・充実させることができます。

そしてもう一つ。ソフトウェア会社の場合、BloXウィジェットを自社製品に埋め込むことで、Sisense Fusion EmbedにChatGPTの強力な分析機能を追加することが可能です。つまり、ChatGPTを利用した製品内埋め込み分析が、顧客や見込み客へ対しての差別化要因となります。

Sisense + ChatGPTの活用を始めてみませんか?。

この投稿に記載されているすべてのデータは情報提供のみを目的としており、正確ではありません。前もってご了承ください。
本記事は、Sisense社の許諾のもと弊社独自の見解を追加し記事化しております。
https://www.sisense.com/blog/supercharge-analytics-with-chatgpt/

Sisenseは、Sisense Inc の商標または登録商標です。
※ その他の会社名、製品名は各社の登録商標または商標です。
※ 記事の内容は記事公開時点での情報です。閲覧頂いた時点では異なる可能性がございます。