LlamaIndex、Elasticsearch、Mistralを使用したRAG

Q: LlamaIndexとは何ですか?

LlamaIndex は、LLM (大規模言語モデル) アプリケーションを構築するための主要なデータ フレームワークです。

Q: ミストラルとは何ですか?

Mistral は、オープンソースと最適化されたエンタープライズ グレードの LLM モデルの両方を提供する企業です。

Elasticsearchは、業界をリードする生成AIツールやプロバイダーとネイティブに統合されています。RAG応用編やElasticベクトルデータベースで本番環境対応のアプリを構築する方法についてのウェビナーをご覧ください。

ユースケースに最適な検索ソリューションを構築するには、無料のクラウドトライアルを始めるか、ローカルマシンでElasticを試してみてください。

このブログでは、Elasticsearch をベクターデータベースとして使用し、RAG テクニック (Retrieval Augmented Generation) を使用して Q&A エクスペリエンスを実装する方法について説明します。LlamaIndex とローカルで実行されている Mistral LLM を使用します。

始める前に、いくつかの用語を見てみましょう。

用語について

LlamaIndex は、LLM (大規模言語モデル) アプリケーションを構築するための主要なデータフレームワークです。LlamaIndex は、RAG (Retrieval Augmented Generation) アプリケーションの構築のさまざまな段階に抽象化を提供します。LlamaIndex や LangChain などのフレームワークは、アプリケーションが特定の LLM の API に密結合されないように抽象化を提供します。

ElasticsearchはElasticによって提供されています。Elastic は、精度の高い全文検索、意味理解のためのベクトル検索、両方の長所を生かしたハイブリッド検索をサポートする検索および分析エンジンである Elasticsearch を提供する業界リーダーです。Elasticsearch はスケーラブルなデータストアおよびベクターデータベースです。このブログで使用している Elasticsearch の機能は、Elasticsearch の無料およびオープンバージョンで利用できます。

検索拡張生成 (RAG)は、LLM に外部知識を提供してユーザークエリへの応答を生成する AI テクニック/パターンです。これにより、LLM 応答を特定のコンテキストに合わせて調整できるようになり、応答がより具体的になります。

Mistral は、オープンソースと最適化されたエンタープライズグレードの LLM モデルの両方を提供します。このチュートリアルでは、ラップトップで実行されるオープンソースモデルmistral-7bを使用します。ラップトップでモデルを実行したくない場合は、代わりにクラウドバージョンを使用することもできます。その場合、適切な API キーとパッケージを使用するようにこのブログのコードを変更する必要があります。

Ollama は、ラップトップ上で LLM をローカルに実行するのに役立ちます。Ollama を使用して、オープンソースの Mistral-7b モデルをローカルで実行します。

埋め込みは、テキスト/メディアの意味を数値的に表現したものです。それらは高次元情報の低次元表現です。

LlamaIndex、Elasticsearch、Mistral を使用した RAG アプリケーションの構築: シナリオの概要

シナリオ：

架空の住宅保険会社のエージェントと顧客間のコールセンター会話のサンプルデータセット (JSON ファイル) があります。次のような質問に答えられるシンプルなRAGアプリケーションを構築します。

Give me summary of water related issues.

高レベルフロー

Ollama を使用して Mistral LLM をローカルで実行しています。

次に、JSON ファイルからの会話をDocumentsとしてElasticsearchStore (Elasticsearch を基盤とする VectorStore) に読み込みます。ドキュメントをロードする際に、ローカルで実行されている Mistral モデルを使用して埋め込みを作成します。これらの埋め込みは会話とともに LlamaIndex Elasticsearch ベクターストア ( ElasticsearchStore ) に保存されます。

LlamaIndex IngestionPipeline を設定し、使用するローカル LLM (この場合は Ollama 経由で実行される Mistral) に提供します。

「水に関する問題の概要を教えてください。」のような質問をすると、Elasticsearch はセマンティック検索を実行し、水問題に関連する会話を返します。これらの会話は元の質問とともに、ローカルで実行されている LLM に送信され、回答が生成されます。

RAGアプリケーションの構築手順

Mistralをローカルで実行する

Ollamaをダウンロードしてインストールします。Ollamaをインストールした後、このコマンドを実行してmistralをダウンロードして実行します。

モデルを初めてローカルにダウンロードして実行するには数分かかる場合があります。以下のような「雲についての詩を書いてください」という質問をして、ミストラルが実行されているかどうかを確認し、その詩が気に入ったものかどうかを確認します。後でコードを通じてミストラルモデルとやり取りする必要があるため、ollama を実行したままにしておきます。

Elasticsearchをインストール

クラウドデプロイメントを作成する (手順はこちら) か、Docker で実行する (手順はこちら) ことで、Elasticsearch を起動して実行します。ここから開始して、Elasticsearch の実稼働グレードのセルフホスト型デプロイメントを作成することもできます。

クラウドデプロイメントを使用している場合は、手順に記載されているように、デプロイメント用の API キーとクラウド ID を取得します。後で使用します。

RAGアプリケーション

参考までに、コード全体はこのGithub リポジトリにあります。以下のコードを実行するため、リポジトリのクローン作成はオプションです。

お気に入りの IDE で、以下の 3 つのファイルを使用して新しい Python アプリケーションを作成します。

index.py データのインデックス作成に関連するコードが配置される場所。
query.py クエリと LLM の相互作用に関連するコードが配置される場所。
.env API キーなどの構成プロパティが配置される場所。

いくつかのパッケージをインストールする必要があります。まず、アプリケーションのルートフォルダーに新しい Python仮想環境を作成します。

仮想環境をアクティブ化し、以下の必要なパッケージをインストールします。

データのインデックス作成

架空の住宅保険会社の顧客とコールセンターエージェント間の会話が含まれる conversations.json ファイルをダウンロードします。アプリケーションのルートディレクトリに、2つのPythonファイルと.envファイルと一緒にファイルを配置します。先ほど作成したファイル。以下はファイルの内容の例です。

index.pyに、json ファイルを読み取ってドキュメントのリストを作成するget_documents_from_fileという関数を定義します。ドキュメントオブジェクトは、LlamaIndex が扱う情報の基本単位です。

IngestionPipelineを作成する

まず、 Install Elasticsearchセクションで取得した Elasticsearch CloudID と API キーを.envファイルに追加します。.envファイルは以下のようになります (実際の値を使用)。

LlamaIndex IngestionPipeline を使用すると、複数のコンポーネントを使用してパイプラインを構成できます。以下のコードをindex.pyファイルに追加します。

前述のように、LlamaIndex IngestPipeline は複数のコンポーネントで構成できます。パイプラインの行pipeline = IngestionPipeline(...に 3 つのコンポーネントを追加しています。

SentenceSplitter : get_documents_from_file()の定義からわかるように、各ドキュメントには、json ファイルにある会話を保持するテキストフィールドがあります。このテキストフィールドは長いテキストです。セマンティック検索がうまく機能するには、小さなテキストのチャンクに分割する必要があります。SentenceSplitterクラスがこれを実行します。これらのチャンクは、LlamaIndex 用語ではノードと呼ばれます。ノードには、それが属するドキュメントを指すメタデータが存在します。あるいは、このブログで示されているように、Elasticsearch Ingestpipeline を使用してチャンク化することもできます。
OllamaEmbedding : 埋め込みモデルは、テキストの一部を数値 (ベクトルとも呼ばれます) に変換します。数値表現を使用すると、単なるテキスト検索ではなく、単語の意味と一致する検索結果を表示するセマンティック検索を実行できます。IngestionPipeline にOllamaEmbedding("mistral")を提供します。SentenceSplitter を使用して分割したチャンクは、Ollama を介してローカルマシンで実行されている Mistral モデルに送信され、Mistral によってチャンクの埋め込みが作成されます。
ElasticsearchStore : LlamaIndex ElasticsearchStore ベクターストアは、作成される埋め込みを Elasticsearch インデックスにバックアップします。ElasticsearchStore は、指定された Elasticsearch インデックスの内容の作成と入力を担当します。ElasticsearchStore ( es_vector_storeで参照) を作成する際に、作成する Elasticsearch インデックスの名前 (この場合はcalls )、埋め込みを保存するインデックスのフィールド (この場合はconversation_vector )、およびテキストを保存するフィールド (この場合はconversation ) を指定します。要約すると、設定に基づいて、 ElasticsearchStore Elasticsearch に新しいインデックスを作成し、 conversation_vectorとconversationフィールドとして（他の自動作成されたフィールドとともに）使用します。

これらすべてを結び付けて、 pipeline.run(documents=documents)を呼び出してパイプラインを実行します。

index.py スクリプトを実行して、取り込みパイプラインを実行します。

パイプラインの実行が完了すると、Elasticsearch にcallsという新しいインデックスが表示されます。開発コンソールを使用して単純な elasticsearch クエリを実行すると、埋め込みとともに読み込まれたデータが表示されるはずです。

これまでに行ったことをまとめると、JSON ファイルからドキュメントを作成し、それをチャンクに分割し、それらのチャンクの埋め込みを作成し、埋め込み (およびテキスト会話) をベクターストア (ElasticsearchStore) に保存しました。

クエリ

llamaIndex VectorStoreIndex を使用すると、関連するドキュメントを取得したり、データをクエリしたりできます。デフォルトでは、 VectorStoreIndex は埋め込みをSimpleVectorStore内のメモリ内に格納します。ただし、埋め込みを永続化するために、代わりに外部のベクトルストア ( ElasticsearchStoreなど) を使用することもできます。

query.pyを開いて以下のコードを貼り付けます

Ollama 上で実行されている Mistral モデルを指すようにローカル LLM ( local_llm ) を定義します。次に、先ほど作成した ElasticssearchStore ベクトルストアから VectorStoreIndex ( index ) を作成し、インデックスからクエリエンジンを取得します。クエリエンジンを作成するときに、応答に使用するローカル LLM を参照し、ベクターストアから取得して LLM に送信して応答を取得するドキュメントの数を構成する ( similarity_top_k=10 ) も提供します。

RAG フローを実行するには、 query.pyスクリプトを実行します。

クエリGive me summary of water related issuesを送信します ( queryは自由にカスタマイズできます)。関連するドキュメントとともに提供される LLM からの応答は次のようになります。

提供されたコンテキストでは、水に関連する損害の補償について顧客が問い合わせた例がいくつかあります。2件のケースでは洪水により地下室が損傷し、別のケースでは屋根の漏水が問題となった。代理店は、両方のタイプの水害がそれぞれの保険でカバーされていることを確認しました。したがって、浸水や屋根の漏水などの水関連の問題は、通常、住宅保険でカバーされます。

注意点:

このブログ投稿は、Elasticsearch を使用した RAG テクニックの初心者向け紹介であるため、この開始点を本番環境に移行できるようにする機能の構成については省略しています。実稼働ユースケース向けに構築する場合は、ドキュメントレベルのセキュリティでデータを保護したり、Elasticsearch取り込みパイプラインの一部としてデータをチャンク化したり、GenAI/チャット/Q&A ユースケースで使用されているのと同じデータで他のML ジョブを実行したりするなど、より高度な側面を考慮する必要があります。

Elastic Connectorsを使用して、さまざまな外部ソース (Azure Blob Storage、Dropbox、Gmail など) からデータを取得し、埋め込みを作成することも検討してください。

Elastic は、上記すべてとそれ以上のことを可能にし、GenAI ユースケースなどに対応する包括的なエンタープライズグレードのソリューションを提供します。

What’s next?

お気づきかもしれませんが、応答を作成するために、ユーザーの質問とともに 10 件の関連する会話が LLM に送信されています。これらの会話には、名前、生年月日、住所などの PII (個人を特定できる情報) が含まれる場合があります。私たちの場合、LLM はローカルなので、データ漏洩は問題になりません。ただし、クラウドで実行される LLM (OpenAI など) を使用する場合は、PII 情報を含むテキストを送信することは望ましくありません。次回のブログでは、RAG フローで外部 LLM に送信する前に PII 情報をマスキングする方法について説明します。
この投稿ではローカル LLM を使用しました。RAG での PII データのマスキングに関する次の投稿では、ローカル LLM からパブリック LLM に簡単に切り替える方法について説明します。