ChatGPTコネクター：ElasticsearchでGitHubのイシューをクエリ

最近、OpenAIはPro/Business/EnterpriseおよびEduプラン向けにChatGPT向けのカスタムコネクター機能を発表しました。これは、Gmail、GitHub、Dropboxなどのデータを活用するためのすぐに使えるコネクターへの追加となります。MCPサーバーを使用してカスタムコネクターを作成できます。

カスタムコネクターを使用すると、既存のChatGPTコネクターをElasticsearchなどの追加のデータソースと組み合わせて、包括的な回答を得ることができます。

この記事では、内部のGitHubの課題とプルリクエストに関する情報を含むElasticsearchインデックスにChatGPTを接続するMCPサーバーを構築します。これにより、Elasticsearchデータを使用して自然言語クエリに回答できるようになります。

Google ColabのFastMCPとngrokを使ってMCPサーバーをデプロイし、ChatGPTが接続できる公開URLを取得し、複雑なインフラ構築の必要性を排除します。

MCPとそのエコシステムの包括的な概要については、MCPの現在の状態をご参照ください。

要件

始める前に必要なものは次のとおりです。

Elasticsearchクラスター（8.X以降）
インデックスへの読み取りアクセス権を持つ Elasticsearch APIキー
Googleアカウント（Google Colab用）
Ngrokアカウント（無料プランでも可）
Pro/Enterprise/BusinessまたはEduプランのChatGPTアカウント

ChatGPT MCPコネクターの要件を理解する

ChatGPT MCPコネクターには、searchとfetchの2つのツールを実装する必要があります。詳細については、OpenAIドキュメントをご覧ください。

検索ツール

ユーザークエリに基づいて、Elasticsearchインデックスから関連する結果のリストを返します。

受け取るもの：

ユーザーの自然言語クエリを含む単一の文字列。
例：「Elasticsearch移行に関連するイシューを見つけて」

返されるもの：

結果オブジェクトの配列を含むresultキーを持つオブジェクト。各結果には以下が含まれます。
- id - 一意の文書識別子
- title - イシューまたはPRタイトル
- url - イシュー/PRへのリンク

実装内容：

フェッチ・ツール

特定の文書の完全な内容を取得します。

受け取るもの：

検索結果からElasticsearch文書IDを入力する単一の文字列
例：「PR-578の詳細を教えてください。」

返されるもの：

以下を含む完全な文書オブジェクト：
- id - 一意の文書識別子
- title - イシューまたはPRタイトル
- text - 完全なイシュー・PRの説明と詳細
- url - イシュー/PRへのリンク
- type - 文書の種類（issue, pull_request）
- status - 現在のステータス（open, in_progress, resolved）
- priority - 優先度レベル（low, medium, high, critical）
- assignee - イシュー/PRの担当者
- created_date - 作成された時期
- resolved_date - 解決された時期（該当する場合）
- labels 文書に関連するタグ
- related_pr - 関連するプルリクエストID

注：この例では、すべてのフィールドがルートレベルにあるフラット構造を使用しています。OpenAIの要件は柔軟で、ネストされたメタデータオブジェクトもサポートしています。

GitHubのデータセットとプルリクエストデータセット

このチュートリアルでは、イシューとプルリクエストを含む内部GitHubデータセットを使用します。これは、ChatGPTを通じてプライベートな内部データをクエリするシナリオを表しています。

データセットはこちらからご覧いただけます。そして、Bulk APIを使ってデータのインデックスを更新します。

このデータセットには以下が含まれます。

説明、ステータス、優先順位、担当者に関する問題
コード変更、レビュー、導入情報を含むプルリクエスト
イシューとPRの関係（例：PR-578がISSUE-1889を修正）
ラベル、日付、その他のメタデータ

インデックスマッピング

インデックスは、ELSERとのハイブリッド検索をサポートするために以下のマッピングを使用します。text_semanticはセマンティック検索に使用され、他のフィールドはキーワード検索を可能にします。

MCPサーバーを構築する

当社のMCPサーバーは、OpenAI仕様に従って2つのツールを実装しています。ハイブリッド検索を使用してセマンティックマッチングとテキストマッチングを組み合わせることで、より良い結果が得られます。

検索ツール

RRF（相互ランク融合）を用いたハイブリッド検索を使用し、セマンティック検索とテキストマッチングを組み合わせています。

主なポイント：

RRFを用いたハイブリッド検索： より良い結果を得るために、セマンティック検索（ELSER）とテキスト検索（BM25）を組み合わせます。
複数一致クエリ：ブースティングを使用して複数のフィールドを検索します（title^3, text^2, assignee^2）。キャレット記号（^）は関連性スコアを乗算し、コンテンツよりもタイトルの一致を優先します。
あいまい一致： fuzziness: AUTO は近似一致を許可することでタイプミスやスペルミスを処理します。
RRFのパラメーター調整：
- rank_window_size: 50 - マージする前に、各リトリーバー（セマンティックとテキスト）からの上位結果をいくつ考慮するかを指定します。
- rank_constant: 60 - この値は、個々の結果セット内の文書が最終的なランク付け結果にどの程度影響を与えるかを決定します。
必須フィールドのみを返す： id、title、urlはOpenAIの仕様に従い、追加のフィールドを不必要に公開しないようにします。

フェッチ・ツール

文書IDが存在する場合は、そのIDで文書の詳細を取得します。

主なポイント：

文書IDのフィールドで検索：カスタム idフィールドに用語クエリを使用します
完全な文書を返す： すべてのコンテンツを含む完全なtextフィールドが含まれます
フラットな構造：すべてのフィールドがルートレベルにあり、Elasticsearchのドキュメント構造に一致します。

Google Colabにデプロイする

Google Colabを使用してMCPサーバーを実行し、ngrokで公開することで、ChatGPTが接続できるようにします。

ステップ1：Google Colabノートブックを開く

事前設定されたノートブックElasticsearch MCP for ChatGPTにアクセスします。

ステップ2：認証情報を設定する

次の3つの情報が必要になります。

Elasticsearch URL：お客様のElasticsearchクラスタリングURL。
Elasticsearch API キー：インデックスへの読み取りアクセス権を持つAPIキー。
Ngrok認証トークン：ngrokからの無料トークン。ngrokを使ってMCPのURLをインターネットに公開し、ChatGPTが接続できるようにします。

ngrokトークンの取得

ngrokで無料アカウントに登録します。
ngrokダッシュボードにアクセスします。
認証トークンをコピーします。

Google Colabにシークレットを追加する

Google Colabノートブック内で：

左側のサイドバーにあるキーアイコンをクリックして、シークレットを開きます。
次の3つのシークレットを追加します。

3. 各シークレットのノートブックアクセスを有効にします。

ステップ3：ノートブックを実行する

ランタイムをクリックし、次にすべて実行をクリックして、すべてのセルを実行します。
サーバーの起動を待ちます（約30秒）。
公開ngrok URLを示す出力を探します。

4. 出力は次のようになります。

ChatGPTに接続する

次に、MCPサーバーをあなたのChatGPTアカウントに接続します。

ChatGPTを開き、設定に移動します。
コネクターに移動します。Proアカウントを使用している場合は、コネクタで開発者モードをオンにする必要があります。

ChatGPT EnterpriseまたはBusinessを使用している場合は、コネクターを職場に公開する必要があります。

3. 作成をクリックします。

注：Business、Enterprise、Eduワークスペースでは、ワークスペースの所有者、管理者、およびそれぞれの設定が有効になっているユーザー（Enterprise/Eduの場合）のみがカスタムコネクターを追加できます。通常のメンバーロールのユーザーには、自分でカスタムコネクターを追加する権限がありません。

コネクターが所有者または管理者ユーザーによって追加され有効化されると、ワークスペースのすべてのメンバーが使用できるようになります。

4. 必要な情報と、/sse/で終わるngrokのURLを入力します。「sse」の後の「/」に注意してください。これがない場合、動作しません。