ユーザ行動データに基づく判断リストを使用したLTRモデルのトレーニング

ランク付け学習モデルを使用する際の大きな課題は、モデルをトレーニングするための高品質の判断リストを作成することです。従来、このプロセスでは、クエリとドキュメントの関連性を手動で評価し、それぞれにグレードを割り当てていました。これは、拡張性が低く、維持が困難な、時間のかかるプロセスです (数百のエントリを含むリストを手動で更新する必要があることを想像してください)。

さて、検索アプリケーションでの実際のユーザーインタラクションを使用してこのトレーニングデータを作成できたらどうなるでしょうか?UBIデータを使用すると、まさにそれが実現できます。検索、クリック、その他のインタラクションをキャプチャして使用し、判断リストを生成できる自動システムを作成します。このプロセスは、手動による操作よりもはるかに簡単に拡張および繰り返すことができ、より良い結果が得られる傾向があります。このブログでは、Elasticsearch に保存されている UBI データをクエリして意味のある信号を計算し、 LTRモデルのトレーニングデータセットを生成する方法について説明します。

完全な実験はここでご覧いただけます。

UBIデータがLTRモデルのトレーニングに役立つ理由

UBI データには、手動による注釈に比べていくつかの利点があります。

量: UBI データは実際のやり取りから得られるため、手動で生成できるよりもはるかに多くのデータを収集できます。もちろん、このデータを生成するのに十分なトラフィックがあることを前提としています。
実際のユーザーの意図:従来、手動の判断リストは、利用可能なデータの専門家による評価から作成されます。一方、UBI データは実際のユーザー行動を反映しています。これは、何が関連しているべきかという理論的な仮定ではなく、ユーザーが実際にコンテンツとやりとりして価値を見出す方法に基づいているため、検索システムの精度を向上させる、より優れたトレーニングデータを生成できることを意味します。
継続的な更新:判断リストは時間の経過とともに更新する必要があります。UBI データから作成すれば、最新のデータが得られ、判断リストが更新されます。
コスト効率:判断リストを手動で作成するオーバーヘッドがないため、プロセスを何度でも効率的に繰り返すことができます。
自然なクエリ分布: UBI データは実際のユーザークエリを表し、より深い変化を促すことができます。たとえば、ユーザーはシステム内で検索する際に自然言語を使用しているでしょうか?もしそうなら、セマンティック検索またはハイブリッド検索アプローチを実装する必要があるかもしれません。

ただし、いくつかの警告も伴います。

バイアスの増幅:人気のあるコンテンツは、露出が増えるため、クリックされる可能性が高くなります。そのため、人気のあるアイテムが強調され、より良い選択肢が埋もれてしまう可能性があります。
カバレッジが不完全:新しいコンテンツにはインタラクションがないため、結果の上位に表示されることは難しい可能性があります。まれなクエリでは、意味のあるトレーニングデータを作成するのに十分なデータポイントが不足している場合もあります。
季節的な変動:ユーザーの行動が時間の経過とともに劇的に変化することが予想される場合、履歴データからは、どのような結果が適切であるかについてあまり情報が得られない可能性があります。
タスクの曖昧さ:クリックしても、ユーザーが探していたものが見つかるとは限らない。

成績計算

LTRトレーニングのグレード

LTR モデルをトレーニングするには、ドキュメントがクエリにどの程度関連しているかを数値で表現する必要があります。私たちの実装では、この数値は 0.0 から 5.0+ までの連続したスコアであり、スコアが高いほど関連性が高くなります。

この評価システムがどのように機能するかを示すために、手動で作成された次の例を考えてみましょう。

クエリ	文書の内容	学年	説明
「最高のピザレシピ」	「本格的なイタリアンピザ生地のレシピ（写真付きステップバイステップ）」	4.0	関連性が高く、まさにユーザーが探しているもの
「最高のピザレシピ」	「イタリアのピザの歴史」	1.0	ピザに関する内容ですが、レシピではありません
「最高のピザレシピ」	「初心者向け15分でできる簡単ピザレシピ」	3.0	関連性があり、良い結果ですが、「最高」のレシピとは言えないかもしれません。
「最高のピザレシピ」	「車のメンテナンスガイド」	0.0	全く関係ありません。クエリとは全く関係ありません。

ここからわかるように、グレードは、ドキュメントが「最高のピザのレシピ」というサンプルクエリにどれだけ関連しているかを数値で表したものです。これらのスコアを使用して、LTR モデルはどのドキュメントを結果の上位に表示する必要があるかを学習できます。

成績の計算方法は、トレーニングデータセットの中核です。これを行うには複数のアプローチがあり、それぞれに長所と短所があります。たとえば、関連性がある場合は 1、関連性がない場合は 0 というバイナリスコアを割り当てたり、クエリごとに結果のドキュメントのクリック数をカウントしたりすることもできます。

このブログ投稿では、ユーザーの行動を入力として考慮し、グレード番号を出力として計算する、異なるアプローチを使用します。また、ドキュメントの関連性に関係なく、検索結果の上位の方がクリックされる傾向があるという事実から生じる可能性のあるバイアスも修正します。

成績の計算 - COECアルゴリズム

COEC ( Clicks over Expected Clicks ) アルゴリズムは、ユーザーのクリックから判断グレードを計算する手法です。前述したように、ユーザーは、ドキュメントがクエリに最も関連していない場合でも、上位に表示された結果をクリックする傾向があります。これは、ポジションバイアスと呼ばれます。COEC アルゴリズムを使用する際の基本的な考え方は、すべてのクリックが同等に重要であるわけではないということです。つまり、位置 10 のドキュメントをクリックすると、位置 1 のドキュメントをクリックするよりも、そのドキュメントがクエリとの関連性がはるかに高いことを示します。COEC アルゴリズムに関する研究論文 (上記リンク) を引用します。

「検索結果や広告のクリック率（CTR）は、検索結果の順位によって大幅に低下することがよく知られています。」

ポジションバイアスの詳細については、こちらをご覧ください。

COEC アルゴリズムを使用してこれに対処するには、次の手順に従います。

1. 位置のベースラインを確立する:検索位置ごとに 1 から 10 までのクリック率 (CTR) を計算します。つまり、通常、ユーザーの何パーセントが位置 1、位置 2 などをクリックするかを決定します。このステップでは、ユーザーの自然な位置の偏りを捉えます。CTR は次のように計算します。

CTRp=CpIp

どこ：

p = 位置。1から10まで
Cp = すべてのクエリにおける位置pでの合計クリック数（任意のドキュメント）
Ip = 総表示回数: すべてのクエリで、任意のドキュメントが位置 p に表示された回数

ここでは、上位の順位の方がクリック数が多くなると予想されます。

2.予想クリック数（EC）を計算する:

この指標は、ドキュメントが表示された位置とその位置のCTRに基づいて、ドキュメントが「受け取るべき」クリック数を決定します。ECは次の方法で計算します。

EC (for a document) = qQdCTRpos(d,q)

どこ：

Qd = 文書dが出現したすべてのクエリ
pos(d,q) = クエリqの結果における文書dの位置

3.実際のクリック数をカウントする:ドキュメントが表示されたすべてのクエリでドキュメントが受け取った実際の合計クリック数をカウントします。以降、 A(d) と呼びます。

4. COECスコアを計算します。これは、実際のクリック数（A(d)）と予想クリック数（EC(d)）の比率です。

COEC = A(d)EC(d)

このメトリックは、次のように位置バイアスを正規化します。

スコア 1.0 は、ドキュメントが表示された位置に応じて、期待どおりに実行されたことを意味します。
スコアが 1.0 を超える場合、ドキュメントの位置を見ると予想よりもパフォーマンスが優れていることを意味します。したがって、このドキュメントはクエリに対してより関連性があります。
スコアが 1.0 未満の場合、ドキュメントの位置から判断すると、予想よりもパフォーマンスが悪かったことを意味します。したがって、このドキュメントはクエリとの関連性が低くなります。

最終結果は、検索システムとの実際のやりとりから抽出された位置ベースの期待を考慮して、ユーザーが探しているものを捉えたグレード番号になります。

技術的な実装

LTR モデルをトレーニングするための判断リストを作成するスクリプトを作成します。

このスクリプトの入力は、Elastic でインデックス化された UBI データ (クエリとイベント) です。

出力は、COEC アルゴリズムを使用してこれらの UBI ドキュメントから生成された CSV ファイル内の判断リストです。この判断リストをElandで使用すると、関連する特徴を抽出し、LTR モデルをトレーニングできます。

クイックスタート

このブログのサンプルデータから判断リストを生成するには、次の手順に従います。

1. リポジトリをクローンします。

2. 必要なライブラリをインストールする

このスクリプトには、次のライブラリが必要です。

pandas : 判定リストを保存する
elasticsearch : ElasticデプロイメントからUBIデータを取得する

Python 3.11も必要です

3. .envファイルでElasticデプロイメントの環境変数を更新します。

ES_ホスト
API_キー

環境変数を追加するには、次を使用します。

4. ubi_queries、ubi_events インデックスを作成し、サンプルデータをアップロードします。setup.py ファイルを実行します。

5. Python スクリプトを実行します。

これらの手順に従うと、次のような judgement_list.csv という新しいファイルが表示されます。

このスクリプトは、以下に示すcalculate_relevance_grade()関数を使用して、前に説明した COEC アルゴリズムを適用して成績を計算します。

データアーキテクチャ

Ubiクエリ

UBI クエリインデックスには、検索システムで実行されたクエリに関する情報が含まれています。これはサンプルドキュメントです:

ここでは、ユーザー（client_id）、クエリの結果（query_response_object_ids）、クエリ自体（timestamp、user_query）のデータを見ることができます。

Ubiクリックイベント

ubi_events インデックスには、ユーザーが結果内のドキュメントをクリックするたびに収集されたデータが含まれています。これはサンプルドキュメントです:

判定リスト生成スクリプト

スクリプトの一般的な概要

このスクリプトは、Elasticsearch に保存されているクエリとクリックイベントからの UBI データを使用して、判断リストの生成を自動化します。次のタスクを実行します:

Elasticsearch で UBI データを取得して処理します。
UBI イベントをそのクエリと関連付けます。
各位置の CTR を計算します。
各ドキュメントの予想クリック数 (EC) を計算します。
各ドキュメントの実際のクリック数をカウントします。
各クエリとドキュメントのペアの COEC スコアを計算します。
判定リストを生成し、CSVファイルに書き込みます。

それぞれの機能を見ていきましょう。

connect_to_elasticsearch()

この関数は、ホストと API キーを使用して Elasticsearch クライアントオブジェクトを返します。

fetch_ubi_data()

この関数はデータ抽出レイヤーであり、Elasticsearch に接続して match_all クエリを使用して UBI クエリを取得し、UBI イベントをフィルタリングして 'CLICK_THROUGH' イベントのみを取得します。

プロセスubi_data()

この関数は判定リストの生成を処理します。UBI イベントとクエリを関連付けることで、UBI データの処理を開始します。次に、ドキュメントとクエリのペアごとに calculate_relevance_grade() 関数を呼び出して、判断リストのエントリを取得します。最後に、結果のリストを pandas データフレームとして返します。

判断統計を生成する()

判定リストから、合計クエリ数、合計ユニークドキュメント数、グレード分布などの有用な統計情報を生成します。これは純粋に情報提供であり、結果の判断リストは変更されません。

結果と影響

クイックスタートセクションの指示に従うと、320 エントリの判定リストを含む CSV ファイルが生成されます (リポジトリでサンプル出力を確認できます)。これらのフィールド:

qid: クエリの一意のID
docid: 結果のドキュメントの一意の識別子
グレード: クエリとドキュメントのペアの計算されたグレード
クエリ: ユーザークエリ

「イタリア料理のレシピ」というクエリの結果を見てみましょう。

クイド	ドシド	学年	クエリ
q1-イタリア料理レシピ	パスタの基本レシピ	0.0	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_ピザ_マルゲリータ	3.333333	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_リゾット_ガイド	10.0	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_フレンチ_クロワッサン	0.0	イタリアのレシピ
q1-イタリア料理レシピ	レシピ_スペイン_パエリア	0.0	イタリアのレシピ
q1-イタリア料理レシピ	ギリシャ風ムサカのレシピ	1.875	イタリアのレシピ

結果から、「イタリアのレシピ」というクエリに対して次のことがわかります。

リゾットのレシピは間違いなくクエリに対する最高の結果であり、予想よりも10倍多くのクリックを獲得しています。
ピザマルゲリータも素晴らしい出来栄えです。
ギリシャのムサカも（意外にも）良い結果であり、結果上の順位が示唆するよりも良い成績を残しています。これは、イタリア料理のレシピを探していた数人のユーザーが、代わりにこのレシピに興味を持ったことを意味します。おそらくこれらのユーザーは地中海料理全般に興味があるのでしょう。結局のところ、このことからわかるのは、これは上で説明した他の 2 つの「より良い」一致の下に表示される良い結果になる可能性があるということです。

まとめ

UBI データを使用すると、LTR モデルのトレーニングを自動化し、独自のユーザーから高品質の判断リストを作成できます。UBI データは、検索システムがどのように使用されているかを反映する大きなデータセットを提供します。COEC アルゴリズムを使用して成績を生成することで、固有の偏りを考慮しながら、同時にユーザーがより良い結果と考えるものを反映します。ここで概説した方法は、実際のユースケースに適用でき、実際の使用傾向に合わせて進化する、より優れた検索エクスペリエンスを提供できます。