Nahtlose Verbindung mit führenden KI- und Machine-Learning-Plattformen. Starten Sie eine kostenlose Cloud-Testversion, um die Funktionen der generativen KI von Elastic zu erkunden, oder testen Sie sie jetzt auf Ihrem Rechner.
Dies ist der erste Beitrag einer Reihe von Blogbeiträgen, in denen wir uns damit befassen, wie Sie Ihre eigenen Suchsysteme im Zusammenhang mit einem besseren Verständnis des BEIR-Benchmarks bewerten können. Wir stellen Ihnen spezielle Tipps und Techniken vor, mit denen Sie Ihre Suchbewertungsprozesse im Zusammenhang mit dem besseren Verständnis von BEIR verbessern können. Wir stellen Ihnen auch die häufigsten Fallstricke vor, die eine Bewertung weniger zuverlässig machen. Abschließend möchten wir darauf hinweisen, dass LLMs ein leistungsstarkes neues Tool für Suchingenieure darstellen. Anhand eines Beispiels zeigen wir, wie Sie diese zur Bewertung der Suche einsetzen können.
Den BEIR-Benchmark bei der Bewertung der Suchrelevanz verstehen
Für die Verbesserung eines Systems müssen Sie messen können, wie gut es funktioniert. Im Zusammenhang mit der Suche BEIR (oder gleichwertig der Abschnitt „Retrieval” der Bestenliste MTEB) gilt als der „heilige Gral” für die Informationsabruf-Community, was nicht weiter verwunderlich ist. Es handelt sich um einen sehr gut strukturierten Benchmark mit vielfältigen Datensätzen für unterschiedliche Aufgaben. Genauer gesagt werden folgende Bereiche abgedeckt:
- Abrufen von Argumenten (ArguAna, Touche2020)
- Open-Domain-QA (HotpotQA, Natural Questions, FiQA)
- Passagenabruf (MSMARCO)
- Abrufen doppelter Fragen (Quora, CQADupstack)
- Faktenprüfung (FEVER, Climate-FEVER, Scifact)
- Biomedizinische Informationsabfrage (TREC-COVID, NFCorpus, BioASQ)
- Abrufen von Entitäten (DBPedia)
- Zitationsvorhersage (SCIDOCS)
Es liefert eine einzige Statistik, nDCG@10, die angibt, wie gut ein System die relevantesten Dokumente für jedes Aufgabenbeispiel in den von ihm zurückgegebenen besten Ergebnissen abgleicht. Für ein Suchsystem, mit dem ein Mensch interagiert, ist die Relevanz der betsen Ergebnisse entscheidend. Allerdings gibt es bei der Bewertung von Suchvorgängen viele Nuancen, die durch eine einzelne zusammenfassende Statistik nicht erfasst werden.
Struktur eines BEIR-Datensatzes
Jeder Benchmark hat drei Artefakte:
- der Korpus oder die Dokumente, die abgerufen werden sollen
- Die Abfragen
- die Relevanzbewertungen für die Abfragen (auch bekannt als
qrels).
Relevanzbewertungen werden als Wert zwischen null und größer angegeben. Werte ungleich Null zeigen an, dass das Dokument in gewisser Weise mit der Abfrage in Zusammenhang steht.
| Datensatz | Korpusgröße | #Abfragen im Testset | #qrels positiv gekennzeichnet | #qrels gleich Null | #duplicates im Korpus |
|---|---|---|---|---|---|
| Arguana | 8.674 | 1.406 | 1.406 | 0 | 96 |
| Climate-FEVER | 5.416.593 | 1.535 | 4.681 | 0 | 0 |
| DBPedia | 4.635.922 | 400 | 15.286 | 28.229 | 0 |
| FEVER | 5.416.568 | 6.666 | 7.937 | 0 | 0 |
| FiQA-2018 | 57.638 | 648 | 1.706 | 0 | 0 |
| HotpotQA | 5.233.329 | 7.405 | 14.810 | 0 | 0 |
| Natürliche Fragen | 2.681.468 | 3.452 | 4.021 | 0 | 16.781 |
| NFCorpus | 3.633 | 323 | 12.334 | 0 | 80 |
| Quora | 522.931 | 10.000 | 15.675 | 0 | 1.092 |
| SCIDOCS | 25.657 | 1.000 | 4.928 | 25.000 | 2 |
| Scifact | 5.183 | 300 | 339 | 0 | 0 |
| Touche2020 | 382.545 | 49 | 932 | 1.982 | 5.357 |
| TREC-COVID | 171.332 | 50 | 24.763 | 41.663 | 0 |
| MSMARCO | 8.841.823 | 6.980 | 7.437 | 0 | 324 |
| CQADupstack (Summe) | 457.199 | 13.145 | 23.703 | 0 | 0 |
Tabelle 1: Datensatzstatistiken. Die Zahlen wurden auf dem Testabschnitt der Datensätze berechnet (dev für MSMARCO).
Tabelle 1 enthält einige Statistiken zu den Datensätzen, aus denen der BEIR-Benchmark besteht, wie zum Beispiel die Anzahl der Dokumente im Korpus, die Anzahl der Abfragen im Testdatensatz und die Anzahl der positiven/negativen Paare (Abfrage, Dokument) in der qrels-Datei. Ein kurzer Blick auf die Daten lässt uns sofort Folgendes ableiten:
- Die meisten Datensätze enthalten keine negativen Beziehungen in der
qrels-Datei, d. h. null Werte, was Dokumente ausdrücklich als irrelevant für die jeweilige Abfrage kennzeichnen würde. - Die durchschnittliche Anzahl von Dokumentbeziehungen pro Abfrage (
#qrels/#queries) variiert von 1,0 im Ticket vonArguAnabis 493,5 (TREC-COVID), jedoch mit einem Wert von<5 für die Mehrheit der Tickets. - Bei einigen Datensätzen gibt es doppelte Dokumente im Korpus, was in einigen Fällen zu einer falschen Auswertung führen kann, z. B. wenn ein Dokument als relevant für eine Abfrage angesehen wird, sein Duplikat jedoch nicht. Zum Beispiel haben wir in
ArguAna96 Tickets von doppelten Dokumentpaaren identifiziert, wobei pro Paar nur ein Dokument als relevant für eine Abfrage markiert wurde. Durch die „Erweiterung“ der ursprünglichen Qrels-Liste um die Duplikate haben wir einen relativen Anstieg desnDCG@10-Wertes um durchschnittlich ~1 % festgestellt.
Beispiel für duplizierte Paare in ArguAna. In der qrels-Datei scheint nur der erste Eintrag (als Gegenargument) für die Abfrage („test-economy-epiasghbf-pro02a“) relevant zu sein.
Beim Vergleich von Modellen in der MTEB-Rangliste ist es naheliegend, sich auf die durchschnittliche Retrieval-Qualität zu konzentrieren. Dies ist ein guter Indikator für die Gesamtqualität des Modells, sagt jedoch nicht unbedingt etwas darüber aus, wie es für Sie funktionieren wird. Da die Ergebnisse pro Datensatz gemeldet werden, ist es sinnvoll zu verstehen, wie eng die verschiedenen Datensätze mit Ihrer Suchaufgabe zusammenhängen, und die Modelle nur anhand der relevantesten Datensätze neu zu bewerten. Wenn Sie noch tiefer eintauchen möchten, können Sie zusätzlich überprüfen, ob es Überschneidungen zwischen den Themen der verschiedenen Datensätze gibt. Die Stratifizierung von Qualitätsmaßen nach Themen ermöglicht eine viel differenziertere Bewertung ihrer spezifischen Stärken und Schwächen.
Wichtig ist hierbei, dass ein Dokument, das nicht in der qrels-Datei markiert ist, standardmäßig als für die Abfrage irrelevant angesehen wird. Wir befassen uns etwas eingehender mit diesem Bereich und sammeln einige Nachweise, um mehr Licht in die folgende Frage zu bringen: „Wie oft werden einem Evaluator Paare (Abfrage, Dokument) vorgelegt, für die es keine Ground-Truth-Informationen gibt?“. Der Grund dafür ist, dass bei nur verfügbaren oberflächlichen Markups (sodass nicht jedes relevante Dokument als solches gekennzeichnet ist) ein Informationsabrufsystem schlechter bewertet werden kann als ein anderes, nur weil es sich dafür „entscheidet“, andere relevante (aber nicht markierte) Dokumente anzuzeigen. Das ist ein häufiger Fehler bei der Erstellung qualitativ hochwertiger Evaluierungsdatensätze, insbesondere bei großen Datensätzen. Aus praktischen Gründen konzentriert sich die manuelle Kennzeichnung in der Regel auf die besten Ergebnisse, die vom aktuellen System zurückgegeben werden, sodass relevante Dokumente in den blinden Flecken möglicherweise übersehen werden. Daher ist es in der Regel vorzuziehen, mehr Ressourcen auf ein umfassenderes Markup weniger Abfragen als auf ein breites, oberflächliches Markup zu konzentrieren.
Nutzung des BEIR-Benchmarks zur Bewertung der Suchrelevanz
Um unsere Analyse zu beginnen, implementieren wir das folgende Szenario (siehe Notizbuch):
- Zuerst laden wir den Korpus jedes Datensatzes in einen Elasticsearch-Index.
- Für jede Abfrage im Testsatz rufen wir die 100 besten Dokumente mit BM25 ab.
- Wir ordnen die abgerufenen Dokumente mithilfe verschiedener SOTA-Reranking-Modelle neu an.
- Abschließend geben wir die „Bewertungsrate“ für die 10 besten Dokumente aus Schritt 2 (nach dem Abrufen) und Schritt 3 (nach dem Reranking) an. Mit anderen Worten: Wir berechnen den durchschnittlichen Prozentsatz der 10 besten Dokumente mit einer Bewertung in der
qrels-Datei.
Die Liste der von uns verwendeten Reranking-Modelle lautet wie folgt:
- Coheres
rerank-english-v2.0undrerank-english-v3.0 - BGE-base
- mxbai-rerank-xsmall-v1
- MiniLM-L-6-v2
| Abruf | Reranking | |||||
|---|---|---|---|---|---|---|
| Datensatz | BM25 (%) | Cohere Rerank v2 (%) | Cohere Rerank v3 (%) | BGE-base (%) | mxbai-rerank-xsmall-v1 (%) | MiniLM-L-6-v2 (%) |
| Arguana | 7,54 | 4,87 | 7,87 | 4,52 | 4,53 | 6,84 |
| Climate-FEVER | 5,75 | 6,24 | 8,15 | 9,36 | 7,79 | 7,58 |
| DBPedia | 61,18 | 60,78 | 64,15 | 63,9 | 63,5 | 67,62 |
| FEVER | 8,89 | 9,97 | 10,08 | 10,19 | 9,88 | 9,88 |
| FiQa-2018 | 7,02 | 11,02 | 10,77 | 8,43 | 9,1 | 9,44 |
| HotpotQA | 12,59 | 14,5 | 14,76 | 15,1 | 14,02 | 14,42 |
| Natürliche Fragen | 5,94 | 8.84 | 8,71 | 8,37 | 8,14 | 8,34 |
| NFCorpus | 31,67 | 32,9 | 33,91 | 30,63 | 32,77 | 32,45 |
| Quora | 12,2 | 10,46 | 13,04 | 11,26 | 12,58 | 12,78 |
| SCIDOCS | 8,62 | 9,41 | 9,71 | 8,04 | 8,79 | 8,52 |
| Scifact | 9,07 | 9,57 | 9,77 | 9,3 | 9,1 | 9,17 |
| Touche2020 | 38,78 | 30,41 | 32,24 | 33,06 | 37,96 | 33,67 |
| TREC-COVID | 92,4 | 98,4 | 98,2 | 93,8 | 99,6 | 97,4 |
| MSMARCO | 3,97 | 6,00 | 6,03 | 6,07 | 5,47 | 6,11 |
| CQADupstack (Durchschnitt) | 5,47 | 6,32 | 6,87 | 5.89 | 6,22 | 6,16 |
Tabelle 2: Bewertungsrate pro Paare (Datensatz, Reranker), berechnet anhand der 10 am häufigsten abgerufenen/neu geordneten Dokumente
Aus Tabelle 2 sehen wir, mit Ausnahme von TREC-COVID (>90 % Abdeckung), DBPedia (~65 %), Touche2020 und nfcorpus (~35 %), dass die Mehrheit der Datensätze eine Labeling-Rate zwischen 5 % und etwas mehr als 10 % nach dem Abrufen oder Reranking aufweist. Das heißt nicht, dass alle diese unmarkierten Dokumente relevant sind, aber es könnte ein Teilbereich davon geben, insbesondere diejenigen, die an oberster Stelle stehen, die positiv sein könnten.
Mit dem Aufkommen von auf allgemeine Anweisungen abgestimmten Sprachmodellen haben wir ein neues leistungsfähiges Tool, das die Beurteilung der Relevanz potenziell automatisieren kann. Diese Methoden sind in der Regel viel zu rechenaufwändig, um online für die Suche verwendet zu werden, aber hier geht es uns um die Offline-Auswertung. Im Folgenden verwenden wir sie, um die Hinweise darauf zu untersuchen, dass einige der BEIR-Datensätze unter oberflächlichen Markups leiden.
Zur weiteren Untersuchung dieser Hypothese haben wir uns entschlossen, uns auf MSMARCO zu konzentrieren und einen Teilbereich von 100 Abfragen zusammen mit den fünf (mit Cohere v2) höchsten Reranking-Dokumenten auszuwählen, die derzeit nicht als relevant markiert sind. Wir haben zwei verschiedene Bewertungsansätze verfolgt: Zunächst haben wir einen sorgfältig abgestimmten Prompt (mehr dazu in einem späteren Beitrag) verwendet, um das kürzlich veröffentlichte Phi-3-mini-4k-Modell darauf vorzubereiten, die Relevanz (oder Nicht-Relevanz) eines Dokuments für die Abfrage vorherzusagen. Parallel dazu wurden diese Tickets auch manuell gekennzeichnet, um auch die Übereinstimmungsrate zwischen dem LLM-Ausgang und der menschlichen Bewertung zu ermitteln. Insgesamt können wir die folgenden beiden Schlüsse ziehen:
- Die Übereinstimmungsrate zwischen den LLM-Reaktionen und den menschlichen Beurteilungen lag bei knapp 80 %, was als Ausgangspunkt in diese Richtung durchaus gut erscheint.
- In 57,6 % der Fälle (nach menschlicher Beurteilung) erwiesen sich die zurückgegebenen Dokumente tatsächlich als relevant für die Abfrage. Anders ausgedrückt: Bei 100 Abfragen werden 107 Dokumente als relevant eingestuft, aber es gibt mindestens 0,576 x 5 x 100 = 288 zusätzliche Dokumente, die tatsächlich relevant sind!
Hier einige Beispiele aus dem Datensatz MSMARCO/dev, die die Abfrage, das annotierte positive Dokument (aus qrels) und ein falsch negatives Dokument aufgrund unvollständiger Auszeichnung enthalten:
Beispiel 1:
Beispiel 2:
Die manuelle Auswertung solcher spezifischer Abfragen ist eine allgemein nützliche Methode, um die Suchqualität zu verstehen und quantitative Messgrößen wie nDCG@10 zu ergänzen. Bei einem repräsentativen Abfrageset, das Sie immer ausführen, wenn Sie Änderungen an der Suche vornehmen, erhalten Sie wichtige qualitative Informationen darüber, wie sich die Leistung verändert, die in den Statistiken nicht sichtbar sind. Beispielsweise erhalten Sie viel mehr Einblick in die falschen Ergebnisse Ihrer Suche: Sie erkennen offensichtliche Fehler in den Suchergebnissen, Kategorien verwandter Fehler, wie z. B. die Fehlinterpretation fachspezifischer Terminologie und so weiter.
Unser Ergebnis stimmt mit einschlägigen Studien zur MSMARCO Bewertung der Suchrelevanz überein. Zum Beispiel folgen Arabzadeh et al. einem ähnlichen Verfahren, bei dem sie Crowdsourcing-Mitarbeiter für Präferenzurteile einsetzen: Sie zeigen unter anderem, dass in vielen Fällen die von den Reranking-Modulen zurückgegebenen Dokumente im Vergleich zu den Dokumenten in der MSMARCO- qrels-Datei bevorzugt werden. Ein weiterer Nachweis stammt von den Autoren des RocketQA-Rerankers, die berichten, dass mehr als 70 % der Reranking-Dokumente nach einer manuellen Überprüfung als relevant eingestuft wurden.
Aktualisierung – 9. September: Nach einer genauen Neubewertung des Datensatzes haben wir 15 weitere Fälle relevanter Dokumente identifiziert, wodurch sich die Gesamtzahl von 273 auf 288 erhöht hat
Wichtigste Erkenntnisse und nächste Schritte
- Das Streben nach besseren Referenzwerten ist ein nie endender Prozess, da diese für Benchmarking und Modellvergleiche von entscheidender Bedeutung sind. LLMs können in einigen Bewertungsbereichen helfen, wenn sie mit Vorsicht angewendet und mit den richtigen Anweisungen abgestimmt werden.
- Allgemeiner gesagt: Da Benchmarks niemals perfekt sein werden, könnte es vorteilhaft sein, von einem reinen Wertevergleich zu robusteren Methoden überzugehen, die statistisch signifikante Unterschiede erfassen. Die Arbeit von Arabzadeh et al. liefert hierfür ein gutes Beispiel, da auf Grundlage der Ergebnisse 95-prozentige Konfidenzintervalle erstellt wurden, die signifikante (oder nicht signifikante) Unterschiede zwischen den verschiedenen Durchläufen aufzeigen Im beigefügten Notizbuch stellen wir eine Implementierung von Konfidenzintervallen unter Verwendung von Bootstrapping zur Verfügung.
- Aus der Perspektive des Endnutzers ist es sinnvoll, bei der Betrachtung von Benchmark-Ergebnissen über die Aufgabenausrichtung nachzudenken. Für einen KI-Ingenieur, der beispielsweise eine RAG-Pipeline entwickelt und weiß, dass der typische Anwendungsfall das Zusammenführen mehrerer Informationen aus verschiedenen Quellen beinhaltet, wäre es sinnvoller, die Leistung seines Retrieval-Modells anhand von Multi-Hop-QA-Datensätzen wie HotpotQA zu bewerten, anstatt den globalen Durchschnitt des gesamten BEIR-Benchmarks zu verwenden.
Im nächsten Blogbeitrag werden wir uns eingehender mit der Verwendung von Phi-3 als LLM-as-a-Judge und der Optimierung zur Vorhersage der Relevanz befassen.
Häufige Fragen
Was ist nDCG und wofür wird es verwendet?
NDCG (Normalized Discounted Cumulative Gain) ist eine Metrik, die die Qualität von Suchmaschinenrankings bewertet, indem sie misst, wie gut die Reihenfolge der Ergebnisse deren Relevanz widerspiegelt.




