BEIR 벤치마크를 사용하여 검색 관련성 평가하기

Q: BEIR 벤치마크란 무엇인가요?

BEIR은 서로 다른 작업 전반에 걸쳐 다양한 데이터 세트를 포함한, 잘 구조화된 벤치마크입니다. 대상 분야에는 오픈 도메인 QA, 구절 검색, 팩트 체크, 생의학 검색 등이 포함됩니다. 검색 관련성을 평가하기 위한 표준을 제공합니다.

Q: nDCG는 무엇이며 어디에 사용되나요?

NDCG(정규화 할인 누적 이득)는 검색 엔진 순위의 품질을 평가하는 지표로, 검색 결과의 순서가 관련성을 얼마나 잘 반영하는지를 측정합니다.

대표적인 AI 및 머신 러닝 플랫폼과 원활하게 연동하세요. Elastic의 생성형 AI 기능을 살펴보려면 무료 클라우드 체험을 시작하거나 지금 바로 내 기기에서 사용해 보세요.

이 글은 BEIR 벤치마크를 더 잘 이해하기 위한 맥락에서, 스스로의 검색 시스템을 어떻게 평가해야 하는지 논의하는 블로그 글 시리즈 중 첫 번째입니다. 본 글에서는 BEIR에 대한 더 나은 이해를 바탕으로 검색 평가 프로세스를 개선할 수 있는 구체적인 팁과 기법을 소개합니다. 또한 평가의 신뢰성을 떨어뜨리는 흔한 함정들도 함께 다룹니다. 마지막으로, LLM이 검색 엔지니어의 도구 상자에 강력한 새로운 도구를 제공한다는 점을 짚고, 실제 예시를 통해 이를 검색 평가에 어떻게 활용할 수 있는지 보여드립니다.

검색 관련성 평가에서 BEIR 벤치마크 이해하기

어떤 시스템이든, 개선하려면 현재 성능을 얼마나 잘 내고 있는지를 측정할 수 있어야 합니다. 검색의 맥락에서 BEIR(또는 동등하게 MTEB 리더보드의 검색 섹션)은 정보 검색 커뮤니티에서 "성배"로 여겨지며, 이는 전혀 놀라운 일이 아닙니다. 서로 다른 작업 전반에 걸쳐 다양한 데이터 세트를 포함한, 매우 잘 구조화된 벤치마크입니다. 더 구체적으로 말하자면, 다음과 같은 영역을 다룹니다.

논증 검색(ArguAna, Touche2020)
오픈 도메인 QA(HotpotQA, Natural Questions, FiQA)
구절 검색(MSMARCO)
중복 질문 검색(Quora, CQADupstack)
사실 확인(FEVER, Climate-FEVER, Scifact)
생의학 정보 검색(TREC-COVID, NFCorpus, BioASQ)
엔티티 검색(DBPedia)
인용 예측(SCIDOCS)

단일 통계치인 nDCG@10을 제공하며, 이는 각 작업 예시에 대해 시스템이 반환한 상위 결과에서 가장 관련성 높은 문서들을 얼마나 잘 매칭하는지를 나타냅니다. 사용자가 상위 결과의 정확도와 직접 상호작용하는 검색 시스템에서는 이러한 지표가 매우 중요합니다. 하지만 검색을 평가할 때는 단일 요약 통계로는 포착하기 어려운 미묘한 차이가 많습니다.

BEIR 데이터 세트의 구조

각 벤치마크는 세 가지 구성 요소로 이루어져 있습니다.

검색 대상이 될 코퍼스 또는 문서
쿼리
쿼리에 대한 관련성 판단 값(일명 qrels)

정확도 판단 값은 0점 이상의 점수로 제공됩니다. 점수가 0이 아니라면 문서가 쿼리와 어느 정도 관련이 있음을 나타냅니다.

데이터 세트	코퍼스 크기	테스트 세트의 쿼리 수	#qrels에 긍정적으로 레이블이 지정됨	정확도 판단 값이 0인 항목 수	코퍼스 내 중복 항목 수
Arguana	8,674	1,406	1,406	0	96
Climate-FEVER	5,416,593	1,535	4,681	0	0
DBPedia	4,635,922	400	15,286	28,229	0
FEVER	5,416,568	6,666	7,937	0	0
FiQA-2018	57,638	648	1,706	0	0
HotpotQA	5,233,329	7,405	14,810	0	0
Natural Questions	2,681,468	3,452	4,021	0	16,781
NFCorpus	3,633	323	12,334	0	80
Quora	522,931	10,000	15,675	0	1,092
SCIDOCS	25,657	1,000	4,928	25,000	2
Scifact	5,183	300	339	0	0
Touche2020	382,545	49	932	1,982	5,357
TREC-COVID	171,332	50	24,763	41,663	0
MSMARCO	8,841,823	6,980	7,437	0	324
CQADupstack(합계)	457,199	13,145	23,703	0	0

표 1: 데이터 세트 통계 수치는 각 데이터 세트의 구간을 기준으로 산출되었습니다(dev 대상: MSMARCO).

표 1은 코퍼스의 문서 수, 테스트 데이터 세트의 쿼리 수, qrels 파일의 긍정/부정(쿼리, 문서) 쌍의 수와 같은, BEIR 벤치마크를 구성하는 데이터 세트에 대한 몇 가지 통계를 제시합니다. 데이터를 간단히 살펴보면 다음과 같은 사실을 즉시 추론할 수 있습니다.

대부분의 데이터 세트는 qrels 파일에 부정 관계가 포함되어 있지 않습니다. 즉, 주어진 쿼리와 무관함을 명시적으로 나타내는 0점 항목이 없다는 의미입니다.
쿼리당 문서 관계의 평균 수(#qrels / #queries)는 ArguAna의 경우 1.0에서 TREC-COVID의 경우 493.5까지 다양하며, 대부분의 경우 <5 미만의 값을 가집니다.
일부 데이터 세트는 코퍼스 내에 중복 문서가 포함되어 있어, 경우에 따라 잘못된 평가로 이어질 수 있습니다. 즉 하나의 문서가 쿼리에 대해 관련성이 있다고 판단되지만, 동일한 중복 문서는 그렇지 않게 처리되는 경우입니다. 예를 들어 ArguAna의 경우, 한 쿼리에 대해 문서 쌍 중 한 문서만 관련성이 있는 것으로 표시된 중복 문서 쌍을 96건 확인했습니다. 초기 qrels 목록을 중복 항목까지 포함하도록 '확장'했을 경우 평균적으로 nDCG@10 점수가 약 1% 상대적으로 증가하는 것을 확인했습니다.

ArguAna에서 중복된 쌍의 예시입니다. qrels 파일에서는 첫 번째 항목만이 쿼리(“test-economy-epiasghbf-pro02a”)에 대해 (반론으로서) 관련성이 있는 것으로 표시되어 있습니다.

MTEB 리더보드에서 모델을 비교할 때는 평균 검색 품질에 집중하고 싶은 유혹이 생기기 쉽습니다. 이는 모델의 전반적인 품질을 나타내는 좋은 지표이지만, 실제로 여러분의 사용 사례에서 어떻게 성능을 낼지는 반드시 알려주지는 않습니다. 결과는 데이터 세트별로 보고되므로, 서로 다른 데이터 세트가 검색 작업과 얼마나 밀접하게 관련되어 있는지 파악하고 가장 관련성이 높은 데이터 세트만 사용하여 모델의 점수를 재조정하는 것이 좋습니다. 더 자세히 살펴보고 싶다면, 다양한 데이터 세트 코퍼스 간의 주제 중복 여부도 추가로 확인해볼 수 있습니다. 품질 측정값을 주제 기준으로 나누어 분석하면, 특정 강점과 약점에 대한 훨씬 더 세밀한 평가가 가능합니다.

여기서 중요한 점은 문서가 qrels 파일에 표시되지 않으면 기본적으로 쿼리와 무관하다고 간주된다는 것입니다. 이 부분을 조금 더 깊이 파고들어, 다음 질문을 보다 명확히 하기 위한 몇 가지 근거를 수집합니다. “평가자가 기준 정답 정보가 없는 (쿼리, 문서) 쌍을 접하는 경우는 얼마나 자주 발생하는가?” 이 점이 중요한 이유는, 얕은 마크업만 존재하는 경우(즉, 모든 관련 문서가 라벨링되어 있지 않은 경우) 정보 검색 시스템이 단지 서로 다른 관련 문서(하지만 표시되지 않은 문서)를 노출한다는 이유만으로 다른 시스템보다 성능이 낮게 평가될 수 있기 때문입니다. 이는 특히 대규모 데이터 세트의 경우, 고품질 평가 세트를 만들 때 흔히 발생하는 문제점입니다. 실행 가능한 수동 라벨링은 일반적으로 현재 시스템에서 반환된 상위 결과에 초점을 맞추므로, 그 시스템의 사각지대에 있는 관련 문서들을 놓칠 가능성이 큽니다. 따라서 광범위하지만 얕은 마크업을 적용하기보다는, 더 적은 수의 쿼리에 대해 보다 충실한 마크업에 리소스를 집중하는 편이 일반적으로 더 바람직합니다.

검색 정확도 평가에 BEIR 벤치마크 활용하기

분석을 시작하기 위해 다음의 시나리오를 구현합니다(노트북 참조).

먼저, 각 데이터 세트의 코퍼스를 Elasticsearch 인덱스에 로드합니다.
테스트 세트의 각 쿼리에 대해 BM25를 사용해 상위 100개의 문서를 검색합니다.
검색된 문서들은 최신 성능의 다양한 순위 재지정 모델을 사용해 다시 정렬합니다.
마지막으로, 2단계(검색 후)와 3단계(재순위화 후)에서 도출된 상위 10개 문서에 대한 '심사 비율'을 보고합니다. 즉, qrels 파일에서 점수가 부여된 상위 10개 문서의 평균 비율을 계산합니다.

이번에 사용한 모델 순위 재지정 목록은 다음과 같습니다.

Cohere의 rerank-english-v2.0 및 rerank-english-v3.0
BGE-base
mxbai-rerank-xsmall-v1
MiniLM-L-6-v2

	검색	순위 재지정
데이터 세트	BM25 (%)	Cohere Rerank v2 (%)	Cohere Rerank v3 (%)	BGE-base (%)	mxbai-rerank-xsmall-v1 (%)	MiniLM-L-6-v2 (%)
Arguana	7.54	4.87	7.87	4.52	4.53	6.84
Climate-FEVER	5.75	6.24	8.15	9.36	7.79	7.58
DBPedia	61.18	60.78	64.15	63.9	63.5	67.62
FEVER	8.89	9.97	10.08	10.19	9.88	9.88
FiQA-2018	7.02	11.02	10.77	8.43	9.1	9.44
HotpotQA	12.59	14.5	14.76	15.1	14.02	14.42
Natural Questions	5.94	8.84	8.71	8.37	8.14	8.34
NFCorpus	31.67	32.9	33.91	30.63	32.77	32.45
Quora	12.2	10.46	13.04	11.26	12.58	12.78
SCIDOCS	8.62	9.41	9.71	8.04	8.79	8.52
Scifact	9.07	9.57	9.77	9.3	9.1	9.17
Touche2020	38.78	30.41	32.24	33.06	37.96	33.67
TREC-COVID	92.4	98.4	98.2	93.8	99.6	97.4
MSMARCO	3.97	6.00	6.03	6.07	5.47	6.11
CQADupstack (avg.)	5.47	6.32	6.87	5.89	6.22	6.16

표 2: 검색·재순위화된 상위 10개 문서를 기준으로 (데이터 세트, 재순위화 모델) 조합별 심사 비율 계산

표 2를 보면 TREC-COVID(90% 이상 커버리지), DBPedia(~65%), Touche2020, nfcorpus(~35%)를 제외한 대부분의 데이터 세트는 검색 또는 재순위화 이후의 라벨링 비율이 5%에서 10%를 조금 넘는 수준에 불과함을 알 수 있습니다. 이는 표시되지 않은 문서들이 모두 관련 문서라는 뜻은 아니지만, 그중 일부는 특히 상위 순위에 위치한 경우 긍정적인, 즉 관련성 있는 문서일 가능성이 있다는 점을 시사합니다.

범용 목적의 지시 튜닝 언어 모델의 등장으로, 관련성 판단을 자동화할 잠재력을 지닌 새롭고 강력한 도구를 갖게 되었습니다. 이러한 방법들은 일반적으로 계산 비용이 너무 커서 실제 온라인 검색에 사용하기는 어렵지만, 여기서는 오프라인 평가에 초점을 맞추고 있습니다. 다음에서는 이를 활용해 일부 BEIR 데이터 세트가 얕은 마크업 문제를 겪고 있다는 증거를 살펴봅니다.

이 가설을 더 자세히 검증하기 위해 MSMARCO에 초점을 맞추고, 현재 관련 문서로 표시되지 문서 중 Cohere v2로 재순위화된 상위 5개 문서를 포함해 100개의 쿼리 하위 집합을 선택했습니다. 평가는 두 가지 서로 다른 경로로 진행했습니다. 첫째, 신중하게 조정된 프롬프트(자세한 내용은 나중에 다룰 예정)를 사용해 최근 공개된 Phi-3-mini-4k 모델이 특정 문서가 해당 쿼리와 관련이 있는지(또는 없는지)를 예측하도록 했습니다. 이와 동시에, LLM 출력과 사람의 판단 간의 일치율을 평가하기 위해 이러한 사례들에 대해 수동으로 라벨링을 하는 작업도 진행했습니다. 전반적으로, 다음과 같은 두 가지 결론을 도출할 수 있습니다 $\dag$ .

LLM 응답과 인간의 판단 간의 일치율은 약 80%였으며, 이는 해당 방향으로 나아가기 위한 출발점으로 보기에 충분히 좋은 수치입니다.
인간 판단을 기준으로 했을 때, 전체 사례의 57.6%에서 반환된 문서들이 실제로 쿼리와 관련이 있는 것으로 확인되었습니다. 이를 다른 방식으로 표현하면, 100개의 쿼리에 대해 관련 문서로 판단된 문서는 107개였지만, 실제로는 최소 0.576 × 5 × 100 = 288개의 추가 문서가 쿼리와 관련이 있다는 의미입니다!

다음은 MSMARCO/dev 데이터 세트에서 가져온 몇 가지 예시입니다. 여기에는 쿼리, 주석이 달린 긍정 문서(qrels에 포함된 문서), 그리고 마크업이 불완전해 발생한 거짓 음성 문서가 함께 포함되어 있습니다.

예 1:

예 2:

이처럼 특정 쿼리를 수동으로 평가하는 방식은 nDCG@10과 같은 정량적 지표를 보완하면서 검색 품질을 이해하는 데 전반적으로 유용한 기법입니다. 검색 변경 시 항상 실행하는 대표적인 쿼리 집합이 있다면, 통계에서는 보이지 않는 성능 변화에 대한 중요한 정성적 정보를 얻을 수 있습니다. 예를 들어, 검색 결과에 포함된 잘못된 결과들에 대해 훨씬 더 많은 인사이트를 제공합니다. 검색 시스템이 반환한 결과 중 명백한 오류를 찾아내거나, 도메인 특화 용어를 잘못 해석하는 등 서로 연관된 오류 유형을 파악하는 데 도움이 됩니다.

이 결과는 MSMARCO 평가에 관한 관련 연구와 일치합니다. 예를 들어, Arabzadeh 외 연구진은 크라우드소싱 작업자를 활용해 선호도 판단을 수행하는 유사한 절차를 따르며, 여러 결과 중에서도 재순위화 모듈이 반환한 문서가 MSMARCO qrels 파일에 포함된 문서보다 많은 경우 선호된다는 점을 보여줍니다. 또 다른 근거는 RocketQA 재순위화 모델의 저자들이 제시한 결과에서 확인할 수 있는데, 수작업 검토 후 재순위화된 문서의 70% 이상이 관련 문서로 판명되었다고 보고하고 있습니다.

$\dag$ 업데이트 - 9월 9일: 데이터 세트를 면밀히 재평가한 결과, 관련 문서가 15건 더 확인되어 총 273건에서 288건으로 증가했습니다.

주요 요점 및 향후 계획

더 나은 기준 데이터를 위한 추구는 끝이 없습니다. 이는 벤치마킹과 모델 비교에 매우 중요하기 때문입니다. LLM은 주의 깊게 사용하고 적절한 지시로 튜닝한다면 일부 평가 영역에서 도움을 줄 수 있습니다.
더 일반적으로 말하면, 벤치마크가 완벽할 수는 없기 때문에 단순한 점수 비교에서 벗어나, 통계적으로 유의미한 차이를 포착할 수 있는 보다 견고한 기법으로 전환하는 편이 바람직할 수 있습니다. Arabzadeh 외 연구진의 작업은 이러한 접근의 좋은 예를 제공하는데, 이들은 연구 결과를 바탕으로 여러 실험 실행 간의 차이가 유의미한지 여부를 보여주는 95% 신뢰구간을 구축했습니다. 함께 제공된 노트북에서는 부트스트래핑을 사용해 신뢰구간을 계산하는 구현 예시도 제시합니다.
최종 사용자 관점에서는, 벤치마크 결과를 해석할 때 작업 정합성을 함께 고려하는 것이 유용합니다. 예를 들어, RAG 파이프라인을 구축하는 AI 엔지니어라면 일반적인 사용 사례가 서로 다른 출처의 여러 정보를 조합하는 것임을 알고 있을 것입니다. 이런 경우에는 BEIR 전체 벤치마크의 전역 평균 성능을 보는 것보다, HotpotQA와 같은 멀티홉 QA 데이터 세트에서 검색 모델의 성능을 평가하는 편이 훨씬 더 의미가 있습니다.

다음 블로그 게시물에서는 Phi-3를 LLM 판정자로 사용하는 방법과, 관련성을 예측하도록 이를 튜닝해 나간 과정을 보다 깊이 있게 다룹니다.