임베딩을 Elasticsearch 필드 유형에 매핑

벡터 검색부터 강력한 REST API에 이르기까지 Elasticsearch는 개발자에게 가장 광범위한 검색 툴킷을 제공합니다. Elasticsearch Labs 리포지토리의 샘플 노트북을 살펴보고 새로운 기능을 직접 체험해 보세요. 무료 체험을 시작하거나 지금 바로 Elasticsearch를 로컬에서 실행해 보세요.

정보 검색의 관련성과 정확성을 높이기 위한 임베딩의 사용은 지난 몇 년 동안 크게 증가했습니다. Elasticsearch와 같은 도구는 밀집 벡터, 희소 벡터, 시맨틱 텍스트와 같은 특수한 필드 유형을 통해 이러한 유형의 데이터를 지원하도록 발전해 왔습니다. 그러나 좋은 결과를 얻으려면 임베딩을 사용 가능한 Elasticsearch 필드 유형에 올바르게 매핑하는 방법을 이해하는 것이 필수적입니다: semantic_text, dense_vector, 및 sparse_vector 을 참조하세요.

이 문서에서는 이러한 필드 유형, 각 필드 유형이 언제 사용되는지, 색인 및 쿼리 중 임베딩 생성 및 사용 전략과 어떻게 연관되는지에 대해 설명합니다.

고밀도 벡터 유형

Elasticsearch의 dense_vector 필드 유형은 거의 모든 차원이 관련된 텍스트, 이미지, 오디오와 같은 데이터의 숫자 표현인 고밀도 벡터를 저장하는 데 사용됩니다. 이러한 벡터는 OpenAI, Cohere 또는 Hugging Face와 같은 플랫폼에서 제공하는 임베딩 모델을 사용하여 생성되며, 다른 문서와 정확한 용어를 공유하지 않더라도 데이터의 전체적인 의미적 의미를 포착하도록 설계되었습니다.

Elasticsearch에서 고밀도 벡터는 사용되는 모델에 따라 최대 4096개의 차원을 가질 수 있습니다. 예를 들어, 모든 MiniLM-L6-v2 모델은 384차원의 벡터를 생성하는 반면, OpenAI의 텍스트 임베딩-ada-002는 1536차원의 벡터를 생성합니다.

dense_vector 필드는 사전 생성된 벡터를 사용하거나 사용자 정의 유사성 함수를 적용하거나 외부 모델과 통합하는 등 보다 강력한 제어가 필요한 경우 이러한 종류의 임베딩을 저장하는 기본 유형으로 일반적으로 채택됩니다.

dense_vector 유형은 언제, 왜 사용하나요?

고밀도 벡터는 문장, 단락 또는 전체 문서 간의 의미적 유사성을 포착하는 데 탁월합니다. 같은 용어가 아니더라도 텍스트의 전체적인 의미를 비교하는 것이 목표일 때 매우 효과적입니다.

고밀도 벡터 필드는 OpenAI, Cohere 또는 Hugging Face와 같은 플랫폼에서 제공하는 모델을 사용하는 외부 임베딩 생성 파이프라인이 이미 있고 이러한 벡터를 수동으로만 저장하고 쿼리하려는 경우에 이상적입니다. 이 유형의 필드는 임베딩 모델과의 호환성이 높고 생성 및 쿼리에서 완전한 유연성을 제공하므로 검색 중에 벡터를 생성, 색인 및 사용하는 방법을 제어할 수 있습니다.

또한 순위 로직을 조정해야 하는 경우를 위해 k-NN 또는 script_score와 같은 쿼리를 사용하여 다양한 형태의 시맨틱 검색을 지원합니다. 이러한 가능성으로 인해 고밀도 벡터는 검색 증강 세대(RAG), 추천 시스템, 유사도에 기반한 개인화된 검색과 같은 애플리케이션에 이상적입니다.

마지막으로 이 필드에서는 cosineSimilarity, dotProduct 또는 l2norm 와 같은 기능을 사용하여 관련성 로직을 사용자 지정하여 사용 사례의 필요에 따라 순위를 조정할 수 있습니다.

고밀도 벡터는 위에서 언급한 고급 사용 사례와 같은 유연성, 사용자 지정 및 호환성이 필요한 사용자에게 여전히 최고의 옵션입니다.

고밀도 벡터 유형에 쿼리를 사용하는 방법은 무엇인가요?

dense_vector 로 정의된 필드에 대한 검색은 K-최근 이웃 쿼리를 사용합니다. 이 쿼리는 밀도 벡터가 쿼리 벡터에 가장 가까운 문서를 찾는 작업을 담당합니다. 다음은 고밀도 벡터 필드에 k-NN 쿼리를 적용하는 방법의 예시입니다:

k-NN 쿼리 외에도 문서 점수를 사용자 정의할 필요가 있는 경우, 스크립트_스코어 쿼리를 사용하여 코사인 유사도, dotProduct 또는 l2norm과 같은 벡터 비교 함수와 결합하여 보다 제어된 방식으로 관련성을 계산할 수도 있습니다. 예시를 참조하세요:

더 자세히 알아보고 싶으시다면 Elasticsearch에서 벡터 검색을 설정하는 방법문서를 살펴보는 것을 추천합니다.

희소 벡터 유형

sparse_vector 필드 유형은 대부분의 값이 0이고 일부 용어에만 가중치가 있는 숫자 표현인 스파스 벡터를 저장하는 데 사용됩니다. 이 유형의 벡터는 SPLADE 또는 ELSER(Elastic Learned Sparse EncodeR)와 같은 용어 기반 모델에서 흔히 볼 수 있습니다.

희소 벡터 유형을 언제, 왜 사용해야 하나요?

스파스 벡터는 의미론적 지능을 유지하면서 어휘를 보다 정밀하게 검색해야 할 때 이상적입니다. 토큰/값 쌍으로 텍스트를 표시하고 관련 가중치가 있는 가장 관련성이 높은 용어만 강조 표시하여 명확성, 제어 및 효율성을 제공합니다.

이 유형의 필드는 텍스트에서 상대적 중요도에 따라 각 토큰에 다른 가중치를 할당하는 ELSER 또는 SPLADE 모델과 같이 용어를 기반으로 벡터를 생성할 때 특히 유용합니다.

쿼리에서 특정 단어의 영향력을 제어하려는 경우 희소 벡터 유형을 사용하면 용어의 가중치를 수동으로 조정하여 결과의 순위를 최적화할 수 있습니다.

주요 이점으로는 문서가 관련성이 있는 것으로 간주된 이유를 명확하게 이해할 수 있으므로 검색의 투명성과 모든 차원을 저장하는 고밀도 벡터와 달리 0이 아닌 값을 가진 토큰만 저장되므로 저장 효율성이 높다는 점이 있습니다.

또한, 스파스 벡터는 하이브리드 검색 전략에서 이상적인 보완재이며, 밀도 벡터와 결합하여 어휘 정확도와 의미 이해를 결합할 수도 있습니다.

희소 벡터 유형에 쿼리를 사용하는 방법은 무엇인가요?

sparse_vector 쿼리를 사용하면 토큰/값 형식의 쿼리 벡터를 기반으로 문서를 검색할 수 있습니다. 아래 쿼리 예시를 참조하세요:

학습된 모델을 사용하려는 경우 쿼리 텍스트를 스파스 벡터로 자동 변환하는 추론 엔드포인트를 사용할 수 있습니다:

이 주제를 더 자세히 알아보려면 학습된 ML 모델을 사용한 희소 벡터 임베딩 이해를 읽어보시기 바랍니다.

시맨틱 텍스트 유형

semantic_text 필드 유형은 Elasticsearch에서 시맨틱 검색을 사용하는 가장 간단하고 직관적인 방법입니다. 추론 엔드포인트를 통해 인덱싱 및 쿼리 시점에 임베딩 생성을 자동으로 처리합니다. 즉, 벡터를 수동으로 생성하거나 저장하는 것에 대해 걱정할 필요가 없습니다.

시맨틱 텍스트는 언제, 왜 사용해야 하나요?

semantic_text 필드는 벡터를 수동으로 처리할 필요 없이 최소한의 기술적 노력으로 시작하고 싶은 분들에게 이상적입니다. 이 필드에서는 임베딩 생성 및 벡터 검색 매핑과 같은 단계를 자동화하여 더 빠르고 편리하게 설정할 수 있습니다.

매핑, 임베딩 생성 및 수집 파이프라인을 수동으로 구성해야 하는 복잡성을 제거하므로 단순성과 추상화를 중시하는 경우 사용을 고려해야 합니다.semantic_text 추론 모델을 선택하기만 하면 나머지는 Elasticsearch가 알아서 처리합니다.

주요 장점으로는 인덱싱과 쿼리 중에 수행되는 자동 임베딩 생성과 선택한 추론 모델을 지원하도록 사전 구성되어 바로 사용할 수 있는 매핑이 있습니다.

또한 이 필드에서는 긴 텍스트의 자동 분할(텍스트 청킹)을 기본적으로 지원하여 큰 텍스트를 각각 임베딩된 작은 구절로 나눌 수 있으므로 검색 정확도가 향상됩니다. 이는 특히 시맨틱 검색의 기본 엔지니어링을 다루지 않고도 빠르게 가치를 제공하고자 하는 팀의 생산성을 크게 향상시킵니다.

하지만 semantic_text 은 속도와 간편함을 제공하지만 이 접근 방식에는 몇 가지 한계가 있습니다. 시장 표준 모델을 사용할 수 있으며, Elasticsearch에서 추론 엔드포인트로 사용할 수 있는 한 사용할 수 있습니다. 그러나 dense_vector 필드에서 가능한 것처럼 외부에서 생성된 임베딩은 지원하지 않습니다.

벡터 생성 방식을 더 잘 제어하고 싶거나, 자체 임베딩을 사용하거나, 고급 전략을 위해 여러 필드를 결합해야 하는 경우 dense_vector 및 sparse_vector 필드는 보다 맞춤화된 또는 도메인별 시나리오에 필요한 유연성을 제공합니다.

시맨틱 텍스트 유형에 쿼리를 사용하는 방법

semantic_text 이전에는 임베딩 유형(밀도형 또는 희소형)에 따라 다른 쿼리를 사용해야 했습니다. 희소 필드에는 sparse_vector 쿼리가 사용되었고, dense_vector 필드에는 KNN 쿼리가 필요했습니다.

시맨틱 텍스트 유형에서는 쿼리 벡터를 자동으로 생성하고 색인된 문서의 임베딩과 비교하는 시맨틱 쿼리를 사용하여 검색을 수행합니다. semantic_text 유형을 사용하면 쿼리를 포함할 추론 엔드포인트를 정의할 수 있지만, 아무것도 지정하지 않으면 인덱싱 중에 사용된 것과 동일한 엔드포인트가 쿼리에 적용됩니다.

자세한 내용은 Elasticsearch의 새로운 semantic_text 매핑 문서를 읽어보시기 바랍니다: 시맨틱 검색 간소화.

결론

Elasticsearch에서 임베딩을 매핑하는 방법을 선택할 때는 벡터를 생성하는 방법과 벡터에 대해 필요한 제어 수준을 이해하는 것이 중요합니다. 시맨틱 텍스트 필드를 사용하면 자동 및 확장 가능한 시맨틱 검색이 가능하므로 많은 초기 사용 사례에 이상적입니다. 더 많은 제어, 미세 조정된 성능 또는 사용자 지정 모델과의 통합이 필요한 경우 고밀도 벡터 및 희소 벡터 필드는 필요한 유연성을 제공합니다.

이상적인 필드 유형은 사용 사례, 사용 가능한 인프라, 머신 러닝 스택의 성숙도에 따라 달라집니다. 가장 중요한 것은 Elastic이 현대적이고 적응력이 뛰어난 검색 시스템을 구축할 수 있는 도구를 제공한다는 점입니다.

참고 자료

자주 묻는 질문

dense_vector 필드 유형이란 무엇인가요?

dense_vector 필드는 거의 모든 차원에 0이 아닌 값이 포함된 데이터(텍스트, 이미지, 오디오)의 숫자 표현을 저장합니다. 이러한 벡터는 정확한 용어를 공유하지 않더라도 전반적인 의미론적 의미를 포착합니다.

sparse_vector 필드 유형이란 무엇인가요?

sparse_vector 필드 유형은 대부분의 값이 0이고 소수의 용어만 유의미한 가중치를 가진 숫자 표현을 저장합니다. 이는 ELSER 또는 SPLADE와 같은 용어 기반 모델에서 흔히 볼 수 있습니다. 이러한 벡터는 가장 관련성이 높은 용어만을 강조하여 텍스트를 토큰/가중치 쌍으로 나타냅니다.

semantic_text 필드 유형이란 무엇인가요?

Semantic_text는 추론 엔드포인트를 통해 색인 및 쿼리 시점 모두에서 임베딩 생성을 자동으로 처리하는 추상화 개념입니다. 이로 인해 수동 벡터 처리나 복잡한 데이터 수집 파이프라인 구성의 필요성이 제거됩니다. 또한 긴 문서에 대한 자동 텍스트 청크가 기본적으로 지원됩니다.

Elasticsearch에서 어떤 필드 유형을 언제 사용하나요?

간단하게 설명하자면, semantic_text는 자동 텍스트 청크를 포함한 모든 것을 투명하게 처리하는 '간편한 진입점'입니다. 사용자 정의: dense_vector와 sparse_vector는 자체 임베딩을 사용하거나 복잡한 하이브리드 검색 시스템을 구축하려는 팀을 위한 "전문가 모드" 도구입니다.