고유한 패턴 공개 Elasticsearch의 중요 용어 집계에 대한 가이드

중요 용어 집계를 사용하여 데이터에서 인사이트를 발견하는 방법을 알아보세요.

Elasticsearch가 처음이신가요? Elasticsearch 입문용 웨비나에 참여하세요. 지금 무료 클라우드 체험을 시작하거나, 내 기기에서 Elastic을 사용해 볼 수 있습니다.

Elasticsearch에서 유의미한 용어 집계는 가장 일반적인 용어를 넘어 데이터 세트에서 통계적으로 비정상적인 값을 찾아냅니다. 이를 통해 가치 있는 인사이트와 명확하지 않은 패턴을 발견할 수 있습니다. 유의미한 용어 집계는 두 가지 유용한 매개변수가 포함된 응답을 제공합니다:

  • bg_count(백그라운드 카운트): 상위 데이터 세트에서 발견된 문서 수입니다.
  • doc_count: 결과 데이터 세트에서 발견된 문서 수

예를 들어 휴대폰 판매 데이터 집합에서 다음과 같이 아이폰 16 판매량에서 중요한 용어를 찾을 수 있습니다:

그러면 응답이 돌아옵니다:

휴스턴은 전체 데이터 세트에서 상위 10위 안에 드는 도시가 아니며, 아이폰 16의 상위 도시도 아닙니다. 그러나 유의미한 용어 집계 결과, 이 도시에서는 다른 데이터에 비해 아이폰 16이 불균형적으로 많이 구매되고 있는 것으로 나타났습니다. 숫자에 대해 자세히 알아봅시다:

  • 최상위 레벨에서:
    • doc_count: 122 - 쿼리가 총 122개의 문서와 일치했습니다.
    • bg_count: 424 - 배경 세트(모든 영업 문서)에 424개의 문서가 포함되어 있습니다.
  • 휴스턴 버킷에서:
    • doc_count: 12 - 휴스턴이 122개의 쿼리 결과 중 12개에 나타납니다.
    • bg_count: 14 - 휴스턴은 백그라운드 데이터 세트의 총 424개 문서 중 14개에 나타납니다.

이는 총 구매 424건 중 휴스턴에서 발생한 구매는 14건(전체 구매의 3.3%% )에 불과하다는 것을 의미합니다. 하지만 iPhone 16 판매량만 살펴보면 122건 중 12건이 휴스턴에서 발생했는데, 이는 전체 데이터 세트보다 3배 많은 9.8건% 이며, 이는 상당한 수치입니다!

다음은 비주얼라이제이션에서 이를 보여주는 모습입니다: 도시별_지역별 총 매출.

휴스턴에서 14개의 매출이 발생하여 데이터 세트에서 매출 기준으로 14번째로 높은 도시임을 알 수 있습니다.

이제 필터를 적용하여 iPhone 16 판매량만 확인하면 휴스턴에서 12개의 판매량이 발생하여 이 특정 모델에 대한 판매량이 가장 많은 두 번째 도시가 됩니다:

중요한 용어 집계에 대한 이해

Elastic 설명서에 따르면, 중요한 용어 집계는 다음과 같습니다:

"(전경과 배경 세트 사이에서 측정된 인기도에서 상당한 변화를 겪은) 용어를 찾습니다."

즉, 통계 지표를 사용하여 데이터 하위 집합(전경 세트)에 있는 용어의 빈도와 상위 데이터 집합(배경 세트)에 있는 동일한 용어의 빈도를 비교합니다. 이렇게 하면 점수가 데이터에 용어가 얼마나 자주 나타나는지보다는 통계적 유의성을 반영합니다.

중요 용어 집계와 일반 용어 집계의 주요 차이점은 다음과 같습니다:

  • 중요 용어는 데이터의 하위 집합을 비교하는 반면, 용어 집계는 쿼리 결과 데이터 집합에서만 작동합니다.
  • 용어 집계 결과는 데이터 집합에서 가장 일반적인 용어인 반면, 중요 용어의 결과는 데이터 집합을 고유하게 만드는 요소를 찾기 위해 일반적인 용어를 무시합니다.
  • 중요한 용어는 집계라는 용어처럼 메모리가 아닌 디스크에서 데이터를 가져와야 하기 때문에 성능에 더 큰 영향을 미칠 수 있습니다.

실무 적용(소비자 행동 분석)

분석을 위한 데이터 준비

이 분석을 위해 가격, 휴대폰 사양, 구매자의 인구통계학적 특성, 피드백을 포함한 합성 휴대폰 판매 데이터 세트를 생성했습니다. 또한 나중에 시맨틱 쿼리를 실행할 수 있도록 사용자의 피드백을 바탕으로 임베딩을 생성했습니다. Elasticsearch에서 바로 사용할 수 있는 다국어 e5 소형 모델을 사용했습니다.

이 데이터 세트를 Elasticsearch에서 사용하려면:

  1. Kibana 데이터 파일 업로드 기능을 사용하여 CSV 파일( 여기에서 다운로드 가능)을 업로드합니다.
  2. 이 블로그에 표시된 것처럼 "임베딩"이라는 시맨틱 필드를 설정하여 multilingual-e5-small model
  3. 필드 유형 기본값( purchase_dateuser_feedback) 을 제외한 모든 필드의 키워드)을 사용하여 가져오기를 완료합니다. 여기에 제시된 쿼리를 그대로 실행할 수 있도록 인덱스 이름 phone_sales_analysis 을 추가해야 합니다.

이 분석의 주요 초점은 " "아이폰 16 구매자와 다른 인구집단의 차이점은 무엇인가?"를 알아보고 마케팅 목적으로 구매자를 세분화하기 위한 것입니다. 

데이터 세트의 샘플 문서입니다:

인구 통계학적 패턴 이해

여기에서는 일반 사용자를 대상으로 분석을 실행하여 iPhone 16 사용자의 주요 용어 집계에서 얻은 흥미로운 결과와 비교해 보겠습니다.

일반 패턴

일반적인 구매 패턴을 이해하기 위해 다양한 분야의 모든 문서에 대한 데이터를 집계할 수 있습니다. 간단하게 설명하기 위해 휴대폰을 구매한 사람들의 직업을 살펴보는 데 초점을 맞추겠습니다. Elasticsearch에 요청하면 이 작업을 수행할 수 있습니다.

이를 통해 데이터 집합의 주요 직업군(레코드 수 기준)을 알 수 있습니다:

iPhone 16 사용자의 패턴

iPhone 16을 구매한 사람들의 차이점을 이해하기 위해 다음과 같이 동일한 필드에 필터를 사용하여 용어 집계를 실행하여 쿼리에서 해당 사용자를 찾아보겠습니다:

따라서 iPhone 16 사용자의 주요 직업은 다음과 같습니다:

iPhone 16 사용자는 다른 휴대폰 모델 사용자에 비해 직업 패턴이 다르다는 것을 알 수 있습니다. Kibana를 사용하여 결과를 쉽게 시각화해 보겠습니다:

이 차트에서 iPhone 16의 추세가 전체 인구의 추세와 다르다는 것을 알 수 있습니다.

전체 분석을 건너뛰고 중요한 용어 한 가지를 집계하여 iPhone 16 사용자가 일반 인구와 다른 점을 확인할 수 있습니다:

간단히 말해서 다음과 같은 응답을 받았습니다:

아이폰 16의 직업 가치doc_countbg_count
직업_분포(최상위 수준)122424
의료 & 헬스케어 버킷4557

이 응답은 iPhone 16 사용자가 흔치 않은 (의미심장하게 읽히는!) 일반 인구 대비 의료 & 헬스케어 분야 종사자 수입니다. 응답의 숫자가 무엇을 의미하는지 살펴보겠습니다:

  • 최상위 레벨에서:
    • doc_count: 122 - 쿼리가 총 122개의 문서와 일치했습니다.
    • bg_count: 424 - 배경 세트(모든 영업 문서)에 424개의 문서가 포함되어 있습니다.
  • 의료 & 헬스케어 버킷에서:
    • doc_count: 45 - "의료 & 헬스케어" 122개의 쿼리 결과 중 45개에 나타납니다.
    • bg_count: 57 - "의료 & 헬스케어" 백그라운드 데이터 세트의 총 424개 문서 중 57개에 나타납니다.

424명의 구매자 중 57명이 의료 & 헬스케어 분야에서 일하고 있으며, 13.44%인%. 하지만 iPhone 16 구매자를 살펴보면 122명 중 45명이 의료 & 헬스케어 분야에서 일하고 있으며, 이는 36.88%인% 입니다. 즉, iPhone 16 사용자 중 의료( & ) 분야에서 일하는 사람을 찾을 확률이 두 배나 높다는 뜻입니다!

동일한 분석을 다른 분야(연령, 위치, 소득 계층 등)에 적용하여 iPhone 16 사용자를 특별하게 만드는 요소에 대한 자세한 정보를 찾을 수 있습니다. 

소비자 세분화

중요한 용어 집계를 사용하여 제품, 카테고리 및 고객 세그먼트 간의 관계 인사이트를 추출할 수 있습니다. 이를 위해 탐색하고자 하는 카테고리에 대한 상위 집계를 구축합니다. 또한 중요 용어와 일반 용어 하위 집계를 사용하여 해당 카테고리에 대한 흥미로운 인사이트를 찾고 해당 직종에 종사하는 대부분의 사람들이 사용하는 용어와 비교합니다.

예를 들어 일부 업무 분야의 사람들이 선호하는 것을 살펴봅시다:

  1. 분석을 보다 명확하게 하기 위해 검색을 3개의 업무 분야로 제한해 보겠습니다: ["관리 & 지원", "기술 & 데이터", "의료 & 헬스케어"]로 제한합니다.
  2. 집계 측면에서는 직업별 용어 집계부터 시작합니다.
  3. 휴대폰 모델별 용어라는 하나의 하위 집계를 추가하여 각 분야에서 일하는 사용자가 어떤 모델을 구매하는지 파악하세요.
  4. 두 번째 하위 집계 추가: 휴대폰 모델별 중요 용어 - 각 업무 분야에서 어떤 모델이 특별한지 찾아보세요.

집계 결과를 자세히 분석해 보겠습니다:

직업 관리 & 지원

용어 집계

중요 용어 집계

이 표를 통해 이 직업의 추세와 전체 인구의 추세 사이에 큰 차이가 없다는 것을 유추할 수 있습니다.

직업 기술 & 데이터

용어 집계

중요 용어 집계

총 문서 수 424

이 직업의 문서: 71

휴대폰 모델doc_count (이 직업의 이 모델)bg_count (모든 문서에서 이 모델)% 모든 문서에서% 이 직종에서
Google Pixel 812225.19%16.90%
OnePlus 119143.30%12.68%
OnePlus 12 Pro330.71%4.23%
구글 픽셀 8 프로9214.95%12.68%
아무것도 전화 2581.89%7.04%
삼성 갤럭시 Z 폴드5461.42%5.63%
OnePlus 128204.72%11.27%

직업 의료 & 헬스케어

용어 집계

중요 용어 집계

총 문서 수 424

이 직업의 문서: 57

휴대폰 모델doc_count (이 직업의 이 모델)bg_count (모든 문서에서 이 모델)% 모든 문서에서% 이 직종에서
iPhone 164512228.77%78.95%
아이폰 15 프로 맥스3133.07%5.26%
iPhone 157409.43%12.28%

이 데이터가 우리에게 어떤 이야기를 들려주는지 살펴보겠습니다:

  • 의료 & 의료 전문가들은 iPhone 16을 선호하며 일반적으로 Apple 휴대폰을 사용하는 경향이 매우 높습니다.
  • 기술 & 데이터 전문가들은 하이엔드 Android 휴대폰을 선호하지만 반드시 삼성 브랜드를 사용하지는 않습니다. 이 카테고리에서 아이폰도 상당한 추세를 보이고 있습니다.
  • 관리 & 지원 전문가는 삼성 및 Google 휴대폰을 선호하지만 강력하고 독특한 트렌드는 없습니다.

하이브리드 검색은 텍스트 검색과 시맨틱 결과를 결합하여 향상된 검색 환경을 제공합니다. 이러한 맥락에서 중요한 용어 집계는 질문에 대한 답을 통해 문맥 인식 검색의 결과에 대한 인사이트를 제공할 수 있습니다: 모든 문서와 비교했을 때 이 데이터 세트의 특별한 점은 무엇인가?이 기능을 설명하기 위해 사용자가 좋은 성능에 대해 이야기할 때 어떤 모델이 과도하게 대표되는지 살펴봅시다:

  • 필드 임베딩에 대해 '좋은 성능'이라는 입력에 가장 가까운 상위 사용자 피드백을 찾는 시맨틱 쿼리를 작성해 보겠습니다.
  • 또한 사용자_피드백 텍스트 필드에 동일한 용어로 텍스트 검색을 사용할 것입니다.
  • 또한 전체 데이터 세트보다 이러한 결과에서 더 자주 찾을 수 있는 휴대폰 모델을 찾기 위해 중요한 용어 쿼리를 추가할 예정입니다.

일치하는 문서의 예를 살펴보겠습니다:

이것이 저희가 받은 반응입니다:

이는 전체 문서 424개 중 아이폰 15가 40회(9.4% ) 발견된 반면, 의미 검색 '좋은 성능'과 일치하는 20개 문서에서는 5회(25% ) 발견되었다는 것을 알 수 있습니다. 따라서 결론을 도출 할 수 있습니다. iPhone 15는 우연히보다 좋은 성능에 대해 이야기 할 때 발견 될 가능성이 2.7 배 더 높습니다.

결론

중요 용어 집계는 데이터 집합을 문서 세계와 비교하여 데이터 집합의 고유한 세부 정보를 찾아낼 수 있습니다. 이를 통해 발생 횟수를 넘어 데이터에서 예상치 못한 관계를 발견할 수 있습니다. 예를 들어 매우 흥미로운 기능을 구현하는 다양한 사용 사례에 중요한 용어를 적용할 수 있습니다:

  • 사기 탐지 작업 시 패턴 찾기 - 도난당한 신용 카드의 일반적인 거래를 식별합니다.
  • 사용자 리뷰를 통한 브랜드 품질 인사이트 - 불균형적인 수의 악평이 있는 브랜드를 감지합니다.
  • 잘못 분류된 문서 발견 - 설명(중요 용어 집계)에서 해당 범주에 속하지 않는 단어를 사용하는 범주(용어 필터)에 속하는 문서를 발견합니다.

관련 콘텐츠

최첨단 검색 환경을 구축할 준비가 되셨나요?

충분히 고급화된 검색은 한 사람의 노력만으로는 달성할 수 없습니다. Elasticsearch는 여러분과 마찬가지로 검색에 대한 열정을 가진 데이터 과학자, ML 운영팀, 엔지니어 등 많은 사람들이 지원합니다. 서로 연결하고 협력하여 원하는 결과를 얻을 수 있는 마법 같은 검색 환경을 구축해 보세요.

직접 사용해 보세요