고성능 GPU 기반 Elastic Inference Service(EIS): Elasticsearch를 위한 GPU 가속 추론 서비스

blog-EIS-fast_(1)_(1).png

Elastic Cloud의 Elasticsearch에 기본 통합된 GPU 가속 추론을 제공하는 Elastic Inference Service(EIS)를 새롭게 선보입니다. 

Elasticsearch는 가장 널리 배포된 벡터 및 시맨틱 검색 데이터베이스입니다. 오늘날의 검색 및 AI 워크로드는 임베딩, 재랭킹, 언어 모델을 위한 빠르고 확장 가능한 추론 능력에 의존하고 있습니다. 데이터가 늘어날수록 인프라 관리, 모델 테스트, 통합 처리, 그리고 개별 솔루션의 연결까지 운영 부담이 점점 커집니다. 이로 인해 인프라나 통합에 대한 운영 부담 없이, 속도와 확장성, 비용 효율성을 제공하는 관리형 GPU 가속 환경에 대한 뚜렷한 고객 요구가 나타나고 있습니다. Elastic Inference Service는 서비스형 추론 기능을 제공하도록 설계되었으며 임베딩, 재랭킹, 대형 및 소형 언어 모델을 대규모 환경에서도 안정적인 서비스로 제공합니다. 또한 EIS는 멀티 클라우드 서비스 제공자(CSP), 멀티 리전, 멀티 모달 서비스로 설계되어 장기적인 추론 요구를 모두 충족할 수 있습니다.

EIS는 최첨단 대형 언어 모델(LLM)에 대한 접근성을 이미 제공하고 있으며 이를 통해 Playground 및 AI Assistant에서 자동 데이터 수집, 위협 탐지, 문제 조사, 근본 원인 분석 등 다양한 AI 기능을 즉시 활용할 수 있습니다. 이와 더불어 Elastic의 내장 희소 벡터 모델인 Elastic Learned Sparse Encode(ELSER)을 기술 프리뷰 형태로 EIS의 첫 텍스트 임베딩 모델로 선보입니다. ELSER은 Elastic 플랫폼에서 시맨틱 검색 대부분의 활용 사례를 지원하며 업계 최고 수준의 검색 관련성과 성능을 제공합니다. 이는 시작에 불과합니다. 앞으로 다국어 임베딩, 재랭킹 모델을 비롯해 최근 인수를 통해 Elastic에 합류한 Jina.ai의 모델들이 추가로 제공되어 가능성을 한층 넓혀갈 예정입니다.

최첨단 아키텍처와 성능

EIS는 최신 NVIDIA GPU를 사용하여 낮은 지연 시간과 높은 처리량의 추론을 제공하는 확장 가능한 아키텍처를 제공합니다. GPU는 머신러닝(ML) 모델이 다수의 연산을 병렬로 처리할 수 있도록 해 전반적인 효율성을 대폭 향상시킵니다.

EIS는 Elasticsearch 사용자에게 빠른 추론 경험을 제공하면서 설정과 워크플로 관리를 단순화합니다. 이 서비스는 API를 통한 손쉬운 추론을 제공하여 종단 간 semantic_text 경험을 가능하게 하고 벡터 임베딩을 생성하며, LLM을 활용해 컨텍스트 엔지니어링과 에이전트형 워크플로를 구동함으로써 일관되고 우수한 성능과 개발자 경험을 보장합니다.

  • 간소화된 개발자 경험: 모델 다운로드, 수동 구성 또는 리소스 프로비저닝이 필요 없습니다. EIS는 semantic_text 및 추론 API와 직접 통합되어 쾌적한 개발 환경을 제공합니다. 모델 배포 시 콜드 스타트가 발생하지 않으며 별도의 자동 확장 기능을 구현할 필요도 없습니다.

  • 향상된 종단 간 시맨틱 검색 경험: 희소 벡터, 밀집 벡터, 시맨틱 재랭킹 등 다양한 방식을 모두 지원합니다. 더 많은 모델이 곧 추가될 예정입니다.
  • 향상된 성능: GPU 가속 추론은 CPU 기반 방식보다 최대 10배 높은 데이터 수집 처리량과 일관된 지연 시간을 제공하며, 특히 부하가 높은 환경에서 더욱 뛰어난 성능을 발휘합니다. 
  • 간소화된 생성형 AI(GenAI) 워크플로우: 외부 서비스, API 키, 계약 등의 번거로움이 없습니다. Elastic Managed LLM을 사용하면 데이터 수집, 조사, 탐지 및 분석을 위한 AI 기능을 처음부터 즉시 사용할 수 있습니다. 
  • 하위 호환성: 기존의 Elasticsearch ML 노드는 계속 지원되며, 추론 API 를 통해 모든 타사 서비스를 자유롭게 연결할 수 있습니다. 
  • 이해하기 쉬운 요금 체계: EIS는 모델당 백만 토큰 단위로 과금되는 다른 추론 서비스와 유사한 사용량 기반 요금제 를 제공합니다. 또한 Elastic은 EIS에서 제공되는 모든 모델에 대해 면책을 보장하여 손쉽게 시작하고 지원을 받을 수 있습니다.
  • 액세스: 모든 CSP와 지역의 Elastic Cloud Serverless 및 Elastic Cloud Hosted 환경에서 EIS 추론 엔드포인트에 액세스할 수 있습니다.

다음 다이어그램은 Elasticsearch의 추론 기능이 자체 관리형 CPU 기반 워크플로우에서 GPU에 최적화된 완전 통합형 Elastic Inference Service(EIS)로 발전한 과정을 보여줍니다.

EIS 도입 이전의 추론
EIS 기반의 추론

이제 그다음은?

Elastic Inference Service를 다양한 사용 사례에 적용할 수 있도록 여러 흥미로운 개선 작업을 진행하고 있습니다. 주요 개선 사항은 다음과 같습니다. 

  • 더 많은 모델: 고객의 증가하는 추론 수요를 충족하기 위해 모델 카탈로그를 확장하고 있습니다. 앞으로 몇 달 동안 EIS에 새로운 모델을 추가하여 더 다양한 검색 및 추론 요구를 지원할 예정입니다. 다음 모델이 포함됩니다.

    • 시맨틱 검색을 위한 다국어 임베딩 모델

    • 강화된 시맨틱 검색 및 개선된 키워드 기반 검색을 위한 시맨틱 재랭킹 모델

    • 멀티모달 임베딩 및 재랭킹 모델 

    • 소형 언어 모델(SLM)

    • 더 많은 대형 언어 모델(LLM)

앞으로도 더 다양한 유형의 모델을 지속적으로 추가할 예정입니다. 원하는 모델이 있다면 support@elastic.co 로 문의해 주세요.

  • 더 많은 CSP와 지역: 가까운 시일 내 서비스 적용 범위를 더 폭넓은 CSP와 지역으로 확장하기 위해 작업 중입니다. 현재 이용 가능한 지역은 문서 에서 확인하실 수 있습니다.

  • 간소화된 시맨틱 검색: 쿼리 내 필드 유형인 semantic_text를 사용한 의미 검색은 데이터 수집 시점에 자동으로 추론을 수행하고 합리적인 기본값을 제공함으로써 추론 워크플로를 단순화합니다. 가까운 시일에 semantic_text는 ELSER 엔드포인트를 기본값으로 사용하게 될 예정입니다.
  • 자체 관리형 고객을 위한 지원 강화: 자체 관리형 사용자도 곧 동일한 기능을 이용할 수 있게 됩니다. 머지않아 Cloud Connected Mode를 통해 EIS를 자체 관리형 환경에서도 사용할 수 있게 되어 운영 부담을 줄이고, 사용자에게 가장 적합한 하이브리드 아키텍처와 확장성을 제공합니다. 

이 외에도 많은 주목할 만한 개선 작업을 진행하고 있습니다. 궁금한 점이 있으면 언제든 문의해 주세요.

Elastic Cloud에서 EIS 체험하기

원활한 워크플로우, 실시간 인사이트, 그리고 향상된 성능을 갖춘 Elastic Inference Service(EIS)는 개발자들이 Elastic 에코시스템 내에서 더욱 빠르고 효율적인 GenAI 애플리케이션을 구축할 수 있도록 지원합니다. 

모든 Elastic Cloud 체험판에서 Elastic Inference Service를 이용할 수 있습니다. Elastic Cloud Serverless와 Elastic Cloud Hosted 환경에서 지금 사용해 보세요.

이 게시물에서 설명된 모든 기능이나 성능의 출시와 일정은 Elastic의 단독 재량에 따라 결정됩니다. 현재 제공되지 않는 기능이나 성능은 예정된 시간에 출시되지 않을 수도 있으며 아예 제공되지 않을 수도 있습니다.

해당 블로그 게시물에서는 타사 생성형 AI 도구를 사용하거나 언급했을 수 있으며 이러한 도구는 각각의 소유자가 소유하고 운영합니다. Elastic은 이러한 타사 도구에 대한 어떠한 통제권이 없으며 해당 도구의 콘텐츠, 운영, 사용뿐만 아니라 사용으로 인해 발생할 수 있는 손실이나 손해에 대해 어떠한 책임도 지지 않습니다. 개인 정보, 민감한 정보 또는 기밀 정보를 AI 도구와 함께 사용할 때는 주의하시기 바랍니다. 제출된 모든 데이터는 AI 학습이나 기타 목적으로 사용될 수 있습니다. 제공한 정보가 안전하게 보호되거나 비밀로 유지된다는 보장은 없습니다. 생성형 AI 도구를 사용하기 전에 해당 도구의 개인정보 보호 관행과 이용 약관을 숙지하시기 바랍니다. 

Elastic, Elasticsearch 및 관련 마크는 미국 및 기타 국가에서 Elasticsearch B.V.의 상표, 로고 또는 등록 상표입니다. 그 외의 모든 회사명과 제품명은 해당 소유자의 상표, 로고 또는 등록 상표입니다.