생성형 AI 경험 가속화

속도와 규모를 고려하여 구축된 검색 기반 AI 및 개발자 도구

gen-ai-launch-blog-720x420.jpg

대규모 언어 모델(LLM)과 생성형 AI의 일상적인 혁신으로 인해 개발자는 이러한 흐름의 최전선에 서서 혁신의 방향과 가능성에 영향을 미치고 있습니다. 이 블로그에서는 Elastic의 검색 고객이 어떻게 Elastic의 벡터 데이터베이스와 검색 기반 AI를 위한 개방형 플랫폼, 그리고 개발자 도구를 사용해 생성형 AI 경험을 가속화하고 확장하여 성장을 위한 새로운 길을 제공하는지 공유하겠습니다.

Dimensional Research가 실시하고 Elastic이 지원하는 최근 개발자 설문 조사 결과에 따르면 87%의 개발자가 데이터 분석이든, 고객 지원이든, 워크플레이스 검색이나 챗봇이든, 이미 생성형 AI 사용 사례를 갖고 있는 것으로 나타났습니다. 그러나 이러한 사용 사례를 프로덕션 환경에 성공적으로 구현한 사례는 11%에 불과합니다.

다음과 같은 몇 가지 요인이 이를 가로막고 있습니다.

  • 모델 배포 및 관리: 올바른 모델을 선택하려면 실험과 빠른 반복이 필요합니다. 그리고 생성형 AI 애플리케이션을 위한 대규모 언어 모델(LLM)을 배포하는 것은 많은 개발자에게 진입장벽이 높고 학습이 어려운 대상이기 때문에 시간이 많이 걸리고 복잡합니다.

  • 법률 및 규정 준수 문제: 이러한 우려는 민감한 데이터를 다룰 때 특히 중요하며 모델 채택에 장벽이 될 수 있습니다.

  • 확장: 도메인별 데이터는 LLM이 컨텍스트를 이해하고 정확한 결과를 생성하는 데 중요합니다. 데이터가 확장됨에 따라 이를 검색하려면 벡터 임베딩을 생성하는 워크로드에 대해 동일하게 확장 가능한 지원이 필요하므로 메모리 및 계산 리소스에 대한 수요가 빠르게 증가합니다. 방대한 데이터 세트의 경우, 컨텍스트 윈도우가 크고 LLM에 전달하는 데 비용이 많이 들며, 컨텍스트가 많다고 해서 정확도가 높아지는 것은 아닙니다. 강력한 도구 플랫폼만이 컨텍스트를 형성하고 정확도와 규모 사이의 균형을 유지하여 혁신을 위한 실행 가능한 미래 보장형 아키텍처를 달성할 수 있습니다.
차트: 여러분의 조직은 생성형 AI 사용 사례를 구축할 때 어디에 가장 많은 시간과 리소스를 소비할 것으로 예상하시나요?

개발자는 생성형 AI 애플리케이션을 빌드하기 위한 안정적이고 확장 가능하며 비용 효율적인 방법과 구현 및 LLM 선택 프로세스를 단순화하는 플랫폼을 추구합니다.

차트: 벡터 검색 엔진을 선택할 때 여러분의 조직에서 가장 먼저 고려하는 사항은 무엇인가요?

Elastic은 생성형 AI 사용 사례를 지원하기 위해 빠른 혁신 속도를 통해 이러한 개발자의 우려 사항에 대한 솔루션을 지속적으로 제공하고 있습니다.

생성형 AI 경험을 대규모로 빠르게 출시

Elasticsearch는 시장에서 가장 많이 다운로드되는 벡터 데이터베이스이며, Elastic과 Lucene 커뮤니티와의 긴밀한 관계를 통해 우리는 검색 혁신을 더 빠르게 설계하고 고객에게 더 빠르게 제공할 수 있었습니다. 이제 Elasticsearch는 Lucene 9.10을 기반으로 하여 고객이 생성형 AI를 통해 속도와 확장성을 달성하도록 지원합니다. 9.10을 사용하면 속도가 향상되는 것 외에도 사용자는 멀티 세그먼트 인덱스에서 상당한 쿼리 대기 시간 개선을 확인할 수 있습니다. 이는 시작일 뿐이며, 앞으로 더욱 속도가 빨라질 것입니다.

icon-quote

고유한 유연성, 확장성 및 안정성 때문에 Elastic을 벡터 데이터베이스로 사용하고 있습니다. Elastic은 머신 러닝 및 생성형 AI를 지원하는 새로운 기능을 신속하게 제공하여 지속적으로 상황을 개선시킵니다.

Peter O'Connor, Stack Overflow 플랫폼 엔지니어링의 엔지니어링 관리자

RAG 워크로드를 신속하게 구현하고 확장하기 위해, Elastic Learned Sparse EncodeR(ELSER)(정식 버전 출시)는 배포가 쉽고, 최적화되어 있으며, 시맨틱 검색을 위한 최신 상호 작용 머신 러닝(ML) 모델입니다. ELSER는 미세 조정 없이 상황에 맞는 검색 결과를 제공하고 개발자에게 신뢰할 수 있는 기본 제공 솔루션을 제공하여 모델 선택, 배포 및 관리에 소요되는 시간과 복잡성을 줄여줍니다.

ELSER는 속도 저하 없이 검색 정확도를 높입니다. Consensus가 Elastic에서 제공하는 학술 연구 플랫폼을 ELSER를 사용하여 업그레이드했을 때 정확도가 향상되어 검색 대기 시간이 75% 단축됩니다.

ELSER를 E5 임베딩 모델과 결합하면 다국어 벡터 검색을 쉽게 적용할 수 있습니다. E5의 최적화된 아티팩트는 Elasticsearch 배포에 맞게 특별히 맞춤 제작되었습니다. 다국어 모델을 업로드하거나 Elastic의 유추 API(예: Cohere의 다국어 모델 임베딩)와 통합하여 다국어 검색도 가능합니다. 이러한 발전으로 인해 검색 증강 생성(RAG)이 더욱 가속화되어 Elastic이 구축하는 혁신적인 생성형 AI 경험을 확장하는 데 중요한 인프라가 되었습니다.

Elastic은 이러한 경험을 효율적으로 확장하는 데에도 중점을 두고 있습니다. 스칼라 양자화와 함께 제공되는 8.12 릴리즈는 벡터 저장에 있어 판도를 바꾸는 중요한 요소입니다. 벡터 확장이 크면 검색 속도가 느려질 수 있습니다. 그러나 이 압축 기술은 메모리 요건을 1/4로 대폭 줄이고 더 많은 벡터를 압축하는 데 도움이 되며, 더 큰 규모에서는 재현율에 미미한 영향을 미칩니다. 정확도를 저하시키지 않고 RAG에서 사용되는 벡터 검색 속도를 두 배로 늘립니다. 그 결과, 대규모로 인프라 비용을 절감하는 더 간결하고 빠른 시스템입니다.

icon-quote

Elastic의 정확성과 속도, 그리고 Google Cloud의 강력한 성능을 결합하면, 매우 안정적이고 비용 효율적이며 아울러 사용자에게 만족스러운 경험을 제공하는 검색 플랫폼을 구축할 수 있습니다.

Sujith Joseph, Cisco Systems 수석 엔터프라이즈 검색 및 클라우드 아키텍트

RAG를 위해 가장 정확도가 높은 검색 엔진

정확도는 최고의 생성형 AI 경험에 있어 핵심적인 요소입니다. 관련 문서를 LLM을 위한 컨텍스트로 검색하기 위한 훌륭한 첫 번째 단계는 시맨틱 검색에 ELSER를 사용하고 텍스트 검색에 BM25를 사용하는 것입니다. 이제 Elastic Stack의 일부인 순위 재지정 도구를 사용하여 대규모 컨텍스트 윈도우를 더욱 구체화할 수 있습니다. Reranker는 강력한 ML 모델을 적용하여 검색 결과를 세부적으로 조정하고 사용자 기본 설정 및 신호를 기반으로 가장 정확도가 높은 결과를 최상위에 표시합니다. 순위 학습(Learning to Rank, LTR)도 이제 Elasticsearch Platform에 기본 제공됩니다. 이는 RAG 사용 사례에 있어 강력합니다. RAG 사용 사례는 가장 정확도가 높은 결과를 LLM에 컨텍스트로 제공하는 데 의존하기 때문입니다.

유추 API와 Cohere와 같은 서드파티 제공업체를 통해 구현이 더욱 단순화됩니다. 최신 릴리즈로 업그레이드하여 순위 재지정이 정확도에 미칠 수 있는 영향을 테스트해 보세요.

이러한 접근 방식은 검색 정확도를 향상할 뿐만 아니라(Consensus의 경우 30%), 정확도를 개선하고 RAG를 위한 정확도를 미세 조정하며, ML 작업 흐름을 효율적으로 관리하여 빠른 결과를 얻는 데도 도움이 됩니다.

간단해진 모델 선택 및 교체

모델 선택은 건초 더미에서 바늘 찾기처럼 어렵습니다. 실제로 우리의 개발자 설문조사에서는 조직 전반에 걸친 생성형 AI 노력의 상위 5개 중 하나가 LLM과의 통합임을 강조했습니다. 이 딜레마는 사용 사례에 대해 오픈 소스 LLM과 비공개 소스 LLM을 선택하는 것 이상으로 정확성, 데이터 보안, 도메인 특정성, 그리고 변화하는 LLM 생태계에 빠르게 적응하는 것까지 확장됩니다. 개발자에게는 새로운 모델을 시도하고 교체하기 위한 간단한 워크플로우가 필요합니다.

Elastic은 개방형 플랫폼, 벡터 데이터베이스, 검색 엔진을 통해 트랜스포머 및 기본 모델을 지원합니다. Elastic Learned Sparse EncodeR(ELSER)는 RAG 구현을 가속화하기 위한 안정적인 시작점입니다.

또한 Elastic의 유추 API는 개발자를 위한 코드 및 멀티 클라우드 유추 관리를 간소화합니다. ELSER를 사용하든, OpenAI(개발자 사이에서 가장 많이 평가되고 사용되는 모델), Hugging Face, Cohere 등의 RAG 워크로드 임베딩을 사용하든, 한 번의 API 호출로 하이브리드 유추 배포 관리를 위한 깔끔한 코드가 보장됩니다. 유추 API를 사용하면 다양한 모델에 쉽게 액세스할 수 있으므로 적합한 모델을 찾을 수 있습니다. 도메인별 자연어 처리(NLP) 및 생성형 AI 모델과 쉽게 통합되어 모델 관리를 간소화하고 AI 혁신에 집중할 수 있는 시간을 확보합니다.

차트: 여러분의 조직에서 사용, 평가했거나 평가할 계획이 있는 임베딩 모델은 무엇인가요?
차트: 여러분의 조직에서는 어떤 유형의 모델을 사용하고 있거나 앞으로 사용할 것으로 예상하시나요?

함께하면 더욱 강력해지는 훌륭한 통합 경험

개발자는 공개 및 비공개 Hugging Face 모델을 포함한 다양한 트랜스포머 모델을 호스팅할 수도 있습니다. Elasticsearch는 전체 생태계를 위한 다목적 벡터 데이터베이스 역할을 하지만, LangChainLlamaIndex과 같은 도구를 선호하는 개발자는 통합을 통해 LangChain 템플릿을 사용하여 프로덕션에 즉시 사용 가능한 생성형 AI 앱을 빠르게 실행할 수 있습니다. Elastic의 개방형 플랫폼을 사용하면 생성형 AI 프로젝트를 신속하게 조정하고, 실험하고, 가속화할 수 있습니다. Elastic은 최근 대화 코파일럿을 구축하기 위한 새로운 서비스인 On Your Data를 위한 서드파티 벡터 데이터베이스로도 추가되었습니다. 또 다른 좋은 예는 Elastic을 Cohere 임베딩을 위한 훌륭한 벡터 데이터베이스로 만들기 위해 배후에서 Cohere 팀과 협력한 것입니다.

생성형 AI는 모든 조직을 재편하고 있으며 Elastic은 이러한 변화를 지원하기 위해 최선을 다하고 있습니다. 개발자의 경우, 성공적인 생성형 AI 구현의 핵심은 지속적인 학습(Elastic Search Labs을 보셨나요?)과 변화하는 AI 환경에 빠르게 적응하는 것입니다.

사용해 보세요!

이 게시물에 설명된 기능의 릴리즈 및 시기는 Elastic의 단독 재량에 따릅니다. 현재 이용할 수 없는 기능은 정시에 또는 전혀 제공되지 않을 수도 있습니다.

이 블로그 포스팅에서, Elastic은 각 소유자가 소유하고 운영하는 서드파티 생성형 AI 도구를 사용했거나 참조했을 수 있습니다. Elastic은 서드파티 도구에 대한 어떠한 통제권도 없으며 당사는 그 내용, 작동 또는 사용에 대한 책임이나 법적 의무가 없고 이러한 도구의 사용으로 인해 발생할 수 있는 손실 또는 손상에 대해 책임을 지지 않습니다. 개인 정보, 민감한 정보 또는 기밀 정보와 함께 AI 도구를 사용할 때 주의하세요. 제출하신 모든 데이터는 AI 교육을 위해 또는 다른 목적으로 사용될 수 있습니다. 제공하시는 정보가 안전하게 유지되거나 기밀로 유지된다는 보장은 없습니다. 사용 전에 생성형 AI 도구의 개인 정보 보호 관행 및 사용 약관을 숙지하셔야 합니다.

Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine 및 관련 마크는 미국 및 기타 국가에서 Elasticsearch N.V.의 상표, 로고 또는 등록 상표입니다. 기타 모든 회사 및 제품 이름은 해당 소유자의 상표, 로고 또는 등록 상표입니다.