Orca Security - 생성형 AI를 활용하여 사용자의 가시성 확보, 규정 준수 달성, 위험 우선순위 지정 등을 지원

2024년 7월 9일

조직이 클라우드에 더 많은 애플리케이션을 계속 배포함에 따라 cloud security posture를 관리하는 것이 중요해지고 있습니다. Orca Security와 같은 보안 기술 공급업체는 기업의 IT 환경을 보호하고 가장 큰 클라우드 위험을 우선 순위화(prioritizing)함에 더 나은 방법을 제공함으로써 시장을 이끌고 있습니다. 그러나 보안팀은 에코시스템이 더 복잡해지고 적대적인 공격이 더욱 정교해짐에 따라 보안 위협과 가장 연관성이 높은 데이터를 검색하는 것이 매우 까다로울 수 있습니다. 이는 여러 클라우드 공급업체를 채택하는 조직의 경우 특히 그렇고, 분석가는 각 공급업체 마다 고유한 정보나 이벤트의 분류 형식 차이로 인해 중요한 정보를 검색하기가 어려울 수 있습니다.

Orca는 "벡터 임베딩 기반" 데이터베이스 제품이라도 임베딩에 적절한 키워드 검색을 추가하지 않으면 만족스러운 결과를 얻지 못한다는것을 발견했습니다. 이것이 Orca가 Elasticsearch로 전환하여 고급 검색 기능을 통합하여 보안 솔루션을 위한 보다 스마트하고 AI 기반 검색 엔진을 만든 이유입니다. 이 전략적 선택은 Orca의 플랫폼을 변화시켜 사용자가 복잡하고 도메인별 검색을 쉽고 정확하게 수행할 수 있게 했습니다.

Orca팀이 집중한 기능 ‘AI 기반 검색'

Orca Security는 기술을 앞서가고 사이버 보안 팀(개발자, DevOps, 클라우드 아키텍트, 위험 거버넌스 및 규정 준수 팀 포함)의 요구에 발맞추기 위한 도구가 필요했습니다. 사이버 보안 팀은 클라우드 환경에 어떤 보안 위협이 있는지 쉽고 직관적으로 이해해야 합니다. Orca는 팀원 개개인의 기술 수준(level)에 관계없이 조직 전체의 팀이 제로 데이 위험에 신속하게 대응하고, 감사(Audit)를 수행하고, 클라우드 자산을 최적화하고, 위협에 대한 노출을 이해하여 데이터 기반 의사 결정을 용이하게 하기를 원했습니다.

Orca는 사용자에게 도메인별 쿼리를 검색하고, 간단한 언어로 복잡한 질문을 하고, 정확한 결과를 즉시 얻을 수 있는 더 스마트하고 직관적인 앱 내 방식이 필요하다는 것을 깨달았습니다. 예를 들어, 고객은 "인터넷에 노출된 서버 시스템 중에 개인의 건강 정보와 같은 민감 정보가 저장된 시스템이 존재하는가?"과 같은 질문을 할 수 있습니다. 이러한 쿼리는 데이터 내의 복잡한 주체, 속성 및 관계를 이해해야 합니다. Orca는 이러한 질문을 해석하고 적절한 필터를 자동으로 생성할 수 있는 검색 엔진이 필요했습니다.

그래서 Orca의 팀은 복잡한 작업을 더 쉽게 할 수 있는 AI로 구동되는 검색 엔진을 구현하고자 했고, Elasticsearch가 완벽하게 적합했습니다. Elasticsearch는 여러 가지 중요한 이점을 가져왔고, Orca Security의 AI 기반 검색 엔진의 전반적인 약속에 기여했습니다. Orca의 팀이 Elasticsearch에서 본 주요 이점은 다음과 같습니다.

고성능 검색 기능

Elasticsearch는 키워드 매칭과 벡터 검색을 결합한 하이브리드 검색 설정을 제공하여 도메인별 용어와 속성이 포함된 복잡한 쿼리에도 정확하고 관련성 있는 결과를 제공합니다. 강력한 필터링 기능은 특히 Orca Schema와 같은 스키마로 작업할 때 필수적입니다. 예를 들어 쿼리의 주제가 VM으로 결정되고 AI가 "PII(개인정보) 있음"과 같은 속성을 검색하는 경우 Elasticsearch는 검색 범위를 지정하고 필터링하여 VM과 관련된 속성만 포함합니다. 이렇게 하면 데이터베이스의 PII와 같은 다른 모델의 관련성 없는 속성이 제외되어 정확성과 유효한 쿼리 생성이 모두 보장됩니다.

유연성 및 사용자 정의

Elasticsearch는 사용자 정의 부스팅과 멀티 매치 필드를 처리할 수 있는 기능을 통해 검색 품질을 향상시킵니다. 예를 들어, 이름과 설명의 가중치를 다르게 부스팅하면 균형 잡힌 검색 결과가 보장됩니다. Orca는 이러한 기능을 활용하여 검색 parameter를 미세 조정하여 사용자에게 맞춤형 경험을 제공했습니다.

비용 및 성능 효율성

Elasticsearch는 특히 대량의 데이터를 처리할 때 비용이 많이 들고 느릴 수 있는 기존의 대규모 언어 모델(LLM)에 대한 부하를 효율적으로 줄여 GenAI 사용 사례에 대한 상당한 비용 절감을 가능하게 합니다. Elasticsearch의 필터링 및 검색 기능은 더 빠르고 비용 효율적인 검색을 제공합니다. 각 쿼리에 대한 관련 예제 선택을 최적화함으로써 (RAG(retrieval augmented generation) 라고 함) Elasticsearch는 LLM 작업 비용을 크게 줄입니다.

일반 데이터로 훈련된 기초 모델 LLM은 종종 Orca의 쿼리 언어(DSL)나 수천 개의 고유한 자산 유형과 속성이 있는 끊임없이 진화하는 사이버 보안 데이터 그래프를 본질적으로 이해하지 못합니다. DSL 규칙만 설명하는 데 약 2,000개의 토큰이 소모되었고, 변환의 예를 제공하면 더 많은 토큰이 추가되었습니다. LLM의 제한된 컨텍스트 창(당시 8,000개의 토큰)을 고려할 때, 토큰을 추가할 때마다 지연 시간과 비용이 증가했습니다. Elasticsearch를 사용하면 수백 개의 예 중에서 가장 관련성 있는 3~6개의 예를 선택하여 필요한 데이터만 LLM에 전송되도록 할 수 있었습니다. 이 접근 방식은 비용을 절감할 뿐만 아니라 정확도를 개선하고 지연 시간을 줄였습니다.

Elastic을 통한 LLM에 대한 부담 줄이기

구체적인 데이터 수치를 공개할 수는 없지만, 핵심 요점은 다음과 같습니다. Elasticsearch 덕분에 LLM에 전송되는 데이터 양을 대폭 줄일 수 있었습니다. 가장 관련성 있는 사례만 사전 필터링하고 큐레이팅함으로써(잠재적으로 수백 개가 아닌 3~6개) LLM의 작업 부하를 최소화했습니다. 이는 더 빠른 응답 시간, 더 낮은 비용, 전반적으로 더 효율적인 검색 환경으로 직접 이어졌습니다.

AI 검색은 플랫폼에서 가장 사랑받는 기능 중 하나이며, 사용자들은 수천 가지의 다양한 사이버보안 개념과 순열로 수십 개의 다른 언어로 쿼리를 수행했습니다. (언어 지원에 대한 자세한 내용은 향후 게시물에서 제공될 예정입니다.)

검색 AI는 더욱 강화된 클라우드 보안 경험을 제공합니다.

Elasticsearch의 힘과 Orca 팀의 AI 혁신에 대한 깊은 열정을 활용하여 사용자 여정을 크게 개선할 수 있었습니다. 새로운 검색 환경은 기술 임계값을 낮추고, 작업을 간소화하고, 수정을 가속화하고, 클라우드 환경에 대한 이해를 개선합니다. 작동 방식은 다음과 같습니다.

Elasticsearch를 활용하여 사용자에게 통찰력을 제공하는데 도움이 되는 검색 AI의 표현 (구성)

1단계: 사용자 쿼리 처리

조사는 사용자가 검색 상자에 쿼리를 입력하는 것으로 시작됩니다. Orca Security는 LLM을 사용하여 사용자의 질문을 중간 형식으로 변환합니다. 이 형식에는 주체(예: 가상 머신)와 필수 속성(예: 개인 건강 정보)이 포함됩니다.

2단계: 데이터 변환 및 RAG

Orca의 맥락에서 RAG는 사용자 쿼리를 중간 형식으로 변환하는 예시를 큐레이팅하는 것을 포함합니다. 사용자가 쿼리를 입력하면 Elasticsearch는 키워드 매칭과 임베딩 검색을 결합하여 가장 관련성 있는 예시를 선택합니다.

예를 들어, 쿼리가 " PII(개인정보)가 있는 자산 "인 경우 Elasticsearch는 다음과 같은 가장 가까운 큐레이팅된 예를 찾습니다.

"유럽이외의 지역에 PII(개인정보)가 있나요?"
"암호화되지 않은 SSH 키가 있는 신용 카드 및 PCI가 있는 VM"
"버려진 자산 및 자원"

각 예제에는 큐레이팅된 예상 JSON 출력 및 추론이 함께 제공됩니다. 이 프로세스는 LLM이 쿼리를 구조화된 형식으로 정확하게 변환할 수 있는 충분한 컨텍스트를 확보하여 전반적인 검색 경험을 개선하고 유효한 쿼리 생성을 보장합니다.

2단계에서 Elasticsearch를 사용하는 RAG는 사용자 쿼리를 Orca의 내부 표현으로 변환하는 데 중요합니다. 작동 방식은 다음과 같습니다.

선별된 예: 자연어 쿼리를 Orca의 구조화된 형식으로 변환하는 방법을 보여주는 수백 개의 예를 만들었습니다.
Elasticsearch의 역할: 새로운 사용자 쿼리마다 Elasticsearch는 큐레이팅된 세트에서 가장 관련성 있는 예를 식별합니다. 이는 키워드 매칭(정확한 용어 찾기)과 임베딩 검색(의미적 유사성 이해)을 결합하여 수행합니다.
예: 사용자가 "보안취약점이 있는 모든 인터넷 연결 서버를 보여주세요"라고 요청하면 Elasticsearch는 "인터넷에 노출된 자산 찾기", "중요한 CVE가 있는 모든 서버 나열" 및 "보안 패치가 없는 리소스를 보여주세요"와 같은 예를 검색할 수 있습니다.
LLM의 작업: 이러한 관련 예제는 사용자의 원래 쿼리와 함께 LLM으로 전송됩니다. 그런 다음 LLM은 이 컨텍스트를 사용하여 사용자의 요청을 Orca의 구조화된 쿼리 언어로 정확하게 변환합니다.

우리는 또한 "벡터 임베딩을 먼저" 데이터베이스를 평가했지만 임베딩에 적절한 키워드 검색을 추가하지 않으면 결과가 부족하다는 것을 발견했습니다.

3단계: 스키마 모델링 및 속성 매칭

Orca Security는 수백 개의 주제와 수천 개의 속성을 포함하여 Elasticsearch 내에서 전체 스키마를 모델링했습니다. Elasticsearch의 정확한 매칭 기능은 사용자 쿼리를 Orca의 데이터베이스에서 사용되는 올바른 용어로 변환하는 데 도움이 됩니다. 예를 들어, 사용자는 "VM"을 참조할 수 있지만 시스템은 "가상 머신" 또는 "가상 인스턴스"와 같은 다양한 관련 용어를 이해해야 합니다.

4단계: 키워드로 관련성 강화

검색 결과의 관련성을 개선하기 위해 LLM은 사용자의 쿼리에서 키워드를 생성합니다. 이러한 키워드는 검색 속성의 관련성을 높여 시스템이 가장 관련성 있는 데이터를 검색하도록 합니다. LLM은 또한 쿼리를 Orca Security의 도메인별 언어로 변환하여 프론트엔드에서 실행할 수 있도록 합니다.

Elasticsearch를 활용한 Orca AI 기반 검색 경험의 한 예로, 사용자가 자연어로 질문할 수 있도록 허용하여 임계값을 크게 낮춥니다.

검색 AI는 정확히 동일한 문구를 사용하지 않더라도 대략적으로 찾고 있는 것을 미리 알아낼 수 있습니다. 여기서 Orca AI 기반 검색 환경은 각 클라우드 공급자의 다른 명명 규칙을 알 필요가 없습니다.

Orca와 AI의 다음 단계는 무엇인가

Orca Security의 비전은 검색 기능을 개선하는 데 그치지 않고, 기술 전문 지식에 관계없이 모든 사람이 고급 데이터 분석을 사용할 수 있도록 하는 것입니다. Orca Security는 Elasticsearch와 AI를 활용하여 사용자가 데이터와 상호 작용하고 해석하는 방식을 혁신하는 것을 목표로 합니다. 이러한 통합을 통해 Orca Security는 서비스 제공을 개선했을 뿐만 아니라 사이버 보안 산업에서 AI 기반 검색에 대한 새로운 표준을 설정했습니다. Orca Security가 AI와 Elasticsearch로 가능한 것의 경계를 계속 넓혀가면서 더 밝은 미래를 향해 가고 있습니다.

Elastic 및 Orca Security에 대해 자세히 알아보세요.

Orca Security를 확인하세요. 자세한 내용은 웹사이트를 참조하세요.
Elastic Search Labs에서 현재 어떤 작업을 진행하고 있는지 알아보세요.
Elastic을 사용한 혁신적인 AI 검색 경험의 더 많은 사례를 확인하세요.

이 게시물에 설명된 기능의 릴리즈 및 시기는 Elastic의 단독 재량에 따릅니다. 현재 이용할 수 없는 기능은 정시에 또는 전혀 제공되지 않을 수도 있습니다.

이 블로그 포스팅에서, Elastic은 각 소유자가 소유하고 운영하는 서드파티 생성형 AI 도구를 사용했거나 참조했을 수 있습니다. Elastic은 서드파티 도구에 대한 어떠한 통제권도 없으며 당사는 그 내용, 작동 또는 사용에 대한 책임이나 법적 의무가 없고 이러한 도구의 사용으로 인해 발생할 수 있는 손실 또는 손상에 대해 책임을 지지 않습니다. 개인 정보, 민감한 정보 또는 기밀 정보와 함께 AI 도구를 사용할 때 주의하세요. 제출하신 모든 데이터는 AI 교육을 위해 또는 다른 목적으로 사용될 수 있습니다. 제공하시는 정보가 안전하게 유지되거나 기밀로 유지된다는 보장은 없습니다. 사용 전에 생성형 AI 도구의 개인 정보 보호 관행 및 사용 약관을 숙지하셔야 합니다.

Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine 및 관련 마크는 미국 및 기타 국가에서 Elasticsearch N.V.의 상표, 로고 또는 등록 상표입니다. 기타 모든 회사 및 제품 이름은 해당 소유자의 상표, 로고 또는 등록 상표입니다.