공공 부문에서의 데이터 메시 이해: 핵심 요소, 아키텍처 및 사례

국방 정보, 공중 보건 기록, 도시 계획 모델 등 프로젝트의 배경에 있는 모든 데이터를 생각해 보세요. 정부 기관은 항상 방대한 양의 데이터를 생성하고 있습니다. 데이터가 클라우드 플랫폼과 온프레미스 시스템 또는 위성 및 긴급 대응 센터와 같은 특수 환경에 분산되어 있을 때 상황은 더욱 복잡해집니다. 정보를 찾는 것은 어렵고 이를 효율적으로 사용하는 것은 더 어렵게 됩니다. 다양한 팀이 여러 앱과 데이터 형식으로 작업하면 상호 운용성의 부족이 또한 발생하게 됩니다.
최신 Elastic 연구에 따르면 데이터 기반 조직을 구축하기 위한 최선의 노력에도 불구하고 공공 부문 리더의 65%가 여전히 데이터를 실시간 및 대규모로 지속적으로 사용하는 데 어려움을 겪고 있는 것이 현실입니다.
“업무 처리에 더 많은 시간이 소요되고 있는데 대부분의 업무가 긴급 상황에서 이루어지기 때문에 이는 좋지 않습니다. 최대한 빨리 정보를 확보할 수 있어야 해요.”라고 한 공공 부문 리더가 Elastic에 설명합니다.
데이터의 양은 계속 증가하고 있으며 이에 대한 접근은 병목 현상을 겪고 있습니다. 그렇다면 공공 부문 기관은 중앙 집중화된 사일로의 복잡성을 어떻게 해결할 수 있을까요? 데이터 메시가 그 해답이 될 수 있는 데이터 구성의 대안을 제시합니다.
데이터 메시란?
간단히 말해 데이터 메시는 사일로를 해결해 줍니다. 사용자가 적절한 권한을 가지고 있는 경우 네트워크 전반에서 수집된 데이터를 생태계의 어느 지점에서나 검색하고 분석할 수 있습니다. 이는 데이터 작업을 단순화하고 표준화하는 통합적이면서도 동시에 분산된 계층을 제공합니다.

데이터 메시의 4가지 핵심 요소
데이터 메시는 다음과 같은 네 가지 주요 원칙에 기반을 두고 있습니다.
도메인 소유권: 기관 및 부서가 자체 데이터를 관리하는 방법
제품으로서의 데이터: 도메인 소유자가 데이터 세트의 품질이 높고 쉽게 접근할 수 있도록 보장
셀프서비스 플랫폼: 내부 및 외부 팀이 IT 장애 없이 고품질 데이터를 찾고 사용할 수 있도록 지원
연합 거버넌스: 시스템 전반에서 모든 것이 원활하고 안전하게 작동하도록 보장
각 핵심 요소를 더 자세히 살펴보겠습니다.
도메인 소유권
모든 데이터를 중앙 IT 팀에 의존하여 관리하는 대신 데이터 소유권은 정부 기관과 부서에 분산됩니다. 즉, 기관 자체의 구성 방식을 반영하는 기술 팀을 구축하는 것입니다. 해당 데이터를 가장 잘 이해하는 담당자가 직접 관리할 수 있어야 합니다. 이는 공중 보건, 국방, 도시 계획 등 거의 모든 공공 부문 사용 사례에 적용될 수 있습니다.
예를 들어 미국 사이버 보안 및 인프라 보안국(CISA)은 수백 곳의 연방 기관 보안 데이터에 대한 가시성을 확보하는 동시에 각 기관이 자체 데이터를 통제할 수 있도록 데이터 메시 접근법을 사용합니다.
Elastic을 통합 데이터 계층으로 활용하여 CISA Zero Trust를 가속화하는 방법에 대해 더 알아보세요.
이는 다른 세 요소가 뒷받침하는 두 번째이자 사실상 가장 중요한 핵심 요소로 이어집니다.
제품으로서의 데이터
각 데이터 세트를 명확한 문서와 품질 표준을 갖춘 제품으로 취급합니다. 해당 데이터를 소유한 부서는 타 부서의 사용 편의를 위해 데이터를 체계적으로 정리하고 접근성을 보장해야 합니다. 즉, 해당 데이터를 사용 가능한 제품으로 공유할 책임과 의무가 있습니다.
정부의 관점에서 이와 같은 방식은 인구조사 정보, 긴급 대응 데이터 또는 정보 보고서 등에 적용될 수 있습니다. 이 모든 것은 프로젝트 또는 정부 기관의 구조에 달려 있습니다. 중요한 점은 이렇게 선별된 데이터를 다른 팀이 찾을 때 즉시 사용할 수 있고 정제하거나 검증하는 데 시간을 들이지 않아도 된다는 점입니다.
그렇다면 이는 분석 데이터를 사일로화하는 또 다른 방식이 아닐까 하는 의문이 들 수 있습니다. 다른 부서가 어떻게 접근할 수 있는지, 구체적인 방법은 무엇인지와 같은 의문이 다음 핵심 요소로 이어집니다.
셀프서비스 플랫폼
각 부서는 많은 업무를 수행해야 합니다. 이를 위해서는 다른 사용자들이 데이터에 접근할 수 있는 편리한 플랫폼이 필요합니다. 데이터 검색을 손쉽게 할 수 있는 검색 가능한 카탈로그, 실시간 분석을 위한 쿼리 도구, 사용자가 직접 데이터를 정제하고 통합할 수 있는 기능, 대시보드와 API를 통해 인사이트를 공유할 수 있는 기능 등은 모두 활용할 수 있는 도구입니다.
액세스 제어를 시행하기 위해 기본 제공 거버넌스가 필요하며 이는 마지막 핵심 요소로 연결됩니다.
연합 컴퓨팅 거버넌스
각 부서가 자체 데이터를 통제한다는 점은 이미 확인했습니다. 그러나 데이터 메시는 여전히 보안을 유지하고 위험을 방지하기 위한 포괄적인 거버넌스 프로토콜이 필요합니다.
이러한 보안 통제는 각 부서별로 따로 적용하는 것이 아니라 데이터를 조회하는 시스템에 내장되어 있어야 합니다. 시스템은 검색의 일환으로 사용자 권한을 확인하고 처음부터 사용자가 접근 권한이 있는 데이터만 볼 수 있도록 해야 합니다.
공공 부문에서는 이런 보안 체계가 의료 데이터의 개인정보 보호 규정 준수부터 국방 시스템의 기밀 정보까지 폭넓게 적용될 수 있습니다.

데이터 메시 아키텍처
데이터 메시 아키텍처는 분산 데이터를 관리하기 위해 데이터 메시의 핵심 요소를 하나의 프로세스로 통합하는 프레임워크입니다.
데이터 메시 아키텍처를 구현하면 협업 과정에서의 마찰을 줄일 수 있습니다. 보다 사용자 중심의 접근 방식 덕분에 도메인 특화 데이터를 모델 훈련과 분석에 활용하는 팀에게 혁신적인 변화를 가져옵니다.
데이터 메시를 활용하면 여러 플랫폼과 다양한 구현 팀이 존재하더라도 대규모 데이터 처리와 거버넌스를 보다 효율적으로 수행할 수 있습니다. 확장 가능한 셀프서비스 통합 가시성을 갖춘다면 데이터 메시 아키텍처는 더 많은 자율성과 데이터의 민주화를 제공합니다. 데이터 통합 가시성은 팀이 모든 데이터를 하나의 화면에서 관리할 수 있게 해줍니다.
효과적인 데이터 통합 가시성은 데이터 메시의 아키텍처에 내장되어 있습니다. 이를 통해 팀은 수집한 모든 데이터에서 활용 가능한 인사이트에 접근할 수 있습니다. 즉 데이터 통합 가시성은 데이터의 품질과 무결성을 모니터링하는 것이며 데이터 메시 아키텍처는 이러한 데이터를 분산 관리하는 것으로 이해할 수 있습니다. 그리고 이를 관리하려면 데이터를 세부적으로 파악할 수 있어야 합니다.
데이터 메시와 다른 접근 방식 비교
데이터 메시는 다른 형태의 분석 데이터 아키텍처 및 저장 방식과 어떻게 비교될까요? 자주 비교되는 두 가지 개념인 데이터 패브릭과 데이터 레이크를 살펴보겠습니다.
데이터 메시와 데이터 패브릭 비교
데이터 메시와 데이터 패브릭은 모두 분산 접근 방식으로 원격 사이트에서 데이터를 수집한다는 점에서 유사한 접근 방식입니다. 그러나 데이터 패브릭은 한 사이트에서 수집된 데이터를 다른 사이트로 복사하는 방식을 취합니다. 이 데이터는 개별 레코드 형태로 공유되며 이를 해석하고 처리할 수 있는 시스템이 없으면 다른 레코드와 연계할 수 없습니다. 이러한 방식은 종종 데이터 사일로를 초래할 수 있습니다.
반면에 데이터 메시 접근 방식은 데이터를 복사하는 것에 의존하지 않고 대신 데이터를 분산 플랫폼에 수집할 때 로컬에서 인덱싱합니다. 사용자는 로컬 및 원격 사이트에서 데이터를 검색할 수 있습니다. 이 모델에서는 데이터가 검색 플랫폼 계층에서 통합됩니다. 데이터는 한 번 인덱싱되면 이 통합 계층을 통해 권한이 있는 모든 사용자나 사용 사례에 언제든 접근할 수 있습니다.
데이터 메시와 데이터 레이크 비교
데이터에는 데이터 스트림, 데이터 파이프라인 등 물과 관련된 은유가 많다는 것을 눈치채셨을 겁니다. 데이터는 물처럼 수집, 저장, 필터링 및 분배될 수 있으며 이는 때로는 효율적으로, 때로는 혼란스럽게 이루어질 수 있습니다.
호수가 여러 수원에서 물을 모으는 것처럼 데이터 레이크는 데이터를 수집하여 나중에 사용할 수 있도록 저장합니다. 즉 정형, 반정형 및 비정형 데이터를 조합하여 저장하는 환경입니다.
데이터 레이크는 때때로 데이터 메시 도메인 소유자가 데이터 제품을 처리하고 큐레이팅하는 데 도움이 될 수 있습니다. 데이터 레이크는 아직 구체적인 용도가 없는 대규모 데이터 세트(예: 위성 이미지 또는 공공 기록)를 장기 저장하는 데 사용할 수 있습니다. 하지만 데이터 레이크가 체계적으로 관리되지 않아 탐색이 어려워지면 데이터의 가치를 추출하기 힘든 복잡하고 혼란스러운 데이터 늪으로 전락할 수 있습니다.
데이터 메시와 AI
데이터 메시는 공공 부문 기관에 AI와 머신러닝의 민주화를 제공할 수 있는 방법입니다. 전통적으로 데이터 과학 팀은 여러 출처에서 데이터를 수집하여 머신러닝 모델을 개발하는 중앙 집중식 허브로 운영되어 왔습니다. 하지만 앞서 언급했듯이 이 과정은 중복 작업과 불일치를 유발하여 모델 재현성에 문제를 일으킬 수 있습니다.
데이터 메시로 모델을 전환하고 도메인 팀 내에 내재함으로써 출처에서 데이터를 정제하고 다른 부서가 활용할 수 있는 AI 기반 데이터 제품을 만들 수 있습니다.
국가 재난 대응을 예로 들어보겠습니다. 긴급 대응 팀에 내재된 AI 모델은 종종 실시간 위성 이미지와 센서 데이터, 심지어 소셜 미디어 보고서와 같은 데이터를 분석하여 가장 큰 피해 지역을 파악하는 경우가 많습니다. 데이터 메시를 사용하면 정부 기관부터 응급 구조대까지 다양한 기관이 중앙 처리 대기 없이 즉시 이 정보에 접속할 수 있어 결과적으로 대응 시간을 개선할 수 있습니다.
데이터 메시는 또한 AI 거버넌스를 개선합니다. 초기에 이를 통합하여 모델 검증, 편향 탐지, 설명 가능성 및 모델 드리프트 모니터링과 같은 작업을 표준화하기 때문입니다.
공공 부문에서 데이터 메시를 구현하는 방법
각 공공 부문 조직은 고유한 데이터 요구 사항을 가지고 있습니다. 이는 내부 및 외부 사용자에게는 천편일률적인 데이터 사일로가 느리고 답답하게 느껴질 수밖에 없는 이유입니다. 세 명 중 두 명의 공공 부문 리더는 제공되는 데이터 인사이트에 만족하지 않는다고 말합니다.
데이터 메시는 국방부터 국가 보안 또는 연방, 주, 지방 정부에 이르기까지 각 공공 부문 기관의 고유한 요구 사항에 맞게 맞춤화될수 있습니다.
데이터 메시를 시작하려면 공공 부문 기관은 다음과 같은 몇 가지 단계를 따라야 합니다.
특정 부서에 데이터 책임을 할당합니다.
데이터 세트를 내부 및 외부 사용을 위해 설계된 명확히 문서화되고 접근 가능한 자산으로 취급합니다. 또한 규제 요건을 준수하도록 보장해야 합니다.
기관, 분석가 및 정책 입안자가 중앙 집중식 IT 팀에 의존하지 않고도 쉽게 데이터에 접근하고 분석할 수 있는 도구를 구현합니다.
FedRAMP, CMMC 및 Zero Trust와 같은 프레임워크를 염두에 두고 기관 간 거버넌스를 시행합니다.
끝으로, 보안 통제를 유지하면서 더 나은 의사 결정을 내리고 공공 서비스를 개선하기 위해 조직 간 데이터 공유를 장려합니다.
정부 및 국방 적용 분야
데이터 메시는 방대한 분산 데이터 세트에 실시간으로 안전하게 접근하고 분석해야 하는 정부 및 국방 분야에 적합합니다.
국방 분야에서는 신속한 정보 수집과 자산 관리를 지원하여 현장 운영자가 최신 데이터를 기반으로 대응할 수 있습니다. 공공 보건 분야에서는 병원이나 연구소의 역학 데이터를 신속하게 통합하여 감염병 발생에 신속하게 대응할 수 있도록 돕습니다. 교통 부서는 도시 전역의 교통 및 기상 데이터를 분석할 수 있습니다. 교육 부서는 지난 10년간의 학생 시험 성적을 확인하고 원격 학습과 대면 학습 시간 등 다양한 데이터와 교차 분석할 수 있습니다.
미국 해군의 사례를 살펴보면 디지털 현대화 추진의 핵심은 '어디서든, 어떤 정보든 안전하게 이동할 수 있는 능력'을 확보해 정보 우위를 달성하는 데 있습니다. 하지만 기존의 중앙 집중형 데이터 저장 방식은 특히 에어갭 환경이나 DDIL(접근 거부, 열화, 간헐, 제한) 환경에서는 위험 부담이 큽니다. 이러한 상황에서 글로벌 데이터 메시 아키텍처를 도입하면 데이터를 원본 위치에 그대로 두면서도 해군의 광범위한 작전 환경 전반에서 검색 및 접근이 가능해집니다. 이와 같은 분산형 접근 방식은 서버나 데이터센터에 장애가 발생해도 운영의 연속성을 보장하며, 데이터를 이동하거나 복제하지 않고도 미션 크리티컬 데이터를 통합적으로 파악할 수 있게 해줍니다.
Elastic을 활용한 데이터 메시의 실제 적용
Search AI 기업인 Elastic의 데이터 분석 플랫폼은 강력한 글로벌 데이터 메시 역할을 합니다. 플랫폼은 머신러닝, 자연어 처리, 시맨틱 검색, 경고 및 시각화를 통합 시스템 내에서 제공합니다. 즉, Elastic은 기관이 데이터를 수집, 구성, 접근 및 분석할 수 있는 기능 뿐만 아니라 데이터에 대한 완전한 가시성을 제공함으로써 통합 기능을 제공합니다.
Elastic을 다른 제품과 차별화하는 세 가지 주요 기능은 다음과 같습니다.
하나 이상의 원격 클러스터에 대해 단일 검색 요청을 실행할 수 있게 해주는 클러스터 간 검색(CCS)
자주 사용되지 않는 기록 데이터에 접근하고 쿼리할 수 있는 비용 효율적인 방법을 제공하는 검색 가능한 스냅샷
통합 보안을 제공하는 역할 기반 액세스 제어
Elastic의 데이터 메시 접근 방식은 또한 Zero Trust와 같은 최신 보안 프레임워크의 기반으로 작용할 수 있으며 데이터 중심 운영의 새로운 가능성을 열어줍니다.
Elastic이 정부, 의료 및 교육 분야 팀의 데이터 가치를 속도, 확장성 및 관련성 측면에서 극대화하는 방법을 알아보세요.
이 게시물에서 설명된 모든 기능이나 성능의 출시와 일정은 Elastic의 단독 재량에 따라 결정됩니다. 현재 제공되지 않는 기능이나 성능은 예정된 시간에 출시되지 않을 수도 있으며 아예 제공되지 않을 수도 있습니다.
해당 블로그 게시물에서는 타사 생성형 AI 도구를 사용하거나 참조했을 수 있으며 이는 해당 소유자가 소유 및 운영하는 도구입니다. Elastic은 제3자 도구에 대한 어떠한 통제권이 없으며 해당 도구의 콘텐츠, 운영 또는 사용 그리고 이러한 도구 사용으로 인해 발생할 수 있는 손실이나 손해에 대해 어떠한 책임도 지지 않습니다. 개인 정보, 민감한 정보 또는 기밀 정보를 AI 도구와 함께 사용할 때는 주의하시기 바랍니다. 제출된 모든 데이터는 AI 학습이나 기타 목적으로 사용될 수 있습니다. 제공한 정보가 안전하게 보호되거나 비밀로 유지된다는 보장은 없습니다. 생성형 AI 도구를 사용하기 전에 해당 도구의 개인정보 보호 관행과 이용 약관을 숙지하시기 바랍니다.
Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine 및 관련 마크는 미국 및 기타 국가에서 Elasticsearch N.V.의 상표, 로고 또는 등록 상표입니다. 그 외의 모든 회사 및 제품 이름은 해당 소유자의 상표, 로고 또는 등록 상표입니다.