루씬 래핑 2024

2024년은 아파치 루씬에게 또 다른 중요한 해입니다. 이 블로그에서는 주요 내용을 살펴봅니다.

Elastic 자격증을 취득하고 싶으신가요? 다음 Elasticsearch Engineer 교육이 언제 진행되는지 알아보세요! 지금 무료 클라우드 체험을 시작하거나, 내 로컬 기기에서 Elastic을 사용해 볼 수 있습니다.

2024년에는 3년 만의 대규모 업데이트를 비롯해 흥미로운 개선 사항과 새로운 기능으로 가득 찬 수많은 릴리스가 출시되는 등 Apache Lucene이 상당한 활동을 보였습니다. 주요 특징 몇 가지를 살펴보겠습니다.

Lucene & 커뮤니티

프로젝트는 그것을 지원하는 커뮤니티만큼만 강력합니다. 20년이 넘는 개발 기간에도 불구하고 Lucene 프로젝트는 열정적이고 적극적인 기여자 덕분에 여전히 활기차고 번창하고 있습니다.

2024년에 Lucene 프로젝트는 98명의 고유 기여자로부터 2,000개 이상의 커밋과 800개에 가까운 풀 리퀘스트를 받았습니다. 새로운 커미터와 PMC 멤버가 프로젝트에 합류하여 성공을 이끄는 등 기여자의 수가 계속 증가하고 있습니다.

루씬 10

2024년에는 거의 3년 만에 처음으로 185명의 고유 기여자로부터 2,000개 이상의 커밋을 받은 Lucene 10이 출시되었습니다. 루씬이 따르는 개발 모델에서는 마이너 릴리스에서 많은 개선 사항과 기능을 제공할 수 있지만, 메이저 릴리스에서는 더 큰 기능과 현대화를 제공할 수 있는 기회를 제공합니다. 예를 들어, Lucene 10에는 최소 Java 21이 필요합니다. 최소 Java 버전을 상향 조정하면 Lucene이 최신 Java가 제공하는 개선 사항을 계속 활용할 수 있습니다.

Lucene 10의 주요 초점은 실행되는 하드웨어를 더 잘 활용하는 것입니다. 주요 특징 몇 가지를 간단히 살펴보겠습니다:

  • 검색 병렬성 향상 - 검색 실행은 이미 세그먼트 전체에서 병렬화되어 있지만, 이제 더 나아가 세그먼트 내에서 병렬화합니다. 이렇게 하면 온디스크 표현과 실행 성능이 분리되어 단일 세그먼트도 최신 시스템에서 코어 수의 이점을 누릴 수 있습니다.
  • 향상된 I/O 병렬 처리 - Lucene이 사용하는 간단한 동기식 I/O 모델이 프리페치 단계로 개선되었습니다. 이렇게 하면 호출 스레드를 차단하지 않으면서도 가까운 시일 내에 인덱스 파일의 영역이 필요하다는 것을 OS에 알립니다.
  • 희소 인덱싱으로 CPU 및 스토리지 효율성 향상 - Lucene 10은 다른 데이터 저장소에서 기본 키 인덱싱 또는 영역 인덱싱이라고도 하는 희소 인덱싱을 지원합니다.

루씬 10에 대한 자세한 내용은 루씬 10에 대한 전용 문서를 참조하세요.

루씬 연구 및 혁신

2024년에 루씬은 특히 머신 러닝 통합, 벡터 검색, 대규모 데이터 세트 최적화 분야에서 연구와 혁신이 급증했으며, 10개의 개별 연구 논문과 출판물을 참조할 수 있습니다. 주요 연구 분야 및 개발 사항에는 다음이 포함됩니다:

  • 벡터 검색 및 임베딩 지원 - Lucene은 벡터 기반 검색을 위한 강력하고 확장 가능한 솔루션을 제공하여 대규모의 의미론적 검색을 가능하게 합니다. 사용자는 Lucene의 강력한 색인 및 검색 인프라를 활용하여 기존 텍스트 검색의 장점과 최신 벡터 검색의 고급 기능을 결합함으로써 광범위한 검색 및 정보 검색 작업을 위한 포괄적인 솔루션으로 활용할 수 있습니다.
  • 하이브리드 검색 모델 - 루씬은 기존의 키워드 기반 검색과 최신 벡터 기반 검색을 결합하는 하이브리드 검색 기법도 연구했습니다. 용어 기반 인덱스와 고밀도 벡터 표현을 병합함으로써 Lucene은 보다 정확하고 맥락에 맞는 검색 결과를 제공하여 기존 검색 엔진의 정확성과 시맨틱 검색의 유연성 사이의 간극을 메울 수 있습니다.

2024년에 진행 중인 연구 노력은 특히 AI, 시맨틱 검색 및 빅 데이터 애플리케이션의 맥락에서 최신 검색 기술의 진화하는 요구 사항에 대한 Lucene의 적응력을 입증합니다. 이 프로젝트는 기존 검색 사용 사례와 최첨단 검색 사용 사례 모두를 위한 강력하고 유연하며 효율적인 플랫폼으로 계속 성장하고 있습니다.

2024년 Lucene 릴리즈

정확한 반영은 아니지만, 엄청난 양의 릴리스가 커뮤니티의 지속적인 헌신과 에너지를 강조합니다. 이번 업데이트에는 벡터 검색 성능 및 효율성의 대폭적인 개선, 매드바이즈 지원, 포스팅 목록 디코딩 최적화, SIMD를 통한 속도 향상 등이 포함됩니다.

전체 릴리스 목록은 다음과 같습니다:

자세한 정보 및 릴리스 노트는 Lucene Core 페이지에서 확인할 수 있습니다. 또한 이에 상응하는 PyLucene 릴리스도 있습니다.

마무리

Lucene이 성숙해짐에 따라 헌신적이고 활기찬 커뮤니티 덕분에 계속 발전하고 있습니다. 지금까지 살펴본 바와 같이 2024년은 놀랍도록 생산적인 한 해였으며, 이제 2025년에 가져올 흥미로운 발전을 기대해봅니다.

관련 콘텐츠

최첨단 검색 환경을 구축할 준비가 되셨나요?

충분히 고급화된 검색은 한 사람의 노력만으로는 달성할 수 없습니다. Elasticsearch는 여러분과 마찬가지로 검색에 대한 열정을 가진 데이터 과학자, ML 운영팀, 엔지니어 등 많은 사람들이 지원합니다. 서로 연결하고 협력하여 원하는 결과를 얻을 수 있는 마법 같은 검색 환경을 구축해 보세요.

직접 사용해 보세요