Lucene Wrapped 2024

2024 foi mais um ano importante para o Apache Lucene. Neste blog, vamos explorar os principais destaques.

Você deseja obter a certificação da Elastic? Descubra quando será realizado o próximo treinamento do Elasticsearch Engineer! Você pode iniciar um teste gratuito na nuvem ou experimentar o Elastic na sua máquina local agora.

O Apache Lucene teve um ano de 2024 bastante movimentado, com vários lançamentos, incluindo a primeira grande atualização em três anos, repleta de melhorias interessantes e novos recursos. Vamos explorar alguns dos principais destaques.

Lucene e a comunidade

Um projeto só é tão forte quanto a comunidade que o apoia. Apesar de mais de 20 anos de desenvolvimento, o projeto Lucene permanece vibrante e próspero graças aos seus colaboradores apaixonados e ativos.

Em 2024, o projeto Lucene registrou mais de 2.000 commits de 98 colaboradores únicos e quase 800 pull requests. O número de colaboradores continua a crescer, com novos committers e membros do PMC juntando-se ao projeto e ajudando a impulsionar seu sucesso.

Lucene 10

Em 2024, houve o primeiro grande lançamento em quase 3 anos - o Lucene 10, com mais de 2.000 commits de 185 colaboradores únicos. Embora o modelo de desenvolvimento seguido pelo Lucene permita a implementação de muitas melhorias e recursos em versões secundárias, uma versão principal oferece a oportunidade de trazer recursos e modernizações mais abrangentes. Por exemplo, o Lucene 10 requer no mínimo o Java 21. Aumentar a versão mínima do Java garante que o Lucene possa continuar a aproveitar as melhorias que o Java moderno oferece.

O principal objetivo do Lucene 10 é aproveitar melhor o hardware em que é executado. Vamos dar uma olhada rápida em alguns dos principais destaques:

  • Mais paralelismo na busca - embora a execução da busca já seja paralelizada entre os segmentos, agora vamos além, paralelizando dentro dos próprios segmentos. Isso desacopla a representação em disco do desempenho de execução, permitindo que até mesmo segmentos individuais se beneficiem do número de núcleos em sistemas modernos.
  • Melhor paralelismo de E/S - o modelo de E/S síncrono direto usado pelo Lucene foi aprimorado com um estágio de pré-busca. Isso informa ao sistema operacional que uma região de um arquivo de índice será necessária em um futuro muito próximo, sem bloquear a thread de chamada.
  • Melhoria na eficiência de CPU e armazenamento com indexação esparsa - O Lucene 10 introduz suporte para indexação esparsa, também chamada de indexação por chave primária ou indexação por zona em outros sistemas de armazenamento de dados.

Para obter mais informações sobre o Lucene 10, consulte o artigo dedicado ao Lucene 10.

Pesquisa e inovação em Lucene

Em 2024, o Lucene testemunhou um aumento significativo em pesquisa e inovação, particularmente nas áreas de integração de aprendizado de máquina, busca vetorial e otimização para conjuntos de dados em larga escala, com referência em 10 artigos e publicações de pesquisa distintos. Algumas das principais áreas de pesquisa e desenvolvimentos incluem:

  • Suporte para Busca Vetorial e Incorporação - O Lucene oferece uma solução poderosa e escalável para busca baseada em vetores, permitindo a recuperação semântica em grande escala. Ao aproveitar a robusta infraestrutura de indexação e busca do Lucene, os usuários podem combinar o melhor da busca textual tradicional com os recursos avançados da busca vetorial moderna, tornando o Lucene uma solução abrangente para uma ampla gama de tarefas de busca e recuperação de informações.
  • Modelos de Busca Híbrida - A pesquisa também explorou técnicas de busca híbrida, onde o Lucene combina a busca tradicional baseada em palavras-chave com a recuperação moderna baseada em vetores. Ao combinar índices baseados em termos com representações vetoriais densas, o Lucene consegue fornecer resultados de pesquisa mais precisos e contextualmente relevantes, preenchendo a lacuna entre a precisão dos mecanismos de busca tradicionais e a flexibilidade da busca semântica.

Os esforços de pesquisa em andamento em 2024 demonstram a adaptabilidade do Lucene às necessidades em constante evolução das tecnologias de busca modernas, particularmente no contexto de IA, busca semântica e aplicações de big data. O projeto continua a crescer como uma plataforma poderosa, flexível e eficiente para casos de uso de busca tanto tradicionais quanto de ponta.

Lançamentos do Lucene em 2024

Embora não seja um reflexo exato, o grande volume de lançamentos destaca a dedicação e a energia contínuas da comunidade. Essas atualizações incluem melhorias significativas no desempenho e na eficiência da busca vetorial, suporte para madvise, otimizações para decodificação de listas de postagens, melhorias adicionais de velocidade por meio de SIMD e muito mais.

Segue a lista completa de lançamentos:

Você pode encontrar mais informações e notas de lançamento na página do Lucene Core . Além disso, existem versões equivalentes do PyLucene .

Concluindo

À medida que Lucene amadurece, continua a prosperar graças à sua comunidade dedicada e vibrante. Como vimos, 2024 foi um ano incrivelmente produtivo e agora aguardamos com expectativa os desenvolvimentos empolgantes que 2025 trará.

Conteúdo relacionado

Pronto para criar buscas de última geração?

Uma pesquisa suficientemente avançada não se consegue apenas com o esforço de uma só pessoa. O Elasticsearch é impulsionado por cientistas de dados, especialistas em operações de aprendizado de máquina, engenheiros e muitos outros que são tão apaixonados por buscas quanto você. Vamos nos conectar e trabalhar juntos para construir a experiência de busca mágica que lhe trará os resultados desejados.

Experimente você mesmo(a)