Você deseja obter a certificação da Elastic? Descubra quando será realizado o próximo treinamento do Elasticsearch Engineer! Você pode iniciar um teste gratuito na nuvem ou experimentar o Elastic na sua máquina local agora.
O Apache Lucene teve um ano de 2024 bastante movimentado, com vários lançamentos, incluindo a primeira grande atualização em três anos, repleta de melhorias interessantes e novos recursos. Vamos explorar alguns dos principais destaques.
Lucene e a comunidade
Um projeto só é tão forte quanto a comunidade que o apoia. Apesar de mais de 20 anos de desenvolvimento, o projeto Lucene permanece vibrante e próspero graças aos seus colaboradores apaixonados e ativos.
Em 2024, o projeto Lucene registrou mais de 2.000 commits de 98 colaboradores únicos e quase 800 pull requests. O número de colaboradores continua a crescer, com novos committers e membros do PMC juntando-se ao projeto e ajudando a impulsionar seu sucesso.
Lucene 10
Em 2024, houve o primeiro grande lançamento em quase 3 anos - o Lucene 10, com mais de 2.000 commits de 185 colaboradores únicos. Embora o modelo de desenvolvimento seguido pelo Lucene permita a implementação de muitas melhorias e recursos em versões secundárias, uma versão principal oferece a oportunidade de trazer recursos e modernizações mais abrangentes. Por exemplo, o Lucene 10 requer no mínimo o Java 21. Aumentar a versão mínima do Java garante que o Lucene possa continuar a aproveitar as melhorias que o Java moderno oferece.
O principal objetivo do Lucene 10 é aproveitar melhor o hardware em que é executado. Vamos dar uma olhada rápida em alguns dos principais destaques:
- Mais paralelismo na busca - embora a execução da busca já seja paralelizada entre os segmentos, agora vamos além, paralelizando dentro dos próprios segmentos. Isso desacopla a representação em disco do desempenho de execução, permitindo que até mesmo segmentos individuais se beneficiem do número de núcleos em sistemas modernos.
- Melhor paralelismo de E/S - o modelo de E/S síncrono direto usado pelo Lucene foi aprimorado com um estágio de pré-busca. Isso informa ao sistema operacional que uma região de um arquivo de índice será necessária em um futuro muito próximo, sem bloquear a thread de chamada.
- Melhoria na eficiência de CPU e armazenamento com indexação esparsa - O Lucene 10 introduz suporte para indexação esparsa, também chamada de indexação por chave primária ou indexação por zona em outros sistemas de armazenamento de dados.
Para obter mais informações sobre o Lucene 10, consulte o artigo dedicado ao Lucene 10.
Pesquisa e inovação em Lucene
Em 2024, o Lucene testemunhou um aumento significativo em pesquisa e inovação, particularmente nas áreas de integração de aprendizado de máquina, busca vetorial e otimização para conjuntos de dados em larga escala, com referência em 10 artigos e publicações de pesquisa distintos. Algumas das principais áreas de pesquisa e desenvolvimentos incluem:
- Suporte para Busca Vetorial e Incorporação - O Lucene oferece uma solução poderosa e escalável para busca baseada em vetores, permitindo a recuperação semântica em grande escala. Ao aproveitar a robusta infraestrutura de indexação e busca do Lucene, os usuários podem combinar o melhor da busca textual tradicional com os recursos avançados da busca vetorial moderna, tornando o Lucene uma solução abrangente para uma ampla gama de tarefas de busca e recuperação de informações.
- Modelos de Busca Híbrida - A pesquisa também explorou técnicas de busca híbrida, onde o Lucene combina a busca tradicional baseada em palavras-chave com a recuperação moderna baseada em vetores. Ao combinar índices baseados em termos com representações vetoriais densas, o Lucene consegue fornecer resultados de pesquisa mais precisos e contextualmente relevantes, preenchendo a lacuna entre a precisão dos mecanismos de busca tradicionais e a flexibilidade da busca semântica.
Os esforços de pesquisa em andamento em 2024 demonstram a adaptabilidade do Lucene às necessidades em constante evolução das tecnologias de busca modernas, particularmente no contexto de IA, busca semântica e aplicações de big data. O projeto continua a crescer como uma plataforma poderosa, flexível e eficiente para casos de uso de busca tanto tradicionais quanto de ponta.
Lançamentos do Lucene em 2024
Embora não seja um reflexo exato, o grande volume de lançamentos destaca a dedicação e a energia contínuas da comunidade. Essas atualizações incluem melhorias significativas no desempenho e na eficiência da busca vetorial, suporte para madvise, otimizações para decodificação de listas de postagens, melhorias adicionais de velocidade por meio de SIMD e muito mais.
Segue a lista completa de lançamentos:
- 10.1.0 (2024-12-20)
- 9.12.1 (2024-12-13)
- 10.0.0 (2024-10-14)
- 9.12.0 (28/09/2024)
- 8.11.4 (2024-09-24)
- 9.11.1 (2024-06-27)
- 9.11.0 (2024-06-06)
- 9.10.0 (2024-02-20)
- 8.11.3 (2024-02-08)
- 9.9.2 (2024-01-29)
Você pode encontrar mais informações e notas de lançamento na página do Lucene Core . Além disso, existem versões equivalentes do PyLucene .
Concluindo
À medida que Lucene amadurece, continua a prosperar graças à sua comunidade dedicada e vibrante. Como vimos, 2024 foi um ano incrivelmente produtivo e agora aguardamos com expectativa os desenvolvimentos empolgantes que 2025 trará.




