Lucene Wrapped 2024

2024 fue otro año importante para Apache Lucene. En este blog, exploraremos los puntos clave más destacados.

¿Quieres obtener la certificación de Elastic? ¡Descubre cuándo se realizará la próxima capacitación Elasticsearch Engineer! Puedes iniciar una prueba gratuita en el cloud o prueba Elastic en tu máquina local ahora mismo.

Apache Lucene tuvo una actividad significativa en 2024, con numerosos lanzamientos, incluida la primera gran actualización en tres años, repleta de mejoras emocionantes y nuevas funciones. Vamos a explorar algunos de los puntos clave.

Lucene y la comunidad

Un proyecto solo es tan fuerte como la comunidad que lo apoya. A pesar de más de 20 años de desarrollo, el proyecto Lucene sigue siendo vibrante y prospera gracias a sus colaboradores apasionados y activos.

En 2024, el proyecto Lucene recibió más de 2.000 commits de 98 colaboradores únicos y casi 800 pull requests. El número de colaboradores sigue creciendo, con nuevos comprometedores y afiliados a PMC que se unen al proyecto y contribuyen a su éxito.

Lucene 10

En 2024 se produjo el primer gran lanzamiento en casi 3 años: Lucene 10, con más de 2.000 commits de 185 colaboradores únicos. Aunque el modelo de desarrollo que sigue Lucene permite ofrecer muchas mejoras y características en lanzamientos menores, un lanzamiento importante ofrece la oportunidad de aportar funciones y modernizaciones más grandes. Por ejemplo, Lucene 10 requiere un mínimo de Java 21. Aumentar la versión mínima de Java garantiza que Lucene pueda seguir aprovechando las mejoras que ofrece Java moderno.

El objetivo principal de Lucene 10 es aprovechar mejor el hardware sobre el que se ejecuta. Echemos un vistazo rápido a algunos de los principales puntos destacados:

  • Más paralelismo en la búsqueda : aunque la ejecución de búsqueda ya está paralelizada entre segmentos, ahora vamos más allá, paralelizando dentro de los segmentos. Esto desacopla la representación en disco del rendimiento de ejecución, permitiendo que incluso segmentos individuales se beneficien del número de núcleos en sistemas modernos.
  • Mejor paralelismo de E/S : el modelo sincrónico de E/S sencillo que emplea Lucene fue mejorado con una etapa de prelectura. Esto informa al sistema operativo de que se necesitará una región de un archivo índice en un futuro muy próximo, sin bloquear el hilo que llama.
  • Mejor eficiencia de CPU y almacenamiento con indexación dispersa - Lucene 10 introduce soporte para indexación dispersa, a veces llamada indexación de clave primaria o indexación por zonas en otros almacenes de datos.

Para más información sobre Lucene 10, consulta el artículo dedicado a Lucene 10.

Investigación e innovación de Lucene

En 2024, Lucene experimentó un auge de investigación e innovación, especialmente en las áreas de integración de aprendizaje automático, búsqueda vectorial y optimización para conjuntos de datos a gran escala, con 10 artículos y publicaciones de investigación de referencia separados. Algunas de las áreas y desarrollos clave de investigación incluyen:

  • Soporte para búsqueda vectorial e incrustación - Lucene ofrece una solución poderosa y escalable para la búsqueda basada en vectores, permitiendo la recuperación semántica a gran escala. Aprovechando la robusta infraestructura de indexación y búsqueda de Lucene, los usuarios pueden combinar lo mejor de la búsqueda tradicional de texto con las avanzadas capacidades de la búsqueda vectorial moderna, convirtiendo Lucene en una solución integral para una amplia gama de tareas de búsqueda y recuperación de información.
  • Modelos de búsqueda híbrida - La investigación también profundizó en técnicas de búsqueda híbrida, donde Lucene combina la búsqueda tradicional basada en palabras clave con la recuperación moderna basada en vectores. Al combinar índices basados en términos con representaciones vectoriales densas, Lucene puede ofrecer resultados de búsqueda más precisos y contextualmente relevantes, cerrando la brecha entre la precisión de los motores de búsqueda tradicionales y la flexibilidad de la búsqueda semántica.

Los esfuerzos de investigación en curso en 2024 demuestran la adaptabilidad de Lucene a las necesidades cambiantes de las tecnologías de búsqueda modernas, especialmente en el contexto de la IA, la búsqueda semántica y las aplicaciones de big data. El proyecto sigue creciendo como una plataforma poderosa, flexible y eficiente tanto para casos de búsqueda tradicionales como de vanguardia.

Lanzamientos de Lucene en 2024

Aunque no es un reflejo exacto, el gran volumen de lanzamientos pone de manifiesto la dedicación y energía continua de la comunidad. Estas actualizaciones incluyen mejoras importantes en el rendimiento y eficiencia de la búsqueda vectorial, soporte para madvise, optimizaciones para la decodificación de listas de anuncios, mejoras de velocidad adicionales mediante SIMD y mucho más.

Aquí tienes la lista completa de lanzamientos:

Puedes encontrar más información y notas de lanzamiento en la página de Lucene Core . Además, existen ediciones equivalentes de PyLucene .

Concluyendo

A medida que Lucene madura, sigue prosperando gracias a su comunidad dedicada y vibrante. Como vimos, 2024 fue un año increíblemente productivo, y ahora miramos hacia adelante los emocionantes desarrollos que traerá 2025.

Contenido relacionado

¿Estás listo para crear experiencias de búsqueda de última generación?

No se logra una búsqueda suficientemente avanzada con los esfuerzos de uno. Elasticsearch está impulsado por científicos de datos, operaciones de ML, ingenieros y muchos más que son tan apasionados por la búsqueda como tú. Conectemos y trabajemos juntos para crear la experiencia mágica de búsqueda que te dará los resultados que deseas.

Pruébalo tú mismo