Lucene 包裹 2024

2024 年是 Apache Lucene 的又一个重要年份。在本博客中,我们将探讨其中的主要亮点。

您想要获得 Elastic 认证吗?了解下一次 Elasticsearch 工程师培训何时开始!您可以开始免费云服务试用,或立即在您的本地计算机上试用 Elastic。

2024 年,Apache Lucene 活动频繁,发布了许多版本,包括三年来的首次重大更新,其中包含了令人兴奋的改进和新功能。让我们来探讨其中的一些主要亮点。

Lucene& 社区

只有得到社区的支持,项目才会强大。尽管经过 20 多年的发展,Lucene 项目仍然充满活力,并在热情和积极的贡献者的帮助下蓬勃发展。

2024 年,Lucene 项目已收到来自 98 位贡献者的 2000 多条提交和近 800 条拉取请求。贡献者的数量持续增长,新的提交者和项目管理委员会成员不断加入,帮助推动项目取得成功。

Lucene 10

2024 年,Lucene 10 发布了近 3 年来的首个重要版本,共有 185 位贡献者提交了 2000 多条信息。Lucene 遵循的开发模式允许在次要版本中提供许多改进和功能,而主要版本则提供了带来更多功能和现代化的机会。例如,Lucene 10 至少需要 Java 21。提高最低 Java 版本可确保 Lucene 能够继续利用现代 Java 所提供的改进。

Lucene 10 的主要重点是更好地利用运行它的硬件。让我们快速浏览一下其中的主要亮点:

  • 更多搜索并行化--虽然搜索执行已经实现了跨网段并行化,但我们现在更进一步,实现了网段内的并行化。这就将磁盘上的表示与执行性能分离开来,即使是单个片段也能从现代系统的内核数量中获益。
  • 更好的 I/O 并行性--Lucene 使用的直接同步 I/O 模型通过预取阶段得到了增强。这将通知操作系统在不久的将来需要索引文件的一个区域,同时不会阻塞调用线程。
  • 利用稀疏索引提高 CPU 和存储效率--Lucene 10 引入了对稀疏索引的支持,在其他数据存储中,稀疏索引有时被称为主键索引或区域索引。

有关 Lucene 10 的更多信息,请查看 Lucene 10专文

Lucene 研究与创新

2024 年,Lucene 的研究和创新突飞猛进,尤其是在机器学习集成、矢量搜索和大规模数据集优化等领域,共 发表 了 10 篇独立的 研究论文和出版物 。一些重要的研究领域和发展包括

  • 矢量搜索和嵌入支持- Lucene 为基于矢量的搜索提供了功能强大且可扩展的解决方案,可实现大规模语义检索。通过利用 Lucene 强大的索引和搜索基础架构,用户可以将传统文本搜索的优点与现代矢量搜索的高级功能相结合,使 Lucene 成为适用于各种搜索和信息检索任务的全面解决方案。
  • 混合搜索模型- 研究还深入到混合搜索技术,Lucene 将传统的基于关键字的搜索与现代的基于向量的检索相结合。通过将基于术语的索引与密集的矢量表示合并,Lucene 可以提供更准确、与上下文更相关的搜索结果,缩小了传统搜索引擎的精确性与语义搜索的灵活性之间的差距。

2024 年正在进行的研究工作表明,Lucene 能够适应现代搜索技术不断发展的需求,特别是在人工智能、语义搜索和大数据应用方面。该项目作为一个功能强大、灵活高效的平台,在传统和前沿搜索应用案例中不断发展壮大。

2024 年发布 Lucene

尽管这并不能完全反映情况,但发行量之大彰显了社区的持续奉献精神和活力。这些更新包括对向量搜索性能和效率的重大增强、对 madvise 的支持、对张贴列表解码的优化、通过 SIMD 进一步提高速度等等。

以下是完整的发布清单:

您可以在Lucene Core页面找到更多信息和发布说明。此外,还有相应的PyLucene版本。

总结

随着 Lucene 日渐成熟,它也因其敬业而充满活力的社区而继续蓬勃发展。正如我们所看到的,2024 年是极其富有成效的一年,现在我们展望 2025 年将带来的激动人心的发展。

相关内容

准备好打造最先进的搜索体验了吗?

足够先进的搜索不是一个人的努力就能实现的。Elasticsearch 由数据科学家、ML 操作员、工程师以及更多和您一样对搜索充满热情的人提供支持。让我们联系起来,共同打造神奇的搜索体验,让您获得想要的结果。

亲自试用