与上一节中的矢量搜索一样,在本节中,您将学习如何使用互易排名融合算法将全文查询和语义查询的最佳搜索结果结合起来。
次级搜索简介
实施全文和密集矢量混合搜索的解决方案是发送一个搜索请求,其中包括query 和knn 参数,用于请求两种搜索,以及rrf 参数,用于将两种搜索合并为一个结果列表。
在尝试将全文检索请求和稀疏矢量搜索请求结合起来时,会出现一个复杂的问题,那就是两者都使用query 参数。为了能够提供需要与 RRF 算法相结合的两个查询,有必要包含两个query 参数,而实现这一点的解决方案就是使用子查询。
子搜索是一项目前处于技术预览阶段的功能。因此,Python Elasticsearch 客户端不支持该功能。要绕过这一限制,可以更改Search 类的search() 方法,使用body 参数发送搜索请求。下面是一个新的类似实现,它使用客户端的body 参数来发送搜索请求:
由于功能等同,因此无需对应用程序进行任何更改。唯一不同的是,search() 方法在发送请求前会验证所有参数,而body 是唯一的例外。无论客户端如何发送请求,服务器都会对请求进行验证。
在该版本中,sub_searches 参数可在Search.search() 中用于发送多个搜索查询,如下所示:
混合搜索实施
为了完成本节内容,让我们回到全文逻辑,并将其与本章前面介绍的语义搜索查询结合起来。
下面是更新后的handle_search() 端点:
正如您所记得的,extract_filters() 功能会查找用户在搜索提示中输入的类别筛选器,并将剩余部分作为parsed_query 返回。如果parsed_query 为空,则表示用户只输入了一个类别过滤器,在这种情况下,查询应该是一个简单的match_all ,并将所选类别作为过滤器。这在else 部分的大条件中实现。
当有搜索查询时,如上一节所示,sub_searches 选项用于包含multi_match 和text_expansion 查询,而rank 选项则要求将两个子查询的结果合并为一个排序结果列表。为完成查询,提供了size 和from_ 参数,以保持对分页的支持。
单击此处查看此版本的申请表。