Elastic Search：打造语义搜索体验

概述

Elastic Search 简介

熟悉 Elastic Search，大致了解如何使用 Elastic Cloud 采集和查看数据。

在您熟悉 Elastic 并开始使用矢量搜索的过程中，请记住有两种形式的矢量搜索：“密集”（又叫做 kNN 矢量搜索）和“稀疏”，例如 Elastic 的 Learned Sparse Encoder (ELSER)。

Elastic 提供多种搜索技术，从文本搜索的业界标准 BM25 开始。它针对具体搜索提供精准匹配，亦即匹配准确的关键字，而且您还可通过微调对其加以优化。

Elastic 还针对语义搜索推出了开箱即用型的 Learned Sparse Encoder 模型。该模型在处理各种数据集（例如财务数据、天气记录、问题解答，等等）时都表现十分出众。此模型的构建宗旨是跨域提供卓越的相关性，而无需额外的微调。

请查看这一交互式演示，了解为什么说 Elastic 的 Learned Sparse Encoder 模型相较于 Elastic 的文本 BM25 算法具有更高的相关性。

不仅如此，Elastic 还支持密集矢量，让您能够针对文本之外的非结构化数据（例如视频、图像和音频）实施相似度搜索。

语义搜索和矢量搜索的优势是这些技术允许客户在其搜索查询中使用直观的语言。例如，如果您想搜索有关第二收入的工作单位指南，您可以搜索“副业”，尽管您在正式的 HR 文档中不太可能会见到“副业”这个词。

在此指南中，我们将会演示如何创建 Elastic Cloud 账户，如何使用 Elastic 网络爬虫采集数据，以及如何通过简单的数下点击就实施语义搜索。

装载数据

创建 Elastic Cloud 帐户

开始为期 14 天的试用。访问 cloud.elastic.co 并创建帐户后，请跟随下面的步骤学习，了解如何在我们全球 50 多个支持区域中的任何一个启动您的第一个 Elastic Stack。

如果单击“Edit setting”（编辑设置），您可以选择云服务提供商，包括 AWS、Microsoft Azure 或 Google Cloud。选择云服务提供商后，就可以选择相关区域。接下来，您可以在几个不同的硬件配置文件之间进行选择，以便更好地定制部署以满足您的需求。另外，最新版本的 Elastic 已经为您预先选择好了。

在创建部署时，系统将为您提供用户名和密码。请务必复制或下载此信息，因为在安装集成时将需要用到它。

使用 Elastic 网络爬虫采集数据

现在您已经创建了自己的部署，接下来就可以将数据采集到 Elastic 中了。我们可以使用 Elastic 的网络爬虫来进行数据采集。首先，您需要选择磁贴：Build a semantic search experience（打造语义搜索体验）。

接下来，如要设置语义搜索，您将会看到一个页面，在此页面上，您可以使用下面任一项开始：

Elastic Learned Sparse Encoder
矢量搜索
NLP 扩充

所有这些功能及更多内容都属于 Elasticsearch 相关性引擎 (ESRE)。

在本指南中，我们会同时使用下面两种方法来设置语义搜索：Elastic Learned Sparse Encoder 和矢量搜索。

注意：如果您刚开始接触语义搜索并且想搜索文本，则应该首先尝试 Elastic Learned Sparse Encoder 指南。kNN 矢量搜索指南可能更适合符合下列某些条件的用户：

能够访问数据科学技能集
已确定内置的 Elastic Learned Sparse Encoder 语义搜索模型不适用于他们的用例
在对比嵌入模型方面拥有经验，可能的话，最好还能够微调 ML 模型
理解快速的 kNN 搜索可能需要大量的 RAM 资源

如果您已准备好开始，就选择您喜欢的方法来构建 AI 搜索驱动型应用程序吧。

对于这两种方法，您开始时都需要选择 Create an index （创建索引）。从这里，您可以选择 web crawler（网络爬虫）来开始采集数据。

如要设置 web crawler（网络爬虫），请查看这个介绍视频，也可以按照下面的说明操作：

现在创建一个索引。在本指南中，我们会采集整个 elastic.co 上面的博文。

为您的索引命名完毕后，选择 Create index（创建索引）。接下来，您需要 Validate Domain（验证域），然后选择 Add domain（添加域）。

在右下角添加完域之后，您需要选择 Edit（编辑），以便您可以在需要时添加子域。

然后您需要选择 Crawl rules（爬取规则）并添加您的爬取规则，如下面所示。*

*由于有一些网页会链接到您想要爬取的网页上，所以您应该添加更多规则，以禁用这些链接以及任何其他链接。

接下来，当您稍后选择字段时，某些字段会超过 512 个词元的计数，例如 body_content。您应该利用 Extraction rules（提取规则）来仅筛选出博客中相关的部分。

选择 Extraction rules（提取规则）后，点击 Add content extraction rule（添加内容提取规则）。

接下来，在 Rule description（规则描述）中为该规则起一个名字，以便其他人理解这一规则会提取什么内容。在本指南中，我们将其命名为“main”（主要）。

现在，选择 Apply to all URLs（应用至所有 URL），然后选择 Add content fields（添加内容字段），就会出现一个浮出控件。浮出控件出现时，进行填写并选择下列条件。

Document field（文档字段）：
- Field name（字段名称）：main（主要）
Source（来源）：
- Extract content from（提取内容的来源）：HTML element（HTML 元素）
- CSS selector or XPath expression（CSS 选择器或 XPath 表达式）：main（主要）
Content（内容）：
- Use content from（所用内容的来源）：Extracted Value（所提取值）
- Store extracted content as（将提取的内容存储为）：A string（字符串）

填写完这些条件后，点击 Save（保存），然后点击 Save rule（保存规则）。

使用 Elasticsearch 和 ESRE

使用 Elastic Learned Sparse Encoder 采集和搜索您的数据

如果您已经查看了上面针对矢量搜索入门所推荐的条件，并且这是您喜欢的方法，则导航至左侧的 Search your data using kNN vector search（使用 kNN 矢量搜索来搜索您的数据）并遵照说明进行操作。

如果您不喜欢这种方法，更愿意使用 Elastic Learned Sparse Encoder（Elastic 的开箱即用型语义搜索模型），则请查看下面的说明。

如要使用这种方法，您需要选择 Pipelines（管道）和 Unlock your custom pipelines（解锁您的自定义管道），方法是选择顶部的 Copy and customize（复制并自定义）。接下来，在 Machine Learning Inference Pipelines（Machine Learning 推理管道）下，选择 Deploy（部署），从而下载模型并将其安装到您的 Elasticsearch 部署中。

模型部署完毕后，选择 Start single-threaded（开始单线程），然后选择 + Add inference Pipeline（+ 添加推理管道）。接下来您需要按照下面操作：

选择新的或已有的管道
给它起个名字
最后，在 Select a trained ML Model（选择一个受训 ML 模型）下拉列表中，选择 ELSER Text Expansion（ELSER 文本扩展），然后点击 Continue（继续）。

现在，您需要选择您想针对哪些字段应用 ELSER text expansion（ELSER 文本扩展）。选择“title”（标题）和“main”（主要）作为“Source field”（来源字段），然后点击 Add（添加）

然后，单击 Continue（继续）。

跳过 Test your pipeline results（测试您的管道结果）步骤，跳过方法是点击 Continue（继续），然后再点击 Create pipeline（创建管道）。

现在您已经创建了自己的管道，接下来选择右上角的 Crawl（爬取），然后选择 Crawl all domains on this index（爬取该索引上的所有域）。

现在您就可以搜索需要查找的信息了。有两种建议的方法来进行搜索：

使用 Dev Tools（开发工具）
将 Search Application（搜索应用程序）功能用作您的应用程序的一个终端

何时使用每种方法：

如果您是（为您的网络应用程序）实施搜索的开发者，则您应该使用 Dev Tools（开发工具）来测试并优化来自所索引数据的搜索结果。
如果您想创建一个搜索终端，且想通过此终端从自己的应用程序发送搜索请求，并将搜索结果返回到应用程序中，则您应该使用 Search Application（搜索应用程序）功能。

请查看下面的两个简短视频，简单了解一下如何使用 Dev Tools（开发工具）和 Search Application（搜索应用程序）功能。您还可以通过观看这个介绍视频进行学习。

使用 kNN 矢量搜索来采集和搜索您的数据

通过使用 Elastic，您可以在您的整个环境中利用 kNN 矢量搜索。如上所述，kNN 矢量搜索允许您搜索文本之外的数据，例如图像或音频。

使用网络爬虫采集完数据之后，您接下来需要将嵌入模型加载到 Elasticsearch 中，以便为您的数据生成矢量。请观看下面的视频了解如何操作。

模型部署完毕后，选择 Start single-threaded（开始单线程），然后选择 + Add inference Pipeline（+ 添加推理管道）。接下来您需要按照下面操作：

选择新的或已有的管道
给它起个名字
最后，在 Select a trained ML Model（选择一个受训 ML 模型）下拉列表中，选择 Dense Vector Text Embedding（密集矢量文本嵌入），然后点击 Continue（继续）。

现在，您需要选择您想针对哪些字段应用密集矢量扩展。由于您正在使用 web crawler（网络爬虫），所以您默认就会拥有您可以选择的字段。在本指南中，我们选择 title（标题）来开启一个新字段，然后选择 Continue（继续）。

接下来选择 Continue（继续），然后选择 Create pipeline（创建管道）。

现在您需要为 dense_vector 字段更新映射。（注：使用 Elasticsearch 8.8+ 版本的话，这一步骤应该会自动完成。）

在导航菜单中，选择 Dev Tools（开发工具）如果这是您第一次打开 Dev Tools（开发工具），您可能需要点击浮出控件上的 Dismiss（忽略）。
在 Console（控制台）标签页内的 Dev Tools 中，使用下列代码更新我们 kNN 矢量目标字段的映射。您只需将它粘贴到代码框中，然后点击第 1 行右侧的小箭头。

POST search-blogs/_mapping
{
  "properties": {
    "title-vector": {
      "type": "dense_vector",
      "dims": 768,
      "index": true,
      "similarity": "dot_product"
    }
  }
}

务必要将“search-blogs”替换为您为自己的索引所起的名字。此外，“title-vector”是矢量将会存储到的字段的名称。

现在您已经创建了自己的管道，接下来选择右上角的 Crawl（爬取），然后选择 Crawl all domains on this index（爬取该索引上的所有域）。

最后，您就可以执行 kNN 矢量搜索来查找所需的信息了。如要搜索，您应该利用 Dev Tools（开发工具）。请观看下面的视频了解如何操作。

后续步骤

感谢您抽出时间利用 Elastic Cloud 来为您的数据设置语义搜索。当您开始使用 Elastic 时，您需要了解在整个环境中部署时作为用户应管理的一些操作、安全性和数据组件。

The Search AI Company

ELK Stack

Elastic Cloud

生成式 AI

Search

安全性

可观测性

按解决方案

行业

客户聚焦

研究

构建

学习

保持联系

Elastic Search：打造语义搜索体验

概述

Elastic Search 简介

装载数据

创建 Elastic Cloud 帐户

使用 Elastic 网络爬虫采集数据

使用 Elasticsearch 和 ESRE

使用 Elastic Learned Sparse Encoder 采集和搜索您的数据

使用 kNN 矢量搜索来采集和搜索您的数据

后续步骤

其他资源

关注我们

关于我们

加入我们

合作伙伴

信任和安全性

投资者关系

卓越奖

关于我们

加入我们

合作伙伴

信任和安全性

投资者关系

卓越奖