加速生成式 AI 体验
专为速度和规模而构建的搜索驱动型 AI 和开发人员工具
大型语言模型 (LLM) 和生成式 AI 方面的日常突破让开发人员站在了这一运动的最前沿,影响着它的方向和可能性。在这篇博客中,我将分享 Elastic 的搜索客户如何使用 Elastic 的向量数据库以及搜索驱动型 AI 和开发人员工具开放平台来加速和扩展生成式 AI 体验,从而为他们提供新的增长途径。
Dimensional Research 最近进行了一项由 Elastic 支持的开发人员调查,结果显示,87% 的开发人员已经拥有生成式 AI 的用例 — 无论是数据分析、客户支持、工作场所搜索还是聊天机器人。但只有 11% 的人将这些用例成功地应用到了生产环境中。
阻碍他们的几个因素包括:
模型部署和管理:选择正确的模型需要试验和快速迭代。对于许多组织来说,为生成式 AI 应用程序部署 LLM 既耗时又复杂,而且学习和上手的难度大。
法律和合规性问题:这些问题在处理敏感数据时尤为重要,可能成为采用模型的障碍。
- 扩展:特定于领域的数据对于 LLM 理解上下文和生成准确的输出至关重要。随着数据规模的扩大,要检索这些数据,需要为生成向量嵌入的工作负载提供同样可扩展的支持,这会导致对内存和计算资源的需求快速增加。由于庞大的数据集,上下文窗口很大,要将它们传递给 LLM,需要高昂的成本,而且更多的上下文并不一定意味着更高的相关性。只有强大的工具平台才能塑造上下文,并在相关性与规模之间保持平衡,从而实现一个可行的、经得起未来考验的创新架构。
开发人员想寻求一种可靠、可扩展且经济高效的方式来构建生成式 AI 应用程序,并寻求一个可简化实施和 LLM 选择过程的平台。
Elastic 一如既往地在以快速的创新步伐针对开发人员关注的这些问题提供解决方案,以支持生成式 AI 用例。
快速、大规模地推出生成式 AI 体验
Elasticsearch 是市场上下载量最大的向量数据库,Elastic 与 Lucene 社区的深度合作使我们能够更快地为客户设计和交付搜索创新。Elasticsearch 现在由 Lucene 9.10 提供支持,帮助客户通过生成式 AI 实现速度和规模。借助 9.10,除了其他速度提升外,用户还能够在多分段索引时实现显著的查询延迟改善。这仅仅是开始,未来还会有更快的速度。
我们使用 Elastic 作为向量数据库,因为它具有固有的灵活性、可扩展性和可靠性。Elastic 通过快速交付支持 Machine Learning 和生成式 AI 的新功能,不断提升自己。
Peter O'Connor,Stack Overflow 平台工程部工程经理
为了快速实施和扩展 RAG 工作负载,我们推出了 Elastic Learned Sparse EncodeR (ELSER)(已正式发布),这是一个易于部署、经过优化和后期交互的 Machine Learning (ML) 模型,适用于语义搜索。ELSER 无需微调即可提供上下文相关的搜索结果,并为开发人员提供内置的可信解决方案,从而免去了模型选择、部署和管理所需的时间和复杂性。
ELSER 可提高搜索相关性,同时不会降低搜索速度 — Consensus 在使用 ELSER 升级由 Elastic 提供支持的学术研究平台时,将搜索延迟降低了 75%,同时提高了准确性。
将 ELSER 与 E5 嵌入模型搭配使用,可以轻松应用多语言向量搜索。我们专门为 Elasticsearch 量身打造了优化的 E5 工件。多语言搜索还可通过上传多语言模型或者与 Elastic 的推理 API(例如,Cohere 的多语言模型嵌入)集成来实现。这些功能进一步加速了检索增强生成 (RAG),使 Elastic 成为扩展您所构建的创新生成式 AI 体验的关键基础架构。
Elastic 还致力于高效扩展这些体验。8.12 版本中随附的标量量化改变了向量存储的游戏规则。大规模的向量扩展会导致搜索速度变慢。但这种压缩技术能够将内存需求大幅缩减四倍,并帮助打包更多向量,并且在更高的尺度上,对召回的影响可以忽略不计。它将 RAG 中使用的向量搜索速度提高了一倍,同时不会牺牲精确度。结果如何?一个更精简、更快速的系统,可大规模削减基础架构成本。
当您将 Elastic 的准确性和速度与 Google Cloud 的强大功能相结合时,便可构建一个非常稳定且极具成本效益的搜索平台,同时为用户提供愉快的搜索体验。
Sujith Joseph,Cisco Systems 首席企业搜索和云架构师
适用于 RAG 的相关度最高的搜索引擎
相关性是获得最佳生成式 AI 体验的关键。使用 ELSER 进行语义搜索和 BM25 进行文本搜索,是作为 LLM 上下文检索相关文档的第一步。大型上下文窗口可以使用重新排序工具进一步细化,这些工具目前已成为 Elastic Stack 的一部分。重新排序器应用功能强大的 ML 模型对搜索结果进行微调,根据用户偏好和信号将最相关的结果置于顶部。Learning to Rank (LTR) 现在也是 Elasticsearch 平台的原生功能。这对于依赖于将最相关的结果作为上下文提供给 LLM 的 RAG 用例来说非常强大。
可以通过推理 API 和第三方提供商(如 Cohere)进一步简化实施。升级到我们的最新版本,以测试重新排序器对相关性的影响。
这些方法不仅能提高搜索准确性(以 Consensus 为例,提高了 30%),还能帮助您快速获得结果,从而完善 RAG 相关性和高效管理 ML 工作流。
让模型选择和交换变得简单
模型选择就如同大海捞针。事实上,我们的开发人员调查显示,各组织的前五项生成式 AI 工作之一就是与 LLM 集成。这种两难选择不仅仅局限于为某个用例选择开放源还是闭源 LLM,还涉及准确性、数据安全性、领域特定性以及快速适应不断变化的 LLM 生态系统。开发人员需要一个简单明了的工作流程来尝试新模型,并将它们换入和换出。
Elastic 通过其开放平台、向量数据库和搜索引擎支持转换器和基础模型。Elastic Learned Sparse EncodeR (ELSER) 是加速 RAG 实施的可靠起点。
此外,Elastic 的推理 API 可为开发人员简化代码和多云推理管理。无论您是使用 ELSER 还是来自 OpenAI(开发人员评估和使用最多的模型)、Hugging Face、Cohere 或其他来源的嵌入来处理 RAG 工作负载,都只需一个 API 调用即可确保管理混合推理部署的代码简洁干净。利用推理 API,可以轻松访问各种模型,从而找到合适的模型。与特定于领域的自然语言处理 (NLP) 和生成式 AI 模型的轻松集成简化了模型管理,使您可以腾出时间专注于 AI 创新。
强强联手:完美的集成体验
开发人员还可以托管各种不同的转换器模型,包括公有和私有 Hugging Face 模型。Elasticsearch 可作为整个生态系统的通用向量数据库,而偏爱 LangChain 和 LlamaIndex 等工具的开发人员则可以使用我们的集成,以使用 LangChain 模板快速启动生产就绪的生成式 AI 应用。Elastic 的开放平台使您可以快速调整、试验和加速生成式 AI 项目。Elastic 最近还作为第三方向量数据库加入了 On Your Data,这是一项用于构建会话式助手的新服务。另一个很好的示例是 Elastic 与 Cohere 团队在幕后的合作,使 Elastic 成为 Cohere 嵌入的绝佳向量数据库。
生成式 AI 正在重塑每一个组织,而 Elastic 将为这一转型提供支持。对于开发人员而言,成功实现生成式 AI 的关键是持续学习(您见过 Elastic Search Labs 吗?)并迅速适应不断变化的 AI 环境。
立即试用!
- 请在 Elastic Search 发行说明中了解这些功能以及更多信息。
- Elastic Cloud 的现有客户能够直接从 Elastic Cloud 控制台访问其中的许多功能。尚未使用 Elastic Cloud?开始免费试用。
- 试用我们用于构建 AI 搜索应用的开发人员工具套件 Elasticsearch Relevance Engine。
本博文所描述的任何特性或功能的发布及上市时间均由 Elastic 自行决定。当前尚未发布的任何特性或功能可能无法按时提供或根本不会提供。
在本博文中,我们可能使用或提到了第三方生成式 AI 工具,这些工具由其各自所有者拥有和运营。Elastic 对第三方工具没有任何控制权,对其内容、操作或使用不承担任何责任或义务,对您使用此类工具可能造成的任何损失或损害也不承担任何责任或义务。在 AI 工具中使用个人、敏感或机密信息时,请务必谨慎。您提交的任何数据都可能用于 AI 训练或其他目的。Elastic 不保证您所提供信息的安全性或保密性。在使用任何生成式 AI 工具之前,您都应自行熟悉其隐私惯例和使用条款。
Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相关标志为 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其相应所有者的商标、徽标或注册商标。