Jina AI

Jina AI 现已成为 Elastic 的一部分,将其高性能的多语言和多模态搜索 AI 与 Elasticsearch 强大的数据存储、检索和索引能力相结合。Jina AI 模型可通过公共 API 与 Elasticsearch 集成,该服务提供 1000 万免费测试令牌。

jina-embeddings-v4 是一款支持 30 种主流语言图像与文本的多模态嵌入模型。凭借 38 亿参数,在同等规模的模型中实现了最先进的性能,不仅在文本到图像检索中表现出色,在文本对文本的任务中也表现出色。它在可视文档检索方面表现尤为出色,能高效处理图表、幻灯片、地图、截图、扫描件及示意图等常见图像类型,而这些正是多数计算机视觉模型的薄弱环节。

该模型支持输入长达 32,768 个令牌的文本以及最高 2000 万像素的图像。该模型的核心创新之一是其双输出模式:

  • 单向量嵌入——在统一语义空间中为文本和图像提供紧凑的文档嵌入。用户可以选择从 2048 到 128 维度的嵌入向量大小,精度损失最小。较短的嵌入可以节省存储空间,并提高索引和检索速度,但会降低精度,用户可自主权衡速度、计算资源与检索准确性之间的平衡。
  • 多向量嵌入——多向量嵌入的大小与输入相同(每个文本令牌 128 维,图像则与大小成比例),在“后期交互”相似度度量中非常有用。与单向量嵌入相比,这些嵌入更大,比较计算成本也更高,但能实现更高精度的匹配。

Jina AI 已针对多项任务优化了该模型,其紧凑且可选的 LoRa 扩展模块支持三种不同的用途:

  • 非对称检索——当文档和查询文本以不同方式编码时,基于嵌入的检索效果会更好。Jina Embeddings v4 通过两个单独的 LoRA 扩展来支持这一点:一个用于要索引的文档,另一个用于查询。
  • 语义相似度——量化两个文本在含义或主题上的关联程度。相关文档发现、去重及翻译对齐是语义相似度的典型应用场景。
  • 特定代码任务——针对计算机技术与编程语言相似度的特殊行为与训练。

jina-embeddings-v3 是一个多语言、多用途的纯文本嵌入模型,支持最多 8192 个令牌的文本输入,并可生成用户自定义的 64 至 1024 维可变长度嵌入。这款紧凑模型参数量不足 6 亿,虽发布于 2024 年,但在同大小模型中表现出卓越性能。

Jina AI 已经训练了五个 LoRA 扩展模块来支持四个任务:一个用于语义相似度,两个用于非对称检索,类似于上述 jina-embeddings-v4,以及两个新增模块:

  • 分类——将文本归类。你可以用它进行情感分析、垃圾邮件过滤、内容审核和欺诈识别等。
  • 集群——通过文本分布特征自动划分类别。它通常用于推荐系统、新闻聚合和类似任务场景。

jina-code-embeddings (0.5b & 1.5b) 是一对专门针对编程语言和框架的嵌入模型——一个具有 5 亿参数,另一个具有 15 亿参数。两款模型均支持最长 32,768 令牌的输入,可为自然语言文本及 15 种编程范式生成嵌入。用户可自定义输出嵌入维度:较小模型支持 64 至 896 维,较大模型支持 128 至 1536 维。

它们配备五种面向特定任务的检索模式,能为每项任务生成优化的查询与文档嵌入:

  • 代码到代码——跨编程语言检索相似代码。该功能适用于代码对齐、代码去重,以及移植与重构支持。
  • 自然语言到代码—检索与自然语言查询、注释、描述和文档相匹配的代码。
  • 代码到自然语言-将代码与文档或其他自然语言文本进行匹配。
  • 代码到代码补全——用于推荐关联代码以补全或增强现有代码。
  • 技术问答 — 确定有关信息技术问题的自然语言答案,特别适用于技术支持类任务。

jina-clip-v2是一款支持文本与图像的多模态嵌入模型。其训练机制使得当文本描述图像内容时,文本与图像会生成相似嵌入向量。这实现了多模态匹配能力,任何已支持文本嵌入的数据库均可直接使用该模型实现基于文本查询的图像检索功能。

该模型同时被训练为高性能文本嵌入模型,具备广泛的多语言支持能力和 8192 令牌的文本输入上下文。这有效降低了用户成本,无需再为文本到文本检索与文本到图像检索分别部署独立模型。

图像输入被重新缩放为 512x512 像素。

jina-reranker-m0 是一款多语言和多模态文本配对文档重排序器,它使用更精细的“后期交互”分析来提高检索精度。重排序器会接收一个文本查询和两个候选项,候选项可以是文本、图像,也可以是文本和图像中的一个,然后重排序器会告诉哪个候选项更符合查询。该模型已经过训练,能够支持各种打印和计算机生成的图形材料,如幻灯片、截图和图表。在复杂搜索场景下,该模型为提升检索精度提供了强大支持。图像每边至少要有 56 像素,非常大的图像将被调整大小,直到产生不超过 768 个 28x28 像素的补丁为止。查询文本和候选文档总共不得超过 10,240 个令牌。

jina-reranker-v3 是一个列表式多语言文本文档重排器,它使用与后期交互相同的方法,如 jina-reranker-m0,但会根据文档与查询的匹配程度对整个文档列表进行重新排序。基于 AI 模型的列表重排技术可兼容任何能生成有限候选匹配列表的搜索方案(不仅限于 AI 驱动方案),作为现有搜索系统的补充组件,该技术能全面提升检索准确率。因此,它是混合搜索系统和传统搜索系统的理想增强工具。

该重排序器仅适用于文本处理,支持包含查询与所有待重排序候选文档在内的总计 131,000 令牌输入。

ReaderLM-v2 是一个小型生成式语言模型,它根据用户提供的输出模式和自然语言指令,将 HTML(包括网页的 DOM 树转储)转换为 Markdown 或 JSON。该工具将 AI 应用于数据预处理,智能处理网络抓取数据的混乱结构。这款紧凑型模型在其专为之设计的狭窄数据转换任务上表现优于 GPT-4。

开始使用

请访问Jina AI网站 ,获取模型和网络 API 使用说明,或下载并自行使用。

教程和笔记本

这些教程涉及 Jina AI 早期模型,新版教程即将发布。

准备好打造最先进的搜索体验了吗?

足够先进的搜索不是一个人的努力就能实现的。Elasticsearch 由数据科学家、ML 操作员、工程师以及更多和您一样对搜索充满热情的人提供支持。让我们联系起来,共同打造神奇的搜索体验,让您获得想要的结果。

亲自试用