Jina AI

Jina AI は現在Elasticの一部となり、高性能な多言語・マルチモーダル検索AIをElasticsearchの強力なデータストレージ、検索、インデキシング機能に統合しています。Jina AIモデルは公開APIを通じてElasticsearchと統合でき、テスト用の無料トークン1,000万個が含まれています。

jina-embeddings-v4 は、30の主要言語で画像とテキストをサポートする多言語・マルチモーダル埋め込みモデルです。38億個のパラメータを備え、同等のサイズのモデルの中で最先端のパフォーマンスを実現し、テキストから画像への検索だけでなく、テキストからテキストへのタスクにも優れています。特にビジュアルドキュメント検索において強力なパフォーマンスを発揮し、ほとんどのコンピュータービジョンモデルでは対応が不十分なチャート、スライド、マップ、スクリーンショット、スキャン、ダイアグラムなどの一般的な画像タイプを処理します。

このモデルは、最大32,768トークンのテキストと最大20メガピクセルの画像のインプットをサポートしています。このモデルの重要な革新の一つは、2つの出力モードです。

  • 単一ベクトル埋め込み - 共通の意味空間内のテキストと画像のコンパクトなドキュメント埋め込み。ユーザーは、2048から128次元までの埋め込みベクトルサイズを選択できます。精度の損失は最小限です。短い埋め込みはストレージスペースを節約し、インデキシングと検索速度を向上させますが、精度は低下します。そのため、ユーザーは速度、計算リソース、検索精度の間のトレードオフを自分で決定できます。
  • マルチベクトル埋め込み – マルチベクトル埋め込みはインプットと同サイズ(テキストトークンあたり128次元、画像のサイズに比例)であり、「後期相互作用」類似度の測定に役立ちます。これらの埋め込みはより大きく、比較は単一ベクトル埋め込みよりも計算コストがかかりますが、より高精度のマッチングが得られます。

Jina AIはこのモデルを複数のタスクに最適化しており、コンパクトで選択可能なLoRA拡張モジュールが3つの異なる用途をサポートしています。

  • 非対称検索 — 埋め込みベースの検索は、ドキュメントとクエリテキストが異なる方法でエンコードされると、より良いパフォーマンスを発揮します。Jina Embeddings v4は、インデックス作成用のドキュメントとクエリ用にそれぞれ別個に訓練された2つのLoRA拡張を通じてこれをサポートしています。
  • 意味的類似性 — 2つのテキストの意味またはトピックがどれだけ密接に一致しているかを測定します。関連文書の発見、重複排除、翻訳の整列は、意味的な類似性の一般的な用途です。
  • コード固有のタスク – コンピューターテクノロジーとプログラミング言語の類似性に関する特別な動作とトレーニング。

jina-embeddings-v3 は、最大8192トークンのテキストインプットをサポートし、64から1024次元までのユーザー選択の可変長埋め込みを生成する、多言語、多目的のテキストのみの埋め込みモデルです。このコンパクトなモデルは、2024年に発売されたにもかかわらず、6億個未満のパラメーターを備え、そのサイズに見合った強力なパフォーマンスを発揮します。

Jina AIは5つのLoRA拡張モジュールを訓練し、4つのタスクをサポートしています。1つは意味的類似性、2つは上記jina-embeddings-v4と同様の非対称検索、さらに以下の2つの追加タスクです。

  • 分類 — テキストをカテゴリーに分類します。感情分析、スパムフィルタリング、コンテンツモデレーション、不正識別などに利用できます。
  • クラスタリング — テキストの分布によって、テキストが属するカテゴリを決定します。推薦システムやニュース要約など、さまざまな用途でよく使われます。

jina-code-embeddings (0.5b & 1.5b) は、プログラミング言語とフレームワーク向けの専門的な埋め込みモデルのペアです。1つは5億パラメーター、もう1つは15億パラメーターを持ちます。両モデルは、自然言語テキストと15種類のプログラミングスキームに対して、最大32,768トークンのインプットで埋め込みを生成します。ユーザーは、小さいモデルの場合は64〜896次元、大きいモデルの場合は128〜1536次元まで、独自の出力埋め込みサイズを選択できます。

タスク固有の5つの検索モードがあり、各タスクに最適化されたクエリとドキュメントの埋め込みを生成します。

  • コードからコードへ – プログラミング言語間で類似のコードを取得します。これは、コードの調整、コードの重複排除、移植とリファクタリングのサポートに使用されます。
  • 自然言語からコードへ – 自然言語クエリ、コメント、説明、ドキュメントに一致するコードを取得します。
  • コードから自然言語へ – コードをドキュメントまたはその他の自然言語テキストと一致させます。
  • コード間の補完 – 既存のコードの完成や強化を目的とした関連コードを提案するために使用されます。
  • 技術的なQ&A – 情報技術に関する質問に対する自然言語の回答を特定します。テクニカルサポートタスクに最適です。

jina-clip-v2 は、テキストと画像の両方をサポートするマルチモーダル埋め込みモデルです。テキストが画像のコンテンツを説明するときに、テキストと画像が同様の埋め込みを生成するようにトレーニングされています。これにより、マルチモーダルマッチングが可能となり、テキスト埋め込みをすでにサポートしている任意のデータベースが、このモデルをすぐに使用して、テキストクエリからの画像検索に対応できます。

このモデルは、高性能なテキスト埋め込みモデルとしても機能するように訓練されており、幅広い多言語サポートと8,192トークンのインプットコンテキストを備えています。これにより、ユーザーのコストが削減され、テキストからテキストへの検索とテキストから画像への検索のモデルを分ける必要がなくなります。

画像入力は512x512ピクセルに再スケーリングされます。

jina-reranker-m0 は、より精密な「後期相互作用」分析を使用して検索精度を向上させる多言語・マルチモーダルのテキストペア文書リランキングツールです。リランキング機能は、テキストクエリと2つの候補(テキスト、画像、またはそれぞれ1つ)を受け取り、どちらがクエリに最も一致するかを判断します。このモデルは、スライド、スクリーンショット、図表など、さまざまな印刷物やコンピューター生成のグラフィック素材をサポートするようにトレーニングされています。これは、困難な検索環境において精度を高める強力な手段を提供します。画像は各辺が少なくとも56ピクセルである必要があり、非常に大きな画像は28x28ピクセルのパッチが768個以下になるまでサイズが変更されます。クエリテキストおよび候補文書は合計10,240トークンを超えてはなりません。

jina-reranker-v3 は、後期相互作用アプローチを同様に使用するリスト単位の多言語テキストドキュメントリランカーであり、jina-reranker-m0のように、クエリとの一致度に基づいて文書のリスト全体をリランキングします。AIモデルによるリストワイズリランキングは、AI ベースのものだけでなく、限定された候補一致リストを生成するあらゆる検索スキームと互換性があり、既存の検索スキームを補足することで、全体的に精度が向上します。これにより、ハイブリッドおよび従来の検索システムのドロップイン拡張機能として最適です。

このリランキング機能はテキストにのみ適用され、クエリとリランキングの候補となるすべてのドキュメントを含む合計131,000トークンの入力を受け入れます。

ReaderLM-v2 は、WebページのDOMツリーダンプを含むHTMLを、ユーザーの提供した出力スキーマと自然言語命令に従ってMarkdownまたはJSONに変換する小さな生成言語モデルです。このツールは、ウェブスクレイピングデータの混乱した構造を賢明に処理するAIをデータの前処理にもたらします。このコンパクトなモデルは、本来の用途の狭いデータ変換タスクにおいてGPT-4よりも優れています。

使い始める

モデルへのアクセス方法、Web APIの使用方法、または自分でダウンロードして使用する方法については、Jina AIのWebサイトをチェックしてください。

チュートリアルとノートブック

これらのチュートリアルは古いJina AIモデルを参照しており、新しいチュートリアルが近日公開される予定です。

最先端の検索体験を構築する準備はできましたか?

十分に高度な検索は 1 人の努力だけでは実現できません。Elasticsearch は、データ サイエンティスト、ML オペレーター、エンジニアなど、あなたと同じように検索に情熱を傾ける多くの人々によって支えられています。ぜひつながり、協力して、希望する結果が得られる魔法の検索エクスペリエンスを構築しましょう。

はじめましょう