Jina AI

Jina AI 는 이제 Elastic의 일부가 되어, Elasticsearch의 강력한 데이터 저장 공간, 검색 및 색인 기능에 고성능 다국어 및 멀티모달 검색 AI를 제공합니다. Jina AI 모델은 공개 API를 통해 Elasticsearch와 통합될 수 있으며, 테스트를 위한 1000만 개의 무료 토큰이 포함됩니다.

jina-embeddings-v4 30개 주요 언어의 이미지와 텍스트를 지원하는 다국어 및 멀티모달 임베딩 모델입니다. 38억 개의 매개변수를 사용하여 비슷한 크기의 모델 중에서 최첨단 성능을 달성하며 텍스트-이미지 검색뿐만 아니라 텍스트-텍스트 작업에서도 탁월한 성능을 발휘합니다. 특히 차트, 슬라이드, 지도, 스크린샷, 스캔, 다이어그램과 같은 일반적인 이미지 유형을 처리하는 시각적 문서 검색에서 강력한 성능을 발휘하며, 대부분의 컴퓨터 비전 모델이 부족한 부분을 보완합니다.

이 모델은 최대 32,768개의 텍스트 및 이미지 토큰을 최대 20메가픽셀까지 입력할 수 있습니다. 이 모델의 주요 혁신 중 하나는 두 가지 출력 모드입니다.

  • 단일 벡터 임베딩 - 공통 시맨틱 공간에 텍스트와 이미지를 위한 컴팩트한 문서 임베딩입니다. 사용자는 정밀도 손실을 최소화하면서 2048~128차원 범위의 임베딩 벡터 크기를 선택할 수 있습니다. 임베딩이 짧을수록 저장 공간이 절약되고 색인 및 검색 속도가 빨라지지만 정확도가 떨어지므로 사용자가 직접 속도, 컴퓨팅 리소스, 검색 정확도 간의 균형을 결정할 수 있습니다.
  • 다중 벡터 임베딩 - 다중 벡터 임베딩은 입력과 동일한 크기(텍스트 토큰당 128차원, 이미지의 경우 크기에 비례)로 '후기 상호작용' 유사성 측정에 유용합니다. 이러한 임베딩은 단일 벡터 임베딩보다 크기가 더 크고 비교 시 계산 비용이 더 많이 들지만, 더 높은 정밀도의 매칭을 제공합니다.

Jina AI는 세 가지 용도를 지원하는 컴팩트하고 선택 가능한 LoRA 확장 모듈을 통해 이 모델을 여러 작업에 맞게 최적화했습니다:

  • 비대칭 검색 - 임베딩 기반 검색은 문서와 쿼리 텍스트가 서로 다르게 인코딩될 때 더 나은 성능을 발휘하며, Jina Embeddings v4는 함께 작동하도록 훈련된 두 개의 개별 LoRA 확장(하나는 색인할 문서용, 다른 하나는 쿼리용)을 통해 이를 지원합니다.
  • 시맨틱 유사성 — 두 텍스트가 의미나 주제에서 얼마나 밀접하게 일치하는지 측정하는 것입니다. 관련 문서 검색, 중복 제거 및 번역 정렬은 시맨틱 유사성의 일반적인 응용 분야입니다.
  • 코드 특정 작업 – 컴퓨터 기술 및 프로그래밍 언어 유사성에 대한 특별한 동작 및 훈련입니다.

jina-embeddings-v3 최대 8192개의 텍스트 입력 토큰을 지원하고 64~1024차원의 사용자 선택 가변 길이 임베딩을 생성하는 다국어 다목적 텍스트 전용 임베딩 모델입니다. 이 소형 모델은 6억 개 미만의 매개변수를 가지고 있으며, 2024년에 출시되었음에도 불구하고 그 크기에 비해 강력한 성능을 제공합니다.

Jina AI는 위의 jina-embeddings-v4 와 유사한 의미론적 유사성용 모듈 1개와 비대칭 검색용 모듈 2개 등 4개의 작업과 2개의 추가 작업을 지원하기 위해 5개의 LoRA 확장 모듈을 훈련시켰습니다.

  • 분류 - 텍스트를 카테고리별로 정렬합니다. 감성 분석, 스팸 필터링, 콘텐츠 중재, 사기 식별 등에 사용할 수 있습니다.
  • 클러스터링 - 텍스트의 분포에 따라 텍스트가 속하는 카테고리가 결정되도록 합니다. 추천 시스템, 뉴스 집계 및 이와 유사한 종류의 작업에 자주 사용됩니다.

jina-code-embeddings (0.5b & 1.5b) 프로그래밍 언어와 프레임워크를 위한 한 쌍의 특수 임베딩 모델(하나는 5억 개, 다른 하나는 15억 개의 매개변수를 포함)입니다. 두 모델 모두 최대 32,768개의 토큰을 입력하면 자연어 텍스트와 15가지 프로그래밍 체계에 대한 임베딩을 생성합니다. 사용자는 소형 모델의 경우 64치수부터 896까지, 대형 모델의 경우 128~1536차원까지 자체 출력 임베딩 크기를 선택할 수 있습니다.

5가지 작업별 검색 모드가 있어 각 작업에 최적화된 쿼리 및 문서 임베딩을 생성합니다.

  • 코드 투 코드 - 여러 프로그래밍 언어에서 유사한 코드를 검색합니다. 이는 코드 정렬, 코드 중복 제거, 포팅 및 리팩토링 지원에 사용됩니다.
  • 자연어를 코드로 변환 – 자연어 쿼리, 주석, 설명 및 문서와 일치하는 코드를 검색합니다.
  • 코드를 자연어로 변환 - 코드를 문서 또는 기타 자연어 텍스트와 일치시킵니다.
  • 코드 자동 완성 – 기존 코드를 완성하거나 향상시키기 위해 관련 코드를 제안하는 데 사용됩니다.
  • 기술 Q&A – 정보 기술에 관한 질문에 대한 자연어 답변을 식별하여 기술 지원 업무에 이상적으로 적합합니다.

jina-clip-v2 은(는) 텍스트와 이미지를 모두 지원하는 다중 모드 임베딩 모델입니다. 텍스트가 이미지 내용을 설명할 때 텍스트와 이미지가 유사한 임베딩을 생성하도록 훈련되었습니다. 따라서 멀티모달 매칭이 가능하며, 이미 텍스트 임베딩을 지원하는 모든 데이터베이스는 이 모델을 즉시 사용하여 텍스트 쿼리에서 이미지 검색을 지원할 수 있습니다.

이 모델은 광범위한 다국어 지원과 텍스트에 대한 8,192개의 토큰 입력 컨텍스트를 통해 고성능 텍스트 임베딩 모델로도 사용할 수 있도록 훈련되었습니다. 따라서 사용자 비용이 절감되므로 텍스트-텍스트 검색 및 텍스트-이미지 검색을 위한 별도의 모델이 필요하지 않습니다.

이미지 입력은 512x512 픽셀로 크기가 조정됩니다.

jina-reranker-m0 은(는) 보다 세밀한 "후기 상호작용" 분석을 사용하여 검색 정밀도를 향상시키는 다국어 및 다중 모달 텍스트 쌍별 문서 재순위 지정기입니다. 재순위 지정기는 텍스트 쿼리와 두 개의 후보, 즉 텍스트, 이미지 또는 각각 하나씩을 받아 어느 것이 쿼리와 더 잘 일치하는지 알려줍니다. 이 모델은 슬라이드, 스크린샷, 다이어그램 등 다양한 인쇄 및 컴퓨터 생성 그래픽 자료를 지원하도록 훈련되었습니다. 이는 까다로운 검색 환경에서 정확도를 높이는 강력한 방법을 제공합니다. 이미지는 각 변이 최소 56픽셀 이상이어야 하며, 매우 큰 이미지는 28x28 픽셀의 패치가 768개를 넘지 않을 때까지 크기가 조정됩니다. 쿼리 텍스트와 후보 문서는 총 10,240개의 토큰을 넘지 않아야 합니다.

jina-reranker-v3 jina-reranker-m0과 동일한 "후기 상호작용" 방식을 사용하지만, 쿼리와 얼마나 잘 맞는지에 따라 전체 문서 목록을 재정렬하는 다중 언어 텍스트 문서 재순위 지정기입니다. AI 모델을 사용한 목록별 순위 재지정은 제한된 후보 일치 목록을 생성하는 AI 기반 체계뿐만 아니라 모든 검색 체계와 호환되며, 기존 검색 체계를 보완하기 때문에 전반적으로 정확도가 향상됩니다. 따라서 하이브리드 및 레거시 검색 시스템을 위한 드롭인 향상 기능으로 이상적입니다.

이 순위 재지정 기능은 텍스트에만 적용되며, 쿼리와 순위 재지정 대상인 모든 문서를 포함하여 총 131,000개의 토큰 입력을 수용합니다.

ReaderLM-v2 사용자가 제공한 출력 스키마와 자연어 지침에 따라 웹 페이지의 DOM 트리 덤프를 포함한 HTML을 마크다운 또는 JSON으로 변환하는 소규모 생성 언어 모델입니다. 이 도구는 데이터 전처리에 AI를 도입하여 웹 스크랩 데이터의 혼란스러운 구조를 지능적으로 처리합니다. 이 소형 모델은 원래 용도가 좁은 데이터 변환 작업에서 GPT-4 보다 성능이 뛰어납니다.

시작하기

모델에 액세스하거나 웹 API를 직접 다운로드하고 사용하는 방법에 대한 지침은 Jina AI 웹사이트에서 확인하세요.

튜토리얼 및 노트북

이 튜토리얼은 이전 Jina AI 모델을 참조하며, 새로운 튜토리얼이 준비 중입니다.

최첨단 검색 환경을 구축할 준비가 되셨나요?

충분히 고급화된 검색은 한 사람의 노력만으로는 달성할 수 없습니다. Elasticsearch는 여러분과 마찬가지로 검색에 대한 열정을 가진 데이터 과학자, ML 운영팀, 엔지니어 등 많은 사람들이 지원합니다. 서로 연결하고 협력하여 원하는 결과를 얻을 수 있는 마법 같은 검색 환경을 구축해 보세요.

직접 사용해 보세요