A Cohere desenvolve grandes modelos de linguagem e os torna acessíveis por meio de um conjunto de APIs. Os modelos de embedding da Cohere, como embed-english-v3.0 e embed-multilingual-v3.0, transformam pedaços de texto em representações vetoriais. Esses modelos podem ser acessados por meio da Embed API. Esta API apresenta um parâmetro embedding_types que oferece aos usuários a opção de produzir embeddings altamente compactados para economizar nos custos de armazenamento.
Os modelos generativos da Cohere, como command-r e command--r-plus, recebem instruções dos usuários e geram textos úteis. Esses modelos podem ser acessados pela API de Chat, permitindo que os usuários criem experiências de conversação de múltiplos turnos. Essa API apresenta um parâmetro de documentos que permite aos usuários fornecerem ao modelo os próprios documentos diretamente na mensagem, que podem ser usados para fundamentar as saídas do modelo.
Os modelos de reranking do Cohere, como rerank-english-v3.0 e rerank-multilingual-v3.0, aprimoram os resultados de busca reorganizando os resultados recuperados com base em determinados parâmetros. Esses modelos podem ser acessados via API Rerank. Esses modelos oferecem uma melhoria "low lift, last mile" para os algoritmos de busca. Juntos, esses modelos podem construir sistemas de retrieval-augmented generation (RAG) de última geração — transforme seu texto em embeddings com o Embed v3, armazene-os com o Elasticsearch, reclassifique os resultados recuperados para máxima relevância e passe dinamicamente os documentos recuperados para a API do Chat para uma conversa fundamentada.