Vertex AI ofrece una diversa gama de modelos de IA generativa a través de varias API, lo que te permite crear aplicaciones inteligentes para una amplia variedad de casos de uso. Estos modelos, impulsados por la investigación avanzada de Google, te permiten generar texto, traducir idiomas, redactar diferentes tipos de contenido creativo y responder a tus preguntas de manera informativa.
API de Gemini
Los modelos de Google Gemini están diseñados para aplicaciones multimodales. Los modelos de Gemini aceptan indicaciones que incluyen, por ejemplo, texto e imágenes, y luego devuelven una respuesta de texto. Gemini también admite llamadas a funciones, lo que permite a los desarrolladores pasar una descripción de una función y luego el modelo devuelve una función y los parámetros que mejor se ajustan a la descripción. Luego, los desarrolladores pueden llamar a esa función en API y servicios externos.
Gemini 1.5 Pro: Este modelo avanzado cuenta con una gran ventana de contexto, capaz de manejar hasta 1 millón de tokens, lo que permite una comprensión matizada de indicaciones complejas y la generación de respuestas integrales.
Gemini 1.0 Pro & Gemini 1.0 Pro Vision: Estos modelos son perfectos para tareas de lenguaje natural, conversaciones de múltiples turnos y generación de código. También ofrecen la capacidad de incorporar imágenes, archivos PDF y videos en sus indicaciones, lo que los hace versátiles para aplicaciones multimodales.
Gemini 1.0 Ultra & Gemini 1.0 Ultra Vision: Como los modelos multimodales más avanzados de Google, estos están optimizados para tareas complejas que involucran comprensión de instrucciones, generación de código y razonamiento. Ofrecen soporte para múltiples idiomas y actualmente están disponibles para un grupo selecto de clientes.
Embeddings de texto
Incrustaciones para texto (textembedding-gecko) es el nombre del modelo que admite incrustaciones de texto. Las incrustaciones de texto son una técnica de procesamiento de lenguaje natural que convierte los datos textuales en vectores numéricos que pueden ser procesados por algoritmos de machine learning, especialmente modelos grandes. Estas representaciones vectoriales están diseñadas para capturar el significado semántico y el contexto de las palabras que representan.
Hay algunas versiones disponibles para incrustaciones. textembedding-gecko@003 es el último modelo de incrustación estable con calidad de IA mejorada, y textembedding-gecko-multilingual@001 es un modelo optimizado para una amplia gama de idiomas distintos al inglés.
Embeddings multimodales
Las incrustaciones para el modelo multimodal (multimodalembedding) generan vectores de dimensión (128, 256, 512 o 1408 dimensiones) según la entrada que proporcione. Esta entrada puede incluir cualquier combinación de texto, imagen o video. Los vectores de incrustación pueden utilizarse para otras tareas posteriores como la clasificación de imágenes o la moderación de contenido.
Los vectores de incrustación de texto, imagen y video están en el mismo espacio semántico y tienen la misma dimensionalidad. Por lo tanto, estos vectores se pueden usar indistintamente en casos de uso como buscar imágenes por texto o buscar videos por imagen.
Para comenzar
- Integración de Vertex AI con la API de inferencia abierta de Elasticsearch para la reclasificación
- Itera y crea aplicaciones RAG en minutos con Gemini
- Aprovecha el poder de tus datos en Elasticsearch con Vertex AI
- Introducción a la app Elastic Chatbot RAG con Vertex AI ejecutándose en Google Kubernetes Engine
- Base de datos vectorial Elasticsearch para integración nativa en la plataforma Vertex AI de Google Cloud
- Explorando Vertex AI con Elasticsearch
- La API de inferencia abierta Elasticsearch también admite los modelos Gemini de Google
- Búsqueda híbrida y reordenamiento semántico con Elasticsearch y GCP
Cuadernos
- Búsqueda vectorial mediante incrustaciones de Gemini y Elasticsearch
- Respuesta a preguntas con Gemini, Langchain y Elasticsearch
- RAG con Gemma sobre datos privados