Elegir un LLM: La guía de primeros pasos 2024 para los LLM open source

Sería una subestimación absoluta decir que la IA despegó en 2023. Se lanzaron miles de nuevas herramientas de IA, se agregaron funciones de IA a las aplicaciones existentes y Hollywood se paralizó abruptamente debido a las preocupaciones en torno a la tecnología. Incluso hay una herramienta de IA que evalúa qué tan bien cantas como Freddie Mercury, ¡porque, por supuesto, la hay!

Pero detrás de cada herramienta o función de IA hay un modelo de lenguaje grande (LLM) que se encarga de todo el trabajo pesado, y muchos de ellos son de open source. Un LLM es un algoritmo de aprendizaje profundo capaz de procesar enormes cantidades de datos para comprender y generar lenguaje. Se basan en una arquitectura de red neuronal, lo que permite entrenarlos para realizar diversas tareas de procesamiento del lenguaje natural (NLP), como la generación de contenido, la traducción, la categorización y muchos otros casos de uso. Esto, junto con la disponibilidad de LLM de open source, hace que sea mucho más fácil automatizar tareas clave de los negocios, como desarrollar chatbots de atención al cliente, detectar fraudes o asistir en la investigación y desarrollo, como, por ejemplo, el de vacunas, así como otros muchos casos de uso en múltiples industrias. Los LLM también pueden desempeñar un papel esencial en mejorar la seguridad en el cloud, la búsqueda y la observabilidad al ampliar la forma en que procesamos y analizamos los datos.

Como con cualquier tecnología nueva, el uso de los LLM también conlleva desafíos que deben ser considerados y abordados. La calidad de la salida dependerá por completo de la calidad de los datos que se proporcionaron. Muchos LLM se entrenan con grandes repositorios públicos de datos y tienen una tendencia a "alucinar" o brindar respuestas imprecisas cuando no recibieron entrenamiento con datos específicos del dominio. También existen preocupaciones sobre la privacidad y los derechos de autor en torno a la recopilación, el almacenamiento y la retención de información personal y contenido generado por el usuario.

Echa un vistazo a nuestra página sobre ¿Qué es un modelo de lenguaje grande? para obtener más información sobre los LLM.

¿Qué es un LLM open source?

Un LLM open source es un LLM disponible de forma gratuita y que todos pueden modificar y personalizar.

Con un LLM open source, cualquier persona o empresa puede usarlo para sus propios fines sin tener que pagar tarifas de licencia. Esto incluye desplegar el LLM en su propia infraestructura y ajustarlo para que se adapte a sus necesidades.

Esto es lo opuesto a un LLM closed source, que es un modelo propietario de una sola persona u organización y no está disponible para el público. El ejemplo más famoso de esto es la serie de modelos GPT de OpenAI.

Mira este video y conoce los LLM más a fondo:

Video thumbnail

¿Cuáles son los mejores casos de uso de LLM?

Existen casos de usos potenciales infinitos para los LLM, pero estas son algunas capacidades clave para mostrar la variedad de tareas que pueden hacer:

  • Análisis de opiniones: los modelos de lenguaje grandes (LLM) se pueden usar para identificar y clasificar opiniones subjetivas recopiladas a partir de comentarios, redes sociales, etc.

  • Creación de contenido: Varios modelos de lenguaje grande (LLM) pueden generar contenido relevante para el contexto, como artículos, textos de marketing y descripciones de productos.

  • Chatbot: Puedes ajustar los LLM para usarlos como chatbot de ayuda o para interactuar con tus clientes.

  • Traducciones: A partir de datos de texto multilingües, los modelos de lenguaje grande (LLM) pueden utilizarse para traducir idiomas humanos y facilitar la comunicación.

  • Investigación: Los LLM pueden facilitar la investigación, siendo capaces de consumir y procesar grandes cantidades de datos y devolver la información más relevante.

Nueve LLM open source populares para 2024

Para que te resulte más sencillo elegir un LLM open source para tu empresa o proyecto, hemos resumido nueve de los LLM open source más interesantes disponibles. Basamos esta lista en las señales de popularidad de la activa comunidad de IA y el repositorio de machine learning Hugging Face.

1. GPT-NeoX-20B

Desarrollado por EleutherAI, GPT-NeoX-20B es un modelo de lenguaje autorregresivo diseñado para parecerse arquitectónicamente a GPT-3. Se ha entrenado utilizando la biblioteca GPT-NeoX con datos de The Pile, un conjunto de datos de 800 GB open source hospedado por The Eye.

GPT-NeoX-20B se desarrolló en principio con fines de investigación y tiene 20 000 millones de parámetros que puedes usar y personalizar.

¿Para quién es?
GPT-NeoX-20B es ideal para empresas medianas y grandes que necesitan generación avanzada de contenido, como agencias de marketing y compañías de medios. Estas empresas necesitarán tanto personal calificado como la potencia computacional necesaria para ejecutar un LLM de mayor tamaño.

¿Para quién no es?
Este LLM no es adecuado para empresas pequeñas o individuos sin los recursos técnicos y financieros para gestionar los requisitos informáticos. 

Complejidad de uso
Dado que no está diseñado para su despliegue tal cual, necesitará la experiencia técnica necesaria para desplegar y ajustar GPT-NeoX-20B para sus tareas y necesidades específicas.

2. GPT-J-6B

También desarrollado por EleutherAI, GPT-J-6B es un modelo Transformer generativo preentrenado diseñado para producir texto similar al humano a partir de un mensaje. Fue desarrollado usando el modelo GPT-J y tiene 6 000 millones de parámetros entrenables (de ahí el nombre).

Se entrenó con un set de datos solo en idioma inglés, lo cual hace que no sea adecuado para traducciones o para generar texto en idiomas distintos del inglés.

¿Para quién es?
Dada su facilidad de uso y tamaño relativamente pequeño, GPT-J-6B es adecuado para empresas nuevas y medianas que buscan un equilibrio entre el rendimiento y el uso de recursos.

¿Para quién no es?
Este LLM puede no ser la mejor opción para compañías que requieren un rendimiento y personalización de modelos más avanzados. Tampoco es adecuado para compañías que necesitan soporte multilingüe.

Complejidad de uso
GPT-J-6B es un LLM moderadamente fácil de usar que se beneficia de contar con una comunidad de apoyo, lo que lo hace accesible para compañías con conocimientos técnicos mediocres.

3. Llama 2

La respuesta de Meta a los populares LLM de Google y OpenAI, Llama 2, se entrenó con fuentes de datos públicas en línea y fue diseñada para crear experiencias impulsadas por IA. Puede ajustarse para tareas específicas y es completamente gratis para investigación y uso comercial.

Desarrollado a partir del trabajo de Meta en LLama, Llama 2 ofrece tres tamaños de modelos, 7000 millones, 13 000 millones y 70 000 millones de parámetros, lo que lo convierte en una opción dinámica y escalable.

¿Para quién es?
Debido a las opciones de tamaño del modelo, Llama 2 es una excelente opción para investigadores y desarrolladores educativos que desean aprovechar modelos de lenguaje extensos. Incluso puede ejecutarse en computadoras de uso doméstico, por lo que es una buena opción para los aficionados.

¿Para quién no es?
Llama 2 no es adecuado para aplicaciones de mayor riesgo o más específicas, ya que no está diseñado para tareas altamente especializadas, y existen algunas preocupaciones sobre la confiabilidad de sus resultados.

Complejidad de uso
Es un LLM relativamente fácil de usar con enfoque en aplicaciones educativas, pero probablemente requerirá personalización para obtener resultados óptimos.

4. BLOOM

BLOOM es un modelo de lenguaje Transformer solo para decodificación que cuenta con una cantidad masiva de 176 000 millones de parámetros. Está diseñado para generar texto a partir de un mensaje y se puede ajustar para realizar tareas específicas como generación de texto, resumen, incrustaciones, clasificación y búsqueda semántica.

Se entrenó con un set de datos que comprende cientos de fuentes en 46 idiomas diferentes, lo que también lo convierte en una excelente opción para la traducción de idiomas y la salida multilingüe.

¿Para quién es?
BLOOM es ideal para grandes compañías que se dirigen a una audiencia global que necesita apoyo multilingüe. Debido al tamaño del modelo, las compañías también necesitarán disponer de recursos suficientes para ejecutarlo.

¿Para quién no es?
Las empresas que operan solo en mercados de habla inglesa pueden encontrar innecesarias sus capacidades multilingües, en especial por la considerable cantidad de recursos necesarios para personalizar y entrenar un modelo tan grande.

Complejidad de uso
Con la necesidad de comprender las sutilezas del lenguaje y su despliegue en diferentes contextos lingüísticos, BLOOM tiene una complejidad de moderada a alta.

5. Falcon

Falcon es un LLM que miró a BLOOM y dijo “Bah, ¿solo 176 000 millones de parámetros?”

Bien, en realidad no dijeron eso, pero su modelo de lenguaje open source viene en tres tamaños impresionantes: 7000 millones, 40 000 millones y 180 000 millones.

Con licencia Apache Licence 2.0, Falcon es un LLM autorregresivo diseñado para generar texto a partir de una solicitud y se basa en su set de datos RefinedWeb de alta calidad.

¿Para quién es?
Debido a su excelente rendimiento y escalabilidad, Falcon es ideal para empresas más grandes que estén interesadas en soluciones multilingües como la creación de sitios web y marketing, el análisis de inversiones y la ciberseguridad.

¿Para quién no es?
Aunque existe la opción de 7000 millones, esta aún no es la mejor opción para las empresas que buscan una solución simple plug-and-play para la generación de contenido. El costo de personalizar y entrenar el modelo seguiría siendo demasiado alto para este tipo de tareas.

Complejidad de uso
A pesar del enorme tamaño del modelo más grande, Falcon es relativamente fácil de usar en comparación con otros modelos LLM. Sin embargo, aún es necesario conocer los matices de las tareas específicas para sacarle el máximo provecho.

6. CodeGen

Este LLM de Salesforce es diferente de cualquier otro en esta lista porque en lugar de generar respuestas de texto o contenido, genera código de computadora. CodeGen es la abreviatura de “generación de código”, y eso es exactamente lo que hace. Ha sido entrenado para generar código basado en código existente o indicaciones de lenguaje natural.

Disponible en los tamaños de 7000 millones, 13 000 millones y 34 000 millones de parámetros, CodeGen se creó para crear un enfoque optimizado al desarrollo de software.

¿Para quién es?
CodeGen es para las empresas de tecnología y los equipos de desarrollo de software que buscan automatizar las tareas de codificación y mejorar la productividad de los desarrolladores.

¿Para quién no es?
Si tu empresa no escribe ni trabaja con código informático, este LLM no es para ti.

Complejidad de uso
CodeGen puede ser complejo de integrar en los flujos de trabajo de desarrollo existentes y requiere una estable base en ingeniería de software.

7. BERT

Uno de los primeros LLM modernos, BERT es una arquitectura transformer solo codificadora creada por Google en 2018. Está diseñado para entender, generar y manipular el lenguaje humano.

Google en sí usó BERT para mejorar la comprensión de búsquedas en su búsqueda, y también resultó efectivo en otras tareas, como la generación de texto, la respuesta a preguntas y el análisis de sentimiento.

¿Para quién es?
Teniendo en cuenta que es una parte clave de la búsqueda propia de Google, BERT es la mejor opción para los especialistas de SEO y creadores de contenido que desean optimizar los sitios y el contenido para motores de búsqueda y mejorar la relevancia de contenido.

¿Para quién no es?
Fuera del SEO, probablemente BERT no sea la mejor opción en muchas situaciones debido a su antigüedad, lo que lo hace redundante en comparación con las alternativas más grandes y nuevas.

Complejidad de uso
BERT es bastante sencillo para quienes están familiarizados con el SEO y la optimización de contenido, pero puede que requiera algunos ajustes para mantenerse al día con los cambios en las recomendaciones de SEO más recientes de Google.

8. T5

El T5 (abreviatura Text-to-Text Transfer Transformer, un nombre bastante atractivo) es una arquitectura basada en transformadores que utiliza un enfoque de texto a texto. Convierte los problemas de NLP en un formato donde la entrada y la salida son siempre cadenas de texto, lo que permite que T5 se utilice en una variedad de tareas como traducción, respuesta a preguntas y clasificación. Está disponible en cinco tamaños diferentes que van desde 60 millones de parámetros hasta 11 000 millones.

¿Para quién es?
T5 es excelente para empresas que requieren una herramienta versátil para una variedad de tareas de procesamiento de texto a texto, como resumen, traducción y clasificación.

¿Para quién no es?
A pesar de la relativa flexibilidad de T5, no es adecuado para tareas que requieren cualquier tipo de salida que no sea de texto. 

Complejidad de uso
T5 generalmente se considera fácil de usar en comparación con otros LLM, con una variedad de modelos preentrenados disponibles. Pero aún puede requerir algo de experiencia para adaptarse a tareas más específicas o de nicho.

9. Mixtral 8x7B

Mixtral 8x7B representa el avance de vanguardia en modelos dispersos de mezcla de expertos. Con pesos abiertos y licencias Apache 2.0, Mixtral cambia las reglas del juego, superando a otros modelos en velocidad y eficiencia (sí, te estoy mirando a ti, Llama 2 y GPT-3.5). Es particularmente experto en manejar una variedad de idiomas y sobresale en la generación de código y el seguimiento de instrucciones.

¿Para quién es?
Dirigido a desarrolladores y organizaciones interesadas en aprovechar la tecnología de IA de vanguardia para tareas diversas y complejas, Mixtral promete ser un recurso valioso para quienes buscan innovar.

¿Para quién no es?
Si eres nuevo en el mundo del machine learning o si tu potencia de cálculo es más baja, Mixtral podría ser un desafío.

Complejidad de uso
Utilizar Mixtral implica un compromiso, pero la recuperación es sustancial. Su arquitectura y escala únicas requieren cierta familiaridad con los conceptos de NLP y tal vez alguna configuración adicional. Esta opción no es para los recién llegados. Sin embargo, la sólida comunidad de Hugging Face y la extensa documentación ofrecen valiosos recursos para ayudarte a comenzar. Recuerda, dominar este peso pesado requiere esfuerzo, pero el potencial para desbloquear capacidades avanzadas de NLP vale la pena el desafío.

Aviso legal: Todos los parámetros y tamaños de modelo son correctos en el momento de la publicación, pero pueden cambiar desde entonces.

Elegir el LLM indicado para tu empresa

Existen varios criterios clave que debes tener en cuenta cuando decides qué LLM open source usar:

  • Costo: Como estos LLM de open source, no necesitas pagar por los modelos en sí. Pero debes pensar en el costo de alojamiento, capacitación, recursos, etc. Cuanto más grande y complejo sea un LLM, más te costará probablemente. Esto se debe a que un LLM más grande requerirá más costos de almacenamiento de datos, poder de procesamiento, una infraestructura más grande y costos de mantenimiento.

  • Precisión: Es fundamental evaluar la precisión de tus opciones. Tienes que comparar la precisión con la que los distintos modelos de lenguaje grandes (LLM) pueden llevar a cabo los tipos de tareas que necesitas. Por ejemplo, algunos modelos estarán especializados en un ámbito concreto, mientras que otros pueden mejorarse mediante el ajuste fino o Retrieval-Augmented Generation (RAG).

  • Rendimiento: El rendimiento de un LLM se mide por características como la fluidez del lenguaje, la coherencia y la comprensión del contexto. Cuanto mejor sea el LLM en esto, mejor se desempeñará. Así mejorará la experiencia del usuario y la efectividad de las tareas y te dará una ventaja competitiva. 

  • Seguridad de los datos: La seguridad de tus datos es otro aspecto clave a tener en cuenta. Es especialmente importante si manejas datos confidenciales o de carácter personal. Esta es otra área en la que un RAG podría ser útil, ya que te permite controlar el acceso a los datos mediante la seguridad a nivel de documento y restringir los permisos de seguridad a datos específicos.

  • Tareas específicas frente a propósitos generales: considera si necesitas un LLM que resuelva casos de uso más específicos o uno que cubra un espectro más amplio de tareas. Debido a que algunos modelos son específicos del dominio, debes tener cuidado de seleccionar uno dentro de tu dominio o encontrar uno con un alcance más amplio.

  • Calidad de los datos de entrenamiento: Si la calidad de los datos no es buena, los resultados tampoco lo serán. Evalúa los datos que usa cada LLM y elige uno en el que confías. RAG también te ayudará con esto, ya que puedes usar datos personalizados, que se pueden preparar y ajustar para mejorar directamente la calidad de la salida.

  • Conocimientos técnicos: Otro factor importante a tener en cuenta son los conocimientos técnicos con los que ya cuenta tu equipo de proyecto. Es imprescindible tener experiencia en áreas como la ciencia de datos, MLOps y el procesamiento del lenguaje natural (NLP). Cuanto más complejo sea el modelo de lenguaje grande (LLM), más profundos deberán ser los conocimientos de tu equipo. Si tus recursos son limitados en este aspecto, vale la pena centrarse en los LLM más sencillos o incluso buscar incorporar más experiencia.

Con estos criterios, deberías poder decidir cuál LLM de los que vimos es el más adecuado para tus circunstancias en particular.

La mejor manera es que te tomes tu tiempo, mires las opciones listadas y las evalúes según cómo pueden ayudarte mejor a resolver tus problemas. Todos estos LLM open source son enormemente poderosos y pueden ser transformadores, si se usan de manera eficiente.

¿Qué deberías hacer a continuación?

Cuando estés listo... estas son cuatro maneras en que podemos ayudarte a incorporar datos a tu negocio:

  1. Empieza una prueba gratuita y descubre cómo Elastic puede ayudar a tu empresa.
  2. Descubre nuestras soluciones. Descubre cómo funciona Elasticsearch Platform y cómo nuestras soluciones se adaptarán a tus necesidades.
  3. Conoce cómo configurar tu cluster de Elasticsearch y comienza con la recopilación e ingesta de datos con nuestro webinar de 45 minutos.
  4. Comparte este artículo con alguien que sepas que disfrutaría leerlo por correo electrónico, o en LinkedIn, X o Facebook.

El momento del lanzamiento de cualquiera de las características o funcionalidades descritas en esta publicación queda a exclusivo criterio de Elastic. Es posible que algunas características o funcionalidades que no estén disponibles en este momento no se lancen a tiempo o no se lancen en absoluto.

En esta publicación del blog, es posible que hayamos usado o nos hayamos referido a herramientas de AI generativa de terceros, que son propiedad de sus respectivos propietarios y están gestionadas por ellos. Elastic no tiene ningún control sobre las herramientas de terceros y no tenemos ninguna responsabilidad por su contenido, operación o uso, ni por ninguna pérdida o daño que pueda surgir de tu uso de dichas herramientas. Ten cuidado al usar herramientas de AI con información personal, sensible o confidencial. Cualquier dato que envíes puede usarse para el entrenamiento de la AI u otros fines. No se garantiza que la información que proporciones se mantenga segura o confidencial. Debes familiarizarte con las prácticas de privacidad y los términos de uso de cualquier herramienta de IA generativa antes de usarla. 

Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine y las marcas asociadas son marcas comerciales, logotipos o marcas comerciales registradas de Elasticsearch N.V. en Estados Unidos y otros países. Todos los demás nombres de empresas y productos son marcas comerciales, logotipos o marcas comerciales registradas de sus respectivos dueños.