Choix d'un grand modèle de langage : le guide 2024 de prise en main des grands modèles de langage open source

139686_-_Elastic_-_Headers_-_V1_1.jpg

Ce serait un véritable euphémisme d'affirmer que l'intelligence artificielle a décollé en 2023. Dans ce domaine, des milliers de nouveaux outils ont vu le jour et des fonctionnalités ont été ajoutées aux applications existantes. En outre, Hollywood s'est tellement inquiétée des évolutions de cette technologie, qu'elle a réclamé à cor et à cri un arrêt des développements. Un outil d'intelligence artificielle est même capable de déterminer si vous chantez aussi bien que Freddie Mercury. Eh oui, ça existe !

Or, chaque fonctionnalité ou outil d'intelligence artificielle se fonde sur un grand modèle de langage ("large language model" ou LLM) qui se charge de toutes les tâches fastidieuses. D'ailleurs, il existe plusieurs modèles open source. Un LLM est un algorithme de Deep Learning capable de traiter d'énormes quantités de données afin de comprendre un langage et d'en générer. Il se fonde sur une architecture de réseau de neurones, qui lui permet d'être entraîné pour réaliser un vaste éventail de tâches de traitement du langage naturel (génération de contenu, traduction, catégorisation et de nombreux autres cas d'utilisation). Grâce à ces caractéristiques et à la disponibilité de grands modèles de langage open source, il est désormais bien plus facile pour les entreprises d'automatiser leurs tâches essentielles, notamment le développement de chatbots pour le support technique client, la détection des fraudes ou l'aide à la recherche et au développement (développement de vaccins, par exemple), mais aussi de nombreux autres cas d'utilisation dans divers secteurs. Les grands modèles de langage jouent également un rôle fondamental dans l'amélioration de l'observabilité, de la recherche et de la sécurité du cloud en élargissant nos méthodes de traitement et d'analyse des données.

À l'instar de toute nouvelle technologie, l'utilisation des grands modèles de langage s'accompagne de défis incontournables à relever. La qualité de la sortie dépend entièrement de la qualité des données utilisées. Nombre de grands modèles de langage sont entraînés à l'aide de vastes référentiels publics de données et ont tendance à "halluciner" ou à donner des réponses inexactes lorsqu'ils n'ont pas été entraînés avec des informations spécifiques au domaine concerné. En outre, la collecte, le stockage et la conservation des informations personnelles et du contenu généré par les utilisateurs soulèvent des questions de protection des données personnelles et des droits d'auteur.

Lisez l'article Qu'est-ce qu'un grand modèle de langage (LLM) ? pour en savoir plus à ce sujet.

Qu'est-ce qu'un grand modèle de langage open source ?

Un grand modèle de langage open source est disponible gratuitement. Tout le monde peut le modifier et le personnaliser.

Toute personne ou toute entreprise peut utiliser un grand modèle de langage open source à ses propres fins sans devoir payer de frais de licence. Elle peut déployer le modèle sur sa propre infrastructure et l'ajuster afin qu'il réponde à ses besoins.

C'est le contraire d'un grand modèle de langage propriétaire, qui appartient à une seule personne ou entreprise et n'est pas mis à la disposition du grand public. L'exemple le plus célèbre de ce type de modèle est la gamme GPT d'OpenAI.

Quels sont les meilleurs cas d'utilisation des grands modèles de langage ?

Les grands modèles de langage ont un nombre illimité de cas d'utilisation potentiels. Voici des exemples de leurs principales fonctionnalités illustrant la variété de leurs possibilités.

  • Analyse des sentiments : les grands modèles de langage peuvent être utilisés pour identifier et classer les avis subjectifs tirés de commentaires, des réseaux sociaux ou autres.

  • Création de contenus : plusieurs grands modèles de langage peuvent générer des contenus pertinents pour le contexte concerné, comme des articles, des textes marketing et des descriptions de produits.

  • Chatbot : vous pouvez ajuster les grands modèles de langage afin de les utiliser en tant que chatbot d'aide ou de communiquer avec votre clientèle.

  • Traductions : en exploitant des données textuelles multilingues, les grands modèles de langage peuvent être utilisés pour traduire les langues humaines afin de faciliter la communication.

  • Recherche : les grands modèles de langage peuvent réaliser des recherches très rapidement, intégrer et traiter d'énormes quantités de données, puis fournir les informations les plus pertinentes.

Grands modèles de langage open source populaire en 2024

Pour que vous puissiez trouver plus facilement le grand modèle de langage open source adapté à votre entreprise ou à votre projet, nous avons répertorié huit des grands modèles de langage open source les plus intéressants parmi les offres disponibles. Pour créer cette liste, nous avons tenu compte des signaux de popularité provenant de Hugging Face, le référentiel animé dédié au Machine Learning et à la communauté de l'intelligence artificielle.

1. GPT-NeoX-20B

Développé par EleutherAI, GPT-NeoX-20B est un modèle de langage autorégressif qui est conçu pour ressembler à GPT-3 au niveau de son architecture. Il a été entraîné à l'aide de la bibliothèque de GPT-NeoX avec des données provenant de The Pile, un ensemble d'informations open source de 800 Go qui est hébergé par The Eye.

GPT-NeoX-20B a été principalement développé à des fins de recherche. Il est doté de 20 milliards de paramètres que vous pouvez utiliser et personnaliser.

À qui est-il destiné ?
GPT-NeoX-20B est idéal pour les entreprises moyennes et grandes qui ont besoin d'une fonctionnalité avancée de génération de contenus, comme les agences marketing et les sociétés médiatiques. Ces entreprises devront compter dans leurs rangs du personnel qualifié et disposer de la puissance de calcul requise pour exécuter un plus grand modèle de langage.

À qui ne correspond-il pas ?
Ce grand modèle de langage n'est pas approprié pour les petites entreprises ou les personnes qui ne disposent pas des ressources financières et techniques nécessaires à la satisfaction des exigences de calcul. 

Complexité d'utilisation
Étant donné qu'il n'est pas conçu pour être déployé en tant que tel, vous devez avoir l'expertise technique pour déployer et ajuster GPT-NeoX-20B afin de l'adapter à vos tâches et besoins spécifiques.

2. GPT-J-6b

Également développé par EleutherAI, GPT-J-6b est un modèle de transformateur génératif pré-entraîné spécialement conçu pour générer du texte qui semble avoir été rédigé par une main humaine à partir d'une invite. Fondé sur le modèle GPT-J, il est doté de 6 milliards de paramètres pouvant être entraînés (d'où son nom).

Il a été entraîné à l'aide d'un ensemble de données en anglais uniquement. Par conséquent, il n'est pas approprié pour la traduction ou la génération de textes dans d'autres langues.

À qui est-il destiné ?
Grâce à sa facilité d'utilisation et à sa taille relativement petite, GPT-J-6b est idéal pour les start-ups et les entreprises de taille moyenne qui souhaitent trouver un équilibre entre leur consommation de ressources et leurs performances.

À qui ne correspond-il pas ?
Ce grand modèle de langage n'est pas le meilleur choix pour les entreprises nécessitant une capacité plus avancée de personnalisation et de meilleures performances. En outre, il ne convient pas aux entreprises ayant besoin d'un support technique multilingue.

Complexité d'utilisation
GPT-J-6b est un grand modèle de langage modérément convivial qui bénéficie du soutien d'une communauté. Ainsi, il est accessible aux entreprises dont le savoir-faire technique n'est pas très avancé.

3. Llama 2

Réponse de Meta aux grands modèles de langage populaires de Google et d'OpenAI, Llama 2 est entraîné à l'aide de sources de données publiques disponibles en ligne. Il est spécialement conçu pour garantir des expériences propulsées par l'intelligence artificielle. Il peut être ajusté pour réaliser des tâches spécifiques. Il est entièrement gratuit pour un usage commercial et à des fins de recherche.

Développé à partir du travail effectué par Meta sur LLaMA, Llama 2 est disponible en trois modèles (doté chacun de 7, 13 et 70 milliards de paramètres, respectivement). Cette offre est dynamique et scalable.

À qui est-il destiné ?
Grâce à ces différents modèles, Llama 2 est une option idéale pour les chercheurs et les développeurs de solutions pédagogiques qui veulent exploiter de vastes modèles de langage. Il peut même s'exécuter sur des ordinateurs grand public. Ainsi, il convient bien aux amateurs.

À qui ne correspond-il pas ?
Llama 2 n'est pas adapté aux applications de niche ou plus vulnérables, car il n'est pas conçu pour réaliser des tâches hautement spécialisées. En outre, la fiabilité de sa sortie soulève quelques inquiétudes.

Complexité d'utilisation
Ce grand modèle de langage est relativement facile à utiliser grâce à son orientation vers des applications pédagogiques. Cependant, il nécessitera probablement une personnalisation afin de fournir des résultats optimaux.

4. BLOOM

BLOOM est un modèle de transformateur pour décodeur uniquement qui comprend un éventail gigantesque de 176 milliards de paramètres. Il est conçu pour générer du texte à partir d'une invite. Il peut être ajusté afin de réaliser des tâches spécifiques, comme la génération de textes, la synthèse, les plongements, la classification et la recherche sémantique.

Il a été entraîné à l'aide d'un ensemble de données comprenant des centaines de sources dans 46 langues différentes. Ainsi, c'est une option formidable pour bénéficier d'une sortie multilingue et d'une fonction de traduction.

À qui est-il destiné ?
BLOOM est idéal pour les plus grandes entreprises qui visent un public mondial nécessitant un support technique multilingue. Étant donné la taille du modèle, les sociétés auront également besoin de disposer de suffisamment de ressources pour l'exécuter.

À qui ne correspond-il pas ?
Les entreprises qui mènent leurs activités uniquement sur des marchés anglophones peuvent trouver ses fonctionnalités multilingues superflues, en particulier compte tenu des ressources considérables requises pour personnaliser et entraîner un tel grand modèle.

Complexité d'utilisation
Face à la nécessité de comprendre les nuances de différentes langues et de déployer le modèle dans différents contextes linguistiques, BLOOM est doté d'une complexité d'utilisation moyenne à élevée.

5. Falcon

Falcon est un grand modèle de langage qui se moque des 176 milliards de paramètres de BLOOM.

En effet, son modèle de langage open source est disponible en trois tailles impressionnantes, à savoir 7, 40 et 180 milliards.

Disponible dans le cadre de la licence Apache Licence 2.0, Falcon est un grand modèle de langage autorégressif qui est conçu pour générer du texte à partir d'une invite et se fonde sur son ensemble de données RefinedWeb de qualité supérieure.

À qui est-il destiné ?
Grâce à ses excellentes performances et à sa remarquable scalabilité, Falcon est idéal pour les plus grandes entreprises qui sont intéressées par les solutions multilingues, comme la création de contenus marketing et de sites web, l'analyse des investissements et la cybersécurité.

À qui ne correspond-il pas ?
Même s'il existe une option de 7 milliards, ce modèle ne convient pas aux entreprises recherchant une simple solution de génération de contenus immédiatement opérationnelle. Les frais liés à sa personnalisation et à son entraînement seraient bien trop élevés pour ce type de tâches.

Complexité d'utilisation
Malgré l'énorme taille du modèle le plus grand, Falcon est relativement facile à utiliser contrairement à certains autres grands modèles de langage. Néanmoins, il vous faut quand même connaître les subtilités de vos tâches spécifiques afin de l'exploiter pleinement.

6. CodeGen

Ce grand modèle de langage de Salesforce se démarque des autres exemples de cette liste : au lieu de générer des réponses textuelles ou du contenu, il produit du code informatique. CodeGen signifie "génération de code" en anglais. Son fonctionnement ne pourrait pas être expliqué plus clairement. Il est entraîné pour fournir du code en fonction d'un code existant ou d'invites en langage naturel.

Disponible en 7, 13 et 34 milliards de paramètres, CodeGen a été conçu pour créer une approche rationalisée du développement logiciel.

À qui est-il destiné ?
CodeGen est destiné aux équipes de développement logiciel et aux sociétés technologiques qui souhaitent automatiser les tâches de codage et améliorer la productivité des développeurs.

À qui ne correspond-il pas ?
Si votre entreprise n'écrit pas de code informatique ou ne travaille pas avec, ce grand modèle de langage n'est pas pour vous.

Complexité d'utilisation
CodeGen peut s'avérer complexe à intégrer dans des workflows de développement existants. Il nécessite une expérience solide en ingénierie logicielle.

7. BERT

L'un des premiers grands modèles de langage modernes, BERT est une architecture de transformateur pour encodeur uniquement que Google a créée en 2018. Elle est conçue pour comprendre le langage humain, en générer et le manipuler.

Google utilise BERT pour améliorer la compréhension des requêtes dans le cadre de sa recherche. En outre, ce modèle réalise d'autres tâches avec efficacité, comme la génération de texte, la réponse aux questions et l'analyse des sentiments.

À qui est-il destiné ?
Étant donné qu'il s'agit d'une composante essentielle de la propre recherche de Google, BERT est la meilleure option pour les créateurs de contenus et les spécialistes en référencement naturel qui souhaitent optimiser les sites et les contenus pour les moteurs de recherche, mais aussi améliorer la pertinence des contenus.

À qui ne correspond-il pas ?
Outre le référencement naturel, BERT ne conviendra probablement pas à de nombreuses situations à cause de son ancienneté. Il est obsolète par rapport aux alternatives plus récentes et plus importantes.

Complexité d'utilisation
BERT fonctionne de manière relativement simple pour les personnes qui connaissent le référencement naturel et l'optimisation des contenus. Toutefois, il peut nécessiter un ajustement afin de s'adapter aux dernières évolutions des récentes recommandations de Google en matière de référencement naturel.

8. T5

Le modèle T5 (qui signifie "Text-to-Text Transfer Transformer") est une architecture fondée sur un transformateur qui utilise une approche de texte à texte. Il convertit les problèmes de traitement du langage naturel dans un format où l'entrée et la sortie sont toujours des chaînes textuelles. Ainsi, T5 peut être utilisé pour réaliser un éventail de tâches, comme la traduction, la réponse aux questions et la classification. Il est disponible en cinq tailles différentes, allant de 60 millions jusqu'à 11 milliards de paramètres.

À qui est-il destiné ?
T5 est idéal pour les entreprises nécessitant un outil polyvalent en vue de réaliser diverses tâches de traitement textuel, comme la synthèse, la traduction et la classification.

À qui ne correspond-il pas ?
Malgré la relative flexibilité de T5, il ne convient pas aux tâches nécessitant tout type de sortie non textuelle. 

Complexité d'utilisation
En règle générale, T5 est considéré comme facile à utiliser par rapport aux autres grands modèles de langage, grâce à l'éventail de modèles pré-entraînés disponibles. Toutefois, il peut toujours nécessiter une certaine expertise afin d'être adapté à des tâches qui sont davantage de niche ou spécifiques.

Avis de non-responsabilité : l'ensemble des tailles de modèle et des paramètres mentionnés sont exacts au moment de la publication. Toutefois, ils sont susceptibles d'être modifiés ultérieurement.

Choix du grand modèle de langage adapté à vos activités

Afin de choisir le grand modèle de langage open source à utiliser, vous devez tenir compte de plusieurs critères essentiels.

  • Coûts : étant donné que ces grands modèles de langage sont open source, vous n'avez rien à payer pour y accéder. Toutefois, n'oubliez pas les frais liés à l'hébergement, à l'entraînement et aux ressources, entre autres. Plus le grand modèle de langage est grand et complexe, plus il sera susceptible d'engendrer des coûts. En effet, un plus grand modèle de langage nécessite davantage de frais de stockage des données, une puissance de traitement, une infrastructure plus importante et des frais de maintenance.

  • Exactitude : il est essentiel d'évaluer la précision offerte par vos différentes options. Vous devez comparer la capacité de différents grands modèles de langage à réaliser avec exactitude les types de tâches dont vous avez besoin. Par exemple, certains modèles seront spécifiques à un domaine, tandis que d'autres peuvent être améliorés à l'aide de l'ajustement ou de la génération augmentée de récupération.

  • Performances : les performances d'un grand modèle de langage s'évaluent en fonction de divers facteurs, comme la fluidité du langage, la cohérence et la compréhension du contexte. Plus le grand modèle de langage réalise ces opérations avec efficacité, plus il sera performant, ce qui améliorera l'expérience des utilisateurs et l'efficacité des tâches tout en vous conférant un avantage concurrentiel. 

  • Sécurité des données : la sécurité de vos données est un autre élément fondamental à prendre en compte. Elle est particulièrement importante si vous manipulez des données sensibles ou des informations personnelles d'identification. La génération augmentée de récupération peut également être utile dans ce domaine. Grâce à elle, vous pouvez contrôler l'accès aux données avec la sécurité au niveau des documents et limiter les autorisations de sécurité à des informations spécifiques.

  • Modèle général ou spécifique pour une tâche : déterminez si vous avez besoin d'un grand modèle de langage qui satisfait des cas d'utilisation plus spécifiques ou qui couvre un plus vaste éventail de tâches. Étant donné que certains modèles sont spécifiques à un domaine, nous vous conseillons d'en choisir un dans votre domaine ou d'en trouver un avec un champ d'application plus vaste. 

  • Qualité des données d'entraînement : si la qualité des données n'est pas bonne, les résultats ne le seront pas non plus. Évaluez les données utilisées par chaque grand modèle de langage et choisissez celui dans lequel vous avez confiance. La génération augmentée de récupération peut également vous aider dans ce domaine, car vous êtes en mesure d'utiliser des données personnalisées pouvant être préparées et ajustées afin d'améliorer directement la qualité de la sortie.

  • Compétences : un autre facteur essentiel à étudier concerne les compétences existantes de votre équipe de projet. Il est indispensable d'avoir de l'expérience dans la science des données, le MLOps et le traitement du langage naturel, entre autres. Plus le grand modèle de langage est complexe, plus votre équipe devra disposer de compétences fines. Si vous faites face à davantage de limitations sur ce point, il est judicieux de vous concentrer sur des grands modèles de langage plus simples, voire de chercher à recruter davantage de spécialistes.

En vous fondant sur ces critères, vous devriez être en mesure de déterminer quel grand modèle de langage convient le mieux à vos circonstances uniques, parmi toutes les solutions que nous vous avons présentées.

La meilleure approche est de prendre votre temps, d'étudier les alternatives répertoriées et de les évaluer en fonction de leur capacité à vous aider à résoudre vos problèmes. Tous ces grands modèles de langage open source sont extrêmement performants et peuvent être révolutionnaires s'ils sont utilisés de manière efficace.

La publication et la date de publication de toute fonctionnalité ou fonction décrite dans le présent article restent à la seule discrétion d'Elastic. Toute fonctionnalité ou fonction qui n'est actuellement pas disponible peut ne pas être livrée à temps ou ne pas être livrée du tout.

Dans cet article, nous sommes susceptibles d'avoir utilisé ou mentionné des outils d'intelligence artificielle générative tiers appartenant à leurs propriétaires respectifs qui en assurent aussi le fonctionnement. Elastic n'a aucun contrôle sur les outils tiers et n'est en aucun cas responsable de leur contenu, de leur fonctionnement, de leur utilisation, ni de toute perte ou de tout dommage susceptible de survenir à cause de l'utilisation de tels outils. Lorsque vous utilisez des outils d'intelligence artificielle avec des informations personnelles, sensibles ou confidentielles, veuillez faire preuve de prudence. Toute donnée que vous saisissez dans ces solutions peut être utilisée pour l'entraînement de l'intelligence artificielle ou à d'autres fins. Vous n'avez aucune garantie que la sécurisation ou la confidentialité des informations renseignées sera assurée. Vous devriez vous familiariser avec les pratiques en matière de protection des données personnelles et les conditions d'utilisation de tout outil d'intelligence artificielle générative avant de l'utiliser. 

Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine et les marques associées sont des marques commerciales, des logos ou des marques déposées d'Elasticsearch N.V. aux États-Unis et dans d'autres pays. Tous les autres noms de produits et d'entreprises sont des marques commerciales, des logos ou des marques déposées appartenant à leurs propriétaires respectifs.