Que sont les grands modèles de langage (LLMs) ?

Définition des grands modèles de langage

À la base, un grand modèle de langage (LLM) est un modèle entraîné à l’aide d’algorithmes de deep learning et capable d’effectuer une large gamme de tâches de traitement du langage naturel (NLP) telles que l’analyse des sentiments, la réponse aux questions conversationnelles, la traduction de textes, la classification et la génération. Un LLM est un type de réseau de neurones (NN) qui utilise spécifiquement des architectures de transformateur, conçues pour détecter les dépendances entre différentes parties d'une séquence de données, quelle que soit leur distance les unes par rapport aux autres. Ces réseaux de neurones sont constitués de couches d'unités de traitement, souvent comparées aux neurones du cerveau. Les grands modèles de langage comptent également un grand nombre de paramètres, qui s'apparentent aux souvenirs que la mémoire collecte lorsqu'elle est en plein apprentissage. Voyez ces paramètres comme la banque de connaissances du modèle.

Cette capacité de traitement permet aux LLM d’être entraînés pour des tâches telles que l’écriture de code logiciel, la génération de langage, etc., tandis que des modèles spécialisés gèrent des tâches comme la compréhension des structures protéiques.¹ Les grands modèles de langage doivent être pré-entraînés, puis ajustés pour résoudre des problèmes de classification de texte, de réponse à des questions, de synthèse de documents, de génération de texte et d’autres tâches. Leurs capacités de résolution de problèmes peuvent être appliquées à des champs tels que la santé, la finance et le divertissement, où les LLM servent une multitude d’applications du NLP, notamment la traduction, les chatbots et les assistants IA.

Regardez cette vidéo et découvrez le fonctionnement des LLM.

Comment fonctionnent les LLM ?

Fondamentalement, un grand modèle de langage fonctionne en recevant une entrée, en l'encodant, puis en la décodant pour produire une prédiction de sortie, telle que le mot suivant, la phrase suivante ou une réponse spécifique. Comme tous les modèles de Machine Learning, un grand modèle de langage doit être entraîné et ajusté avant d’être prêt à produire la sortie attendue et nécessaire. Voici comment le processus est affiné :

Entraînement : les grands modèles de langage sont préentraînés à l'aide de vastes ensembles de données textuelles provenant de sites tels que Wikipédia et GitHub. Ces ensembles de données regroupent des milliards de mots, dont la qualité est déterminante pour les performances des grands modèles de langage. À ce stade, les grands modèles de langage entament un apprentissage non supervisé, ce qui signifie qu'ils traitent les ensembles de données fournis sans instructions particulières. Au cours de ce processus, l'algorithme apprend à reconnaître les relations statistiques entre les mots et leur contexte. Par exemple, il déterminera si "gauche" signifie l'opposé de "droite" ou le fait d'être "maladroit".
Ajustement : pour qu'un grand modèle de langage puisse effectuer une tâche spécifique, telle que la traduction, il doit être ajusté à cette activité particulière. L'ajustement permet de régler les paramètres du modèle pour optimiser ses performances sur des tâches spécifiques en l'entraînant sur des données étiquetées supplémentaires.
L'ajustement selon l'invite (prompt-tuning)remplit une fonction similaire à l'ajustement, par lequel il forme un modèle pour effectuer une opération par l'intermédiaire d'une invite de prompting en few-shot ou de prompting en zero-shot. Le prompting en few-shot fournit au modèle des exemples pour le guider dans la prédiction des sorties, tels que :

Avis client	Sentiment des clients
"Cette plante est si belle !"	Positif
"Cette plante est vraiment affreuse !"	Négatif

"Dans ce cas, le modèle comprend la signification de « hideous » (affreux) car un exemple contraire («beautiful», beau) a été fourni.

Le prompting zéro-shot, cependant, n'utilise pas d'exemples. Au lieu de cela, il demande directement au modèle d'effectuer une tâche, comme :

''Le sentiment exprimé dans « Cette plante est vraiment affreuse » est...''

Sur la base de l'entraînement préalable, le modèle doit prédire le sentiment sans qu'aucun exemple ne lui soit fourni.

Principaux composants des grands modèles de langage

Les grands modèles de langage se composent de plusieurs couches de réseaux de neurones. Les couches de plongement, d'attention et à action directe travaillent ensemble pour traiter le texte d'entrée et générer le contenu de sortie.

La couche de plongement crée des plongements vectoriels à partir du texte d'entrée, ou des représentations mathématiques des mots qui lui sont fournies. Cette partie du modèle capture la signification sémantique et syntaxique de l'entrée afin que le modèle puisse comprendre les mots et leurs relations dans leur contexte.
Le mécanisme d'attention permet au modèle de se concentrer sur toutes les parties du texte d'entrée en fonction de leur pertinence par rapport à la tâche en cours, ce qui lui permet de saisir les dépendances à longue portée.
La couche à action directe se compose de plusieurs couches entièrement connectées qui appliquent des transformations non linéaires aux données. Celles-ci traitent les informations après qu'elles ont été encodées par le mécanisme d'attention.

Il existe trois principaux types de grands modèles de langage :

Les modèles de langage génériques ou bruts prédisent le mot suivant d'après le langage employé dans les données d'entraînement. Ces modèles de langage exécutent des tâches de récupération d'informations.
Les modèles de langage adaptés aux instructions sont entraînés pour prédire des réponses selon les instructions fournies dans l'entrée. Ils peuvent ainsi procéder à une analyse des sentiments ou générer du texte ou du code.
Les modèles de langage adaptés aux dialogues sont entraînés pour dialoguer en prédisant la prochaine réponse. Pensez aux chatbots ou à l'IA conversationnelle.

Quelle est la différence entre les grands modèles de langage et l'IA générative ?

L’IA générative est un terme générique désignant les modèles d’intelligence artificielle capables de générer du contenu. Ces modèles peuvent générer du texte, du code, des images, des vidéos et de la musique. Ils peuvent également se spécialiser dans différents types de contenu, tels que la génération de texte (par exemple, ChatGPT) ou la création d'images (par exemple, DALL-E, MidJourney).

Les grands modèles de langage sont un type d'IA générative spécifiquement entraîné sur de grands ensembles de données textuelles et conçu pour produire du contenu textuel, comme dans le cas de ChatGPT.

Tous les LLM sont des IA génératives, mais tous les modèles d’IA générative ne sont pas des LLM. Par exemple, DALL-E et MidJourney génèrent des images, pas du texte.

Qu'est-ce qu'un modèle de transformateur ?

Un modèle de transformateur constitue l'architecture la plus courante d'un grand modèle de langage. Il se compose généralement d'un encodeur et d'un décodeur, bien que certains modèles, comme GPT, n'utilisent que le décodeur. Un modèle de transformateur traite les données en convertissant les entrées en tokens, puis en réalisant des équations mathématiques simultanées pour découvrir les relations qui existent entre les tokens. L'ordinateur peut ainsi voir les schémas qu'un humain déterminerait si on lui soumettait la même requête.

Les modèles de transformateur s'appuient sur des mécanismes d'auto-attention, ce qui permet aux modèles d'apprendre plus rapidement que les modèles traditionnels, comme les modèles de longue mémoire à court terme (LSTM). L’auto-attention est ce qui permet aux modèles de transformateur de capturer les relations entre les mots, même ceux éloignés dans une phrase, mieux que les modèles plus anciens, principalement en permettant le traitement parallèle de l’information.

Article connexe : Appliquer les transformateurs à vos applications de recherche

Exemples et cas d'utilisation de grands modèles de langage

Les grands modèles de langage peuvent servir à différentes finalités :

Récupération d'informations : pensez à Bing ou à Google. Les LLM peuvent être intégrés dans les moteurs de recherche pour améliorer les réponses aux requêtes. Alors que les moteurs de recherche traditionnels s'appuient principalement sur des algorithmes d'indexation, les LLM améliorent la capacité à générer des réponses plus conversationnelles ou contextuelles en fonction d'une requête.
Analyse des sentiments : en tant qu'applications du traitement du langage naturel, les grands modèles de langage permettent aux entreprises d'analyser le sentiment des données textuelles.
Génération de texte : de grands modèles de langage comme ChatGPT sous-tendent l'IA générative et peuvent générer du texte cohérent et contextuellement pertinent en fonction des invites données. Par exemple, vous pouvez demander à un LLM : "Écris-moi un poème sur des palmiers dans le style d'Emily Dickinson".
Génération de code : comme pour la génération de texte, les grands modèles de langage peuvent générer du code en tant qu'application de l'IA générative. Les grands modèles de langage peuvent générer du code syntaxiquement et logiquement correct à partir de suggestions d'entrée, en s'appuyant sur de grandes quantités de code de programmation dans différents langages.
Chatbots et IA conversationnelle : les grands modèles de langage alimentent les chatbots de service client et l'IA conversationnelle. Ils aident à interpréter les demandes des clients, à comprendre leurs intentions et à générer des réponses qui simulent une conversation humaine.

Article connexe : Comment créer un chatbot : conseils et recommandations à l'attention des développeurs

En plus de ces cas d'utilisation, les grands modèles de langage peuvent compléter des phrases, répondre à des questions et résumer un texte.

Avec une telle polyvalence d'application, les LLM sont présents dans de nombreux domaines :

Technologie : les grands modèles de langage sont utilisés dans diverses applications, telles que l'amélioration des réponses aux requêtes des moteurs de recherche et l'aide à la rédaction de code pour les développeurs.
Santé et science : les grands modèles de langage peuvent analyser des données textuelles relatives aux protéines, aux molécules, à l'ADN et à l'ARN, facilitant ainsi la recherche, le développement de vaccins, l'identification de traitements potentiels pour des maladies et l'amélioration de la médecine préventive. Les LLM sont également utilisés comme chatbots médicaux pour l'admission des patients ou pour diagnostiquer des cas de base, bien qu'ils nécessitent généralement une supervision humaine.
Service client : les LLM sont utilisés dans tous les secteurs dans le cadre du service client, sous la forme de chatbots ou d'IA conversationnelle par exemple.
Marketing : les équipes marketing peuvent utiliser les LLM pour l'analyse des sentiments, la génération de contenu ou d'idées de campagne, afin de générer du texte pour des présentations, des publicités et d'autres supports.
Domaine juridique : de la recherche dans de grands ensembles de données juridiques à la rédaction de documents juridiques, les grands modèles de langage peuvent assister les avocats, les assistants juridiques et le personnel juridique.
Banque : les LLMs peuvent aider à analyser les transactions financières et les communications avec les clients pour détecter d'éventuelles fraudes, souvent dans le cadre de systèmes plus larges de détection des fraudes.

Lancez-vous avec l'IA générative. Regardez ce webinar et explorez les défis et les opportunités de l'IA générative dans votre environnement d'entreprise.

Limitations et défis des LLMs

Les grands modèles de langage peuvent nous donner l'impression qu'ils comprennent le sens et peuvent répondre avec précision. Ils restent néanmoins des outils qui bénéficient d'une supervision humaine et qui sont confrontés à divers défis.

Hallucinations : une hallucination survient lorsqu'un LLM produit une sortie qui est fausse ou qui ne correspond pas à l'intention de l'utilisateur. C'est le cas par exemple s'il affirme qu'il est humain, qu'il a des émotions ou qu'il est amoureux de l'utilisateur. Étant donné que les grands modèles de langage prédisent le prochain mot ou la prochaine phrase syntaxiquement corrects, mais qu'ils ne peuvent pas totalement interpréter le sens humain, le résultat peut parfois donner ce que l'on appelle une "hallucination".
Sécurité : les grands modèles de langage présentent des risques de sécurité importants lorsqu’ils ne sont pas gérés ou monitorés de manière adéquate. Ils peuvent divulguer par inadvertance des informations privées provenant de données d'entraînement ou lors d'interactions, et être exploités à des fins malveillantes telles que le phishing ou la génération de spam. Les utilisateurs malveillants peuvent également exploiter les LLM pour propager des idéologies biaisées, de la désinformation ou du contenu préjudiciable.
Biais : les données utilisées pour entraîner les modèles de langage auront une incidence sur les sorties qu'ils généreront. Si les données d'entraînement manquent de diversité ou sont biaisées en faveur d'un groupe démographique spécifique, le modèle peut reproduire ces biais, ce qui se traduira par des sorties reflétant une perspective biaisée et probablement limitée. Assurer un ensemble de données d'entraînement diversifié et représentatif est essentiel pour réduire les biais dans les sorties des modèles.
Consentement : les grands modèles de langage sont entraînés à partir d'ensembles de données volumineux, dont certains peuvent avoir été collectés sans consentement explicite ou sans respecter les accords de droits d'auteur. Cela peut entraîner des violations des droits de propriété intellectuelle, lorsque le contenu est reproduit sans attribution appropriée ou sans autorisation. De plus, ces modèles peuvent collecter des données personnelles, ce qui soulève des questions relatives à la confidentialité.² Dans certains cas, des LLM ont été confrontés à des défis juridiques, notamment des poursuites intentées par des entreprises comme Getty Images³ pour violation de droits d'auteur.
Scaling : le scaling des LLMs peut être très gourmande en ressources et nécessiter une puissance de calcul importante. Assurer la maintenance de tels modèles implique des mises à jour, des optimisations et un suivi continus, ce qui en fait un processus à la fois long et coûteux. L'infrastructure nécessaire pour soutenir ces modèles est également considérable.
Déploiement : le déploiement des grands modèles de langage nécessite une expertise en matière d'apprentissage profond et d'architectures de transformateurs, ainsi que du matériel spécialisé et des systèmes logiciels distribués.

Avantages des LLMs

Prenant en charge un vaste éventail d'applications, les grands modèles de langage présentent des avantages significatifs pour la résolution de problèmes, étant donné qu'ils fournissent des informations dans un style clair et conversationnel, facile à comprendre pour les utilisateurs.

Vaste éventail d'applications : ils peuvent être utilisés pour la traduction, la complétion de phrases, l'analyse des sentiments, les questions-réponses, les équations mathématiques, et bien plus encore.
Amélioration continue : les performances des grands modèles de langage s'améliorent continuellement à mesure que des données et des paramètres supplémentaires sont intégrés. Cette amélioration dépend également de facteurs tels que l'architecture du modèle et la qualité des données d'entraînement ajoutées. En d'autres termes, plus un modèle apprend, plus il s'améliore. De plus, les grands modèles de langage peuvent présenter ce que l'on appelle ''l'apprentissage contextuel'', où le modèle peut effectuer des tâches sur la base des exemples fournis dans l'invite, sans avoir besoin d'entraînement ni de paramètres supplémentaires. Cela permet au modèle de généraliser et de s'adapter à diverses tâches à partir de quelques exemples (apprentissage en few-shot) ou même sans exemples préalables (apprentissage en zero-shot). Ainsi, il continue à apprendre de façon constante.
Apprentissage rapide : grâce à l'apprentissage contextuel, les LLM peuvent s'adapter à de nouvelles tâches avec un minimum d'exemples. Bien qu'ils ne nécessitent pas de formation ou de paramètres supplémentaires, ils peuvent répondre rapidement au contexte de la requête, ce qui les rend efficaces dans les scénarios où peu d'exemples sont fournis.

Exemples de grands modèles de langage populaires

Plusieurs grands modèles de langage ont connu une ascension fulgurante. Leur adoption s'est démocratisée dans tous les secteurs. Vous avez très probablement entendu parler de ChatGPT, une forme de chatbot d'IA générative.

Parmi les autres LLM populaires, citons :

PaLM : le modèle Pathways Language Model (PaLM) de Google est un modèle de transformateur capable de faire preuve de bon sens et de raisonner de manière arithmétique, d'expliquer une blague, de générer du code et d'effectuer des traductions.
BERT : le modèle de langage Bidirectional Encoder Representations from Transformers (BERT) a également été développé par Google. Il s'agit d'un modèle basé sur un transformateur, capable de comprendre le langage naturel et de répondre aux questions.
XLNet : modèle de langage de permutation, XLNet s’entraîne sur toutes les permutations possibles de jetons d’entrée, mais il génère des prédictions de manière standard de gauche à droite pendant l’inférence.
GPT : les transformateurs génératifs pré-entraînés constituent probablement les grands modèles de langage les plus connus. Développé par OpenAI, un GPT est un modèle de base populaire, dont les itérations numérotées sont des améliorations des versions précédentes (GPT-3, GPT-4, etc.). Les modèles GPT peuvent être ajustés pour des tâches spécifiques. Par ailleurs, d'autres organisations ont développé des modèles spécifiques à un domaine inspirés des principaux LLM, tels qu'EinsteinGPT de Salesforce pour les applications CRM et BloombergGPT pour les données financières.

Article connexe : le guide de prise en main des grands modèles de langage open source

Avancées à venir pour les grands modèles de langage

L'arrivée de ChatGPT a mis en avant les grands modèles de langage, entraînant spéculation et débats sur ce à quoi ressemblera l'avenir.

Étant donné que les grands modèles de langage continuent à prendre de l'essor et à améliorer leur maîtrise du langage naturel, il y a beaucoup d'inquiétudes quant à leurs répercussions à venir sur le marché du travail.

Même s'ils peuvent contribuer à améliorer la productivité et l'efficacité des processus lorsqu'ils sont mis entre de bonnes mains, des questions éthiques se posent en ce qui concerne leur utilisation dans la société humaine.

Découverte de l'Elasticsearch Relevance Engine

Pour pallier les limitations actuelles des LLM, Elasticsearch Relevance Engine (ESRE) est un moteur de pertinence conçu pour les applications de recherche adossées à l'intelligence artificielle. Avec ESRE, les développeurs ont la possibilité de créer leur propre application de recherche sémantique, utiliser leurs propres modèles de transformateurs, ainsi que combiner le NLP et l'IA générative pour améliorer l'expérience de recherche des clients.

Booster votre pertinence avec Elasticsearch Relevance Engine

Diagramme illustrant comment Elasticsearch utilise un grand modèle de langage pour fournir des résultats de requête de recherche.

Explorez d'autres ressources sur les grands modèles de langage

Notes de bas de page

Sarumi, Oluwafemi A. et Dominik Heider. "Large Language Models and Their Applications in Bioinformatics." Computational and Structural Biotechnology Journal, vol. 23 avril 2024, pp. 3498–3505.
https://www.csbj.org/article/S2001-0370(24)00320-9/fulltext.
Sheng, Ellen. "In generative AI legal Wild West, the courtroom battles are just getting started", CNBC, 3 avril 2023, https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html (consulté le 29 juin 2023).
Déclaration (en anglais) de Getty Images, Getty Images, 17 janvier 2023, https://newsroom.gettyimages.com/en/getty-images/getty-images-statement (consulté le 29 juin 2023).