Sommaire
Quiconque se demande comment le ChatGPT, l'agent d'IA le plus populaire aujourd'hui fonctionne, beaucoup auront la réponse sur le bout de la langue : l'intelligence artificielle. Mais cette réponse est très vague. Bien qu’il s’agisse de l’un des domaines d’études faisant l’objet de la plus grande recherche et du plus grand développement en informatique aujourd’hui, l’intelligence artificielle englobe plusieurs thèmes scientifiques.
L’un d’entre eux est la clé du fonctionnement de ChatGPT et de la plupart des agents d’IA disponibles sur le Web : les LLM. Dans cet article, nous explorerons en détail comment ce concept a révolutionné l’intelligence artificielle et notre monde.
Que sont les grands modèles de langage (LLM) ?
grands modèles linguistiques (LLM, Large Language Models, en portugais) sont des algorithmes pour L'apprentissage en profondeur (Deep Learning, en portugais) capable d'effectuer une série de tâches Traitement du langage naturel (Traitement du langage naturel, en portugais). Ouf, tellement d'acronymes, n'est-ce pas ?
Les LLM utilisent des modèles de transformateurs et sont formés à l’aide d’ensembles de données massifs. Voici quelques exemples d’ensembles de données populaires : LAION-2B-fr, Prolongation CCW e Texte Wiki-103. Un modèle de transformateur peut ressembler à un robot qui se transforme en voiture, mais dans le domaine de l'IA, c'est l'architecture la plus courante pour un LLM.
Le transformateur est constitué d'un codeur (encodeur, en portugais) et un décodeur (décodeur, en portugais). Fondamentalement, l'encodeur est chargé de séparer les mots d'une phrase ou d'un texte en petites parties appelées jetons, et le décodeur effectue des opérations mathématiques pour identifier les relations entre ces jetons.

La grande différence entre les transformateurs et l’architecture utilisée il y a des années, LSTM (Mémoire à long terme, ou mémoire à long terme (Long Short Term Memory), est que les transformateurs fonctionnent avec des mécanismes d'auto-attention, c'est-à-dire qu'ils sont capables d'apprendre plus rapidement lorsqu'ils considèrent des parties d'une phrase ou même son contexte, pour générer des prédictions.
Les LLM sont des systèmes d’IA polyvalents qui, en plus de pouvoir traiter le langage humain, peuvent également effectuer d’autres tâches telles que l’analyse des structures protéiques et la génération de code de programmation. Pour fonctionner efficacement, les LLM nécessitent une formation préalable et un réglage minutieux pour gérer des fonctions telles que la classification de texte, le résumé et la réponse aux questions, ce qui les rend précieux pour des secteurs tels que la santé, la finance et le divertissement.
Composants de la clé
Les LLM sont composés de plusieurs couches de réseaux neuronaux. Dans un réseau neuronal (Réseau neuronal, en anglais), une variable est utilisée comme entrée, traitée avec différents poids et équations mathématiques par une ou plusieurs couches, et une valeur de sortie est générée.
Le premier type de réseau neuronal présent dans les LLM est la couche d'intégration (couche d'incorporation, En anglais). Il est responsable du processus d'intégration, capturant la sémantique et la signification syntaxique de l'entrée, afin que le modèle puisse comprendre le contexte.
Ensuite, nous avons la couche feedforward (FFN, Feedforward Network, en anglais) qui est composée de plusieurs couches interconnectées qui transforment les entrées d'intégration. Dans ce processus, ces couches permettent au modèle de collecter des abstractions de niveau supérieur, c'est-à-dire de comprendre l'intention de l'utilisateur avec la saisie de texte.

Ensuite, nous avons la couche récurrente qui interprète les mots du texte d’entrée en séquence. Il est chargé de saisir la relation entre les mots d’une phrase.
Enfin et surtout, nous disposons du mécanisme d’attention qui permet au LLM de se concentrer sur des parties uniques du texte d’entrée qui sont pertinentes pour la tâche assignée. Cette couche permet au modèle de générer les sorties les plus appropriées et les plus précises.
Comment ils travaillent
Maintenant que nous savons ce que sont les LLM et quels sont leurs composants clés, nous pouvons comprendre plus clairement comment ils fonctionnent. Fondamentalement, les LLM basés sur des transformateurs prennent une entrée, l'encodent, puis la décodent pour produire une sortie prédite. Cependant, avant qu'un LLM puisse prendre une entrée de texte et générer une sortie prédite, il a besoin d'une formation pour exécuter des fonctions générales et d'un réglage fin pour lui permettre d'effectuer des tâches spécifiques.
Pré-formation (Pré-formation, en anglais) est un procédé classique dans le domaine de Apprentissage automatique (Machine Learning, en anglais) au sein de l'intelligence artificielle. Ce processus, comme son nom l'indique, consiste à pré-former les LLM en utilisant de grands ensembles de données textuelles de milliards de mots provenant de sites Web tels que Wikipédia, GitHub, entre autres. Après tout, le LLM doit apprendre de quelque part, comme d’un petit enfant, n’est-ce pas ?
Au cours de cette étape, le LLM effectue ce que l'on appelle un apprentissage non supervisé (Apprentissage non supervisé, en anglais) – un processus dans lequel les ensembles de données sont simplement lus sans instructions de manipulation spécifiques. En d’autres termes, sans « instructeur », l’algorithme d’IA du LLM est chargé d’apprendre le sens de chaque mot et les relations entre eux. De plus, le LLM apprend également à distinguer les mots en fonction du contexte. Par exemple, elle apprend à comprendre si « droite » signifie « correct » ou est simplement « l’opposé de gauche ».
Maintenant, le processus de réglage fin (Réglage fin, en anglais) sert à « ajuster » précisément le LLM pour effectuer efficacement des tâches spécifiques, telles que la traduction de texte, en optimisant ses performances. L'ajustement des invites (questions et instructions données au LLM) fonctionne comme une sorte de réglage fin, car il est capable de former le modèle à effectuer une certaine tâche.
Pour qu'un grand modèle de langage puisse effectuer une tâche spécifique, telle que la traduction, il doit être réglé pour cette tâche spécifique. Le réglage fin optimise les performances pour des tâches spécifiques.
Le réglage rapide remplit une fonction similaire au réglage fin, en entraînant un modèle à effectuer une tâche spécifique via des invites à quelques essais ou des invites à zéro essai. Vous trouverez ci-dessous un exemple d’exercice d’« analyse des sentiments » utilisant une invite à quelques prises :
Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo
Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo
Sur la base des résultats obtenus dans cet exemple, LLM comprendrait, grâce au sens sémantique de « horrible » et parce qu’un exemple opposé a été fourni, que le sentiment de l’utilisateur dans le deuxième exemple est « négatif ».
Scénarios d'utilisation
Comme nous l’avons mentionné précédemment, les LLM peuvent être utilisés à plusieurs fins :
- Récupération d'informations : Dans ce cas, nous pouvons imaginer son utilisation dans les moteurs de recherche Web, tels que Google ou Bing. Lorsqu'un utilisateur utilise la fonction de recherche de ces services, il utilise les LLM pour produire des informations sous la forme d'une réponse à sa demande. Les LLM sont capables de récupérer des informations, de les résumer et de communiquer la réponse sous la forme d'une conversation avec l'utilisateur.
- Génération de texte et de code de programmation:Les LLM sont le principal « moteur » derrière l’IA générative comme ChatGPT, et peuvent générer du texte et du code de programmation en fonction des entrées et des invites. Par exemple, chatGPT est capable de comprendre des modèles et peut répondre efficacement aux demandes des utilisateurs telles que « écrire un poème sur les fleurs dans le style de Manuel Bandeira » ou « écrire un code Python capable de trier une liste de films par ordre alphabétique ».
- Chatbots et IA conversationnelles : Les LLM sont déjà en mesure d’offrir un service client par l’intermédiaire d’agents chatbot qui conversent avec les consommateurs, interprètent le sens de leurs questions et préoccupations et proposent des réponses ou des conseils appropriés.
Outre ces scénarios d’utilisation, les LLM s’avèrent être un outil d’IA prometteur dans les domaines de la technologie, de la santé et des sciences, du marketing, du droit et également pour une utilisation dans les systèmes bancaires. Pour vous donner une idée, les LLM sont actuellement capables de prédire avec un haut degré de précision survenue d'un cancer du sein en analysant simplement des ensembles d’échantillons de cellules avec un niveau de précision plus élevé que celui de nombreux cliniciens expérimentés.

LLM et transformateur pré-entraîné génératif (GPT)
O Transformateur pré-formé génératif (GPT) est un type spécifique de LLM qui utilise une architecture de transformateur et a été développé par la société OpenAI. Il est conçu pour comprendre, générer et manipuler le langage naturel (comme le portugais ou l'anglais) de manière très efficace et réaliste.
En décomposant le nom, nous pouvons mieux comprendre ce qu'est un GPT :
- Génératif (Génératif, en portugais) : indique que le modèle génère du texte, c'est-à-dire qu'il est capable de produire de nouvelles phrases, réponses, résumés, codes, etc.
- Pré-formé (Pré-entraîné, en portugais) : Cela signifie qu'il est pré-entraîné sur une grande quantité de texte provenant d'Internet, tels que des livres, des articles, des sites Web et autres. Il peut ensuite être ajusté pour des tâches spécifiques.
- transformateur: Comme nous l’avons mentionné précédemment, il s’agit de l’architecture du réseau neuronal qui fournit la base du modèle. Il est hautement parallélisable (peut exécuter plusieurs tâches simultanément) et efficace pour gérer de longues séquences de texte.

La grande différence entre le GPT et les autres LLM est sa phase de formation, qui se compose de 3 processus différents :
- Pré-formation : D’énormes quantités de données sont extraites d’Internet, de livres et même de vidéos et de musique, puis transformées en jetons.
- Instructions de réglage fin : Ici, le modèle « apprend » comment il doit répondre à des instructions spécifiques, en alignant ses réponses afin qu’elles soient plus précises.
- Apprentissage par renforcement par rétroaction humaine : similaire au réglage fin, ici « l’enseignement » se fait par le biais d’un retour humain qui induit le processus d’« apprentissage par renforcement », où l’IA apprend ce qui est « bien » et ce qui est « mal » à travers des répétitions et des informations fournies par un agent externe, dans ce cas, l’utilisateur qui utilise l’IA.
Histoire : des milliards de mots aux textes complexes
Bien que l'essor des modèles linguistiques n'ait eu lieu qu'en 2017, les modèles d'alignement d'IBM ont été depuis 1990 des pionniers dans la modélisation statistique du langage. En 2001, un modèle formé sur 3 millions de mots a atteint le "état de l'art" en termes de précision dans l'interprétation des textes et la construction de phrases cohérentes.
À partir de 2012 Les réseaux de neurones a gagné en importance dans le monde de l’IA et a rapidement commencé à être utilisé pour des tâches linguistiques. En 2016, Google a adopté le Traduction automatique neurale (Traduction automatique neuronale, en portugais) en utilisant des modèles basés sur ce concept. En 2018, la société OpenAI s'est lancée dans le développement d'agents d'IA basés sur des LLM et a lancé GPT-1 pour les tests, et ce n'est que l'année suivante que GPT-2 a commencé à attirer l'attention du public en raison de ses utilisations potentiellement contraires à l'éthique.
En 2020 le GPT-3 est arrivé avec un accès restreint uniquement via API, mais ce n'est qu'en 2022 que ChatGPT (l'agent IA « alimenté » par GPT-3) a capté l'attention du public du monde entier.
Le lancement du GPT-4 est prévu pour 2023 avec des capacités multimodales, bien que les détails techniques n'aient pas été publiés. En 2024, OpenAI a lancé le modèle o1, axé sur la génération de longues chaînes de raisonnement. Ces outils ont favorisé l’adoption généralisée des LLM dans divers domaines de recherche.
En 2024, tous les LLM les plus grands et les plus efficaces sont basés sur l'architecture du transformateur, certains chercheurs expérimentant et testant avec d'autres architectures, telles que Réseaux neuronaux récurrents (Réseaux de neurones récurrents, en portugais).
Les avantages et les limites des LLM
Avec une large gamme d’applications, les LLM sont exceptionnellement bénéfiques pour la résolution de problèmes car ils fournissent des informations dans un style clair et simple, facile à comprendre pour les utilisateurs. De plus, ils peuvent être utilisés pour la traduction de langues, la complétion de phrases, l'analyse des sentiments, la réponse à des questions, les équations mathématiques, etc.
Les performances des LLM s’améliorent constamment à mesure qu’elles se développent et que davantage de données et de paramètres sont ajoutés. En d’autres termes, plus vous apprenez, meilleur vous devenez. De plus, les grands modèles linguistiques peuvent présenter ce que l’on appelle « l’apprentissage en contexte ». Une fois qu'un LLM a été pré-entraîné, l'invite à quelques coups permet au modèle d'apprendre à partir de l'invite sans aucun paramètre supplémentaire. De cette façon, il apprend continuellement.
En démontrant l’apprentissage en contexte, les LLM apprennent rapidement car ils ne nécessitent pas de poids, de ressources et de paramètres supplémentaires pour la formation. Ils sont rapides dans le sens où ils n’ont pas besoin de beaucoup d’exemples pour devenir plus « intelligents ».

Une caractéristique clé des LLM est leur capacité à répondre à des questions imprévisibles. Un programme informatique traditionnel, par exemple, reçoit des commandes dans sa syntaxe acceptée ou à partir d’un ensemble donné d’entrées utilisateur. D’autre part, un LLM peut répondre au langage humain naturel et utiliser l’analyse de données pour répondre à une question ou à une demande non structurée d’une manière qui a du sens. Alors qu'un programme informatique typique ne reconnaîtrait pas une question comme « Quels sont les cinq plus grands groupes de rock de l'histoire ? », un LLM pourrait répondre avec une liste de cinq de ces groupes et un argument raisonnablement convaincant expliquant pourquoi ils sont les meilleurs.
Cependant, en termes d’informations qu’ils fournissent, les LLM ne peuvent être fiables que dans la mesure où les données qu’ils reçoivent le sont. S’ils reçoivent de fausses informations lors de la phase de pré-formation, ils fourniront de fausses informations en réponse aux requêtes des utilisateurs. Parfois, les LLM peuvent également « halluciner » en créant des réponses et même de fausses sources littéraires lorsqu’ils ne sont pas en mesure de produire une réponse précise.
Par exemple, en 2022, l’agence de presse Fast Company a demandé à ChatGPT des informations sur le trimestre financier précédent de l'entreprise Tesla. Bien que ChatGPT ait fourni un article d’actualité cohérent en réponse, une grande partie des informations qu’il contenait étaient inventées. Puisqu’il s’agit d’un système basé sur l’IA, on sait qu’il s’améliore constamment, mais il est toujours incorrect de faire confiance à 100 % aux réponses produites par les LLM.
En termes de sécurité, les applications orientées utilisateur basées sur les LLM sont aussi sujettes aux bugs que n’importe quelle autre application. Les LLM peuvent également être manipulés par des données malveillantes pour fournir certains types de réponses plutôt que d’autres, y compris des réponses dangereuses ou contraires à l’éthique.

Enfin, l’un des problèmes de sécurité des LLM est que les utilisateurs peuvent télécharger des données sécurisées et confidentielles pour augmenter leur propre productivité. Mais les LLM utilisent les entrées qu'ils reçoivent pour former davantage leurs modèles et ne sont pas conçus pour être des coffres-forts sécurisés, car ils peuvent exposer des données sensibles en réponse aux requêtes d'autres utilisateurs.
Les LLM et l'intelligence derrière les mots
Comme un enfant lâché dans une bibliothèque géante, les LLM sont des systèmes d’IA intelligents qui apprennent à comprendre et à reproduire le langage humain naturel à partir de quantités massives de données. Bien qu'ils offrent de nombreux avantages aux utilisateurs ordinaires et deviennent un outil auxiliaire puissant dans l'environnement professionnel, les capacités et les dangers des LLM doivent encore être étudiés très attentivement.
Et vous, qu'avez-vous pensé de l'explication dans cet article sur les LLM ? Laissez votre avis dans les commentaires.
Voir plus
Fontes: ElasticSearch, Tarifs cloud, IBM
Revu par Tiago Rodrigues le 16/04/2025
En savoir plus sur Showmetech
Inscrivez-vous pour recevoir nos dernières actualités par email.