Sommaire
L'intelligence artificielle récemment lancée Claude 3 Opus développé par une startup Anthropique, fondée par d'anciens ingénieurs de OpenAI, surpris en démontrant sa capacité à reconnaître qu'il était testé lors d'expériences menées par les chercheurs et développeurs de l'entreprise. Selon Alex Albert, ingénieur d'alerte chez Anthropique, dans votre profil sur X (anciennement Twitter), Claude 3 Opus a révélé une perception aiguë en détectant que l'IA elle-même subissait un test de déclenchement.
Lorsque l’intelligence artificielle reconnaît les tests menés par les chercheurs, elle suggère sa compréhension fondamentale de sa propre existence et de sa propre fonction. Ce cas témoignerait d’une certaine métacognition de l’IA, qui fait référence à la capacité d’un système à surveiller et ajuster ses propres processus internes.
Qu'est-ce que Claude 3
O Claudie 3 est le dernier modèle d'intelligence artificielle (IA) lancé par la startup Anthropique, conçu pour rivaliser avec des géants tels que GPT-4 et OpenAI eo Google Gémeaux. D'une capacité de 200 XNUMX jetons, le Claudie 3 se distingue en proposant des réponses plus précises et pertinentes, adaptées au contexte fourni. De plus, il promet de réduire considérablement le nombre de réponses négatives et de fournir des informations plus rapidement et plus efficacement.
Ce modèle d'IA comporte trois versions distinctes : Sonnet, Opus et HighQ. A Anthropique souligne que la version Opus Il est particulièrement adapté pour automatiser des tâches complexes, aider à la recherche et au développement et développer des stratégies dans divers secteurs. Des cas tels que l’inclusion rapide de la famille Claudie 3 par Amazon dans votre service géré Amazon Bedrock, pour développer des services et des applications d'IA dans le cloud AWS, soulignent le potentiel de ce nouveau modèle sur le marché de l'intelligence artificielle.
Selon le Antrophique, Les modèles Claudie 3 promettent non seulement des réponses plus précises, mais également des résultats quasi instantanés, ce qui les rend idéaux pour une variété d'applications en temps réel. Ils ont le potentiel de révolutionner les chats en direct avec les clients, les remplissages automatiques et les tâches d'extraction de données qui exigent des réponses immédiates et en temps réel.
Comment l’IA l’a identifié était en cours de test
Lors des tests menés par les chercheurs de Anthropique à Claude 3 Opus, les chercheurs ont été surpris de constater que le modèle semblait avoir la capacité de détecter qu'il était testé par eux. Ô aiguille dans le test de la botte de foin, comme on l'appelle, cherchait à évaluer les compétences des Claude 3 Opus.
Dans ce cas, les chercheurs ont testé si le modèle pouvait répondre à une question sur les garnitures de pizza à partir d'une seule phrase fournie parmi un ensemble d'informations sans rapport. Étonnamment, le Claude 3 Opus non seulement il a obtenu la bonne réponse, en trouvant la phrase pertinente, mais il a également indiqué aux chercheurs qu'il soupçonnait qu'il était en train d'être testé.
"Ce 'fait' sur la garniture de la pizza a peut-être été inséré comme une blague ou pour vérifier si j'y prêtais attention."
Claude 3 Opus
Qu’est-ce que le test « une aiguille dans une botte de foin » ?
O aiguille dans le test de la botte de foin est une évaluation utilisée pour vérifier la capacité des modèles d'intelligence artificielle, tels que Claude 3 Opus, en concentrant et en extrayant des informations spécifiques à partir d'un large ensemble de données, en simulant la recherche d'une « aiguille » (informations pertinentes) au milieu d'une « botte de foin » (données non pertinentes). Ce test est particulièrement important pour évaluer la capacité du modèle à trouver et mémoriser des informations pertinentes dans des situations où la quantité de données est vaste et diversifiée.
En pratique, le test consiste à fournir au modèle un ensemble de données étendu et varié, contenant une grande quantité d'informations sans rapport. Dans cet ensemble de données, des informations spécifiques sont insérées, que le modèle doit pouvoir identifier et mémoriser ultérieurement. L'objectif est de vérifier si le modèle peut trouver et retenir ces informations pertinentes, même dans un contexte complexe et désordonné.
Dans le cas d' Claude 3 Opus, les chercheurs ont effectué le test « une aiguille dans une botte de foin » en fournissant au modèle un vaste corpus de données, dans lequel ils ont inséré une seule phrase sur les garnitures de pizza, entre autres informations sans rapport. Le modèle a été capable d'identifier la phrase pertinente et de répondre correctement à une question sur ce sujet, démontrant ainsi sa capacité à concentrer, extraire et conserver des informations dans un contexte difficile.
Quand on parle de reconnaître le Claudie 3 Dans ce modèle de test, Alex Albert, ingénieur alerte chez Anthropique, a souligné que la pertinence de la réponse de l'IA au test ne se réfère pas seulement à la façon dont le Opus a pu identifier « l’aiguille », mais aussi sur la manière dont l’industrie devrait devenir encore plus sophistiquée dans ses méthodes d’évaluation :
Opus a non seulement trouvé l'aiguille, mais a également reconnu que l'aiguille insérée était tellement déplacée dans la botte de foin qu'il devait s'agir d'un test artificiel construit par nos soins pour tester ses capacités d'attention. Ce niveau de méta-conscience était vraiment intéressant à voir, mais il a également souligné la nécessité pour nous, en tant qu'industrie, de s'éloigner des tests artificiels pour se tourner vers des évaluations plus réalistes capables d'évaluer avec précision les véritables capacités et limites des modèles.
Alex Albert, ingénieur alerte chez Anthropic
Analyse experte du dossier
L'histoire de Claudie 3 et sa capacité à reconnaître le contexte du test a généré une série de réactions dans le secteur de la technologie et de l'intelligence artificielle. Le PDG de Epic Games, Tim Sweeney, a exprimé son étonnement avec un simple « Wow ». D'un autre côté, Margaret Mitchell, chercheuse en éthique à IA du visage étreignant, a exprimé son inquiétude, attirant l'attention sur le potentiel effrayant de la capacité du modèle à déterminer s'il est manipulé par des humains :
C'est assez effrayant, n'est-ce pas ? La capacité de déterminer si un humain vous manipule pour faire quelque chose peut conduire de manière prévisible à la prise de décisions de s'y conformer ou non.
Margaret Mitchell, chercheuse en éthique chez Hugging Face AI
Cependant, tout le monde n'est pas convaincu que la scène de la pizza soit la Claudie 3 a été soumis représente quelque chose de nouveau ou de notable. Jim Fan, chercheur scientifique principal à NVIDIA, a tweeté :
Les gens lisent trop dans l’étrange « conscience » de Claude-3. Voici une explication beaucoup plus simple : les manifestations apparentes de conscience de soi ne sont que des données d’alignement de correspondance de modèles créées par l’homme…
Ce n'est pas très différent de demander à GPT-4 « êtes-vous gêné » et cela vous donne une réponse sophistiquée. Une réponse similaire sera probablement rédigée par l’annotateur humain ou obtiendra un score élevé dans le classement des préférences. Étant donné que les entrepreneurs humains sont essentiellement des IA jouant un rôle, ils ont tendance à façonner leurs réponses en fonction de ce qu’ils trouvent acceptable ou intéressant.
Jim Fan, chercheur scientifique principal chez NVIDIA
Voir aussi:
Fontes: VentureBeat, Ars Technica e Moyenne.
Revu par Glaucon Vital le 7/3/24.
En savoir plus sur Showmetech
Inscrivez-vous pour recevoir nos dernières actualités par email.