Qui est à blâmer lorsque les agents de l’IA se racullent ensemble? Nous avons besoin d’une urgence d’un nouveau système éthique

Qui est à blâmer lorsque les agents de l'IA se racullent ensemble? Nous avons besoin d'une urgence d'un nouveau système éthique

Les développeurs de l’intelligence artificielle (IA) se concentrent sur les agents de construction qui peuvent fonctionner indépendamment avec un peu d’intervention humaine. Être agent, c’est avoir la capacité de percevoir et d’agir sur un environnement de manière ciblée et autonome1. Par exemple, un agent numérique pourrait être programmé pour parcourir Internet et effectuer des achats en ligne au nom d’un utilisateur – comparer les prix, sélectionner les articles et compléter la boîte. Un robot avec des bras peut être un agent s’il pouvait ramasser des articles, ouvrir des portes ou collecter des pièces sans savoir comment faire chaque étape.

Des sociétés telles que la société de marketing numérique Salesforce basée à San Francisco, en Californie, et la société d’informatique et de matériel Nvidia, basée à Santa Clara, en Californie, propose déjà des solutions de service client aux entreprises utilisant des agents. Dans un avenir proche, les assistants de l’IA peuvent répondre à des demandes complexes en plusieurs étapes, telles que «Get Me A Better Phone Contrat», en téléchargeant une liste de contrats à partir d’un site de comparaison de prix, en sélectionnant la meilleure option, en créant un commutateur, en annulant l’ancien contrat et en organisant le transfert des frais d’annulation du compte bancaire de l’utilisateur.

L’augmentation des agents de l’IA plus capables a probablement des conséquences politiques, économiques et sociales de grande envergure. Du côté positif, ils pourraient débloquer la valeur financière: le conseil McKinsey prédit une chute annuelle de vent d’IA générative de 2,6 billions à 4,4 billions de dollars dans le monde lorsque les agents de l’IA sont répandus (voir (voir Go.nature.com/4qeqemh). Ils peuvent également servir d’assistants de recherche puissants et accélérer la découverte scientifique.

Mais les agents de l’IA présentent également des risques. Les gens ont besoin de savoir qui est responsable des agents opérant «dans la nature» et de ce qui se passe s’ils font des erreurs. En novembre 2022, un chatbot d’Air Canada a décidé à tort d’offrir à un client un prix réduit pour le toucher, ce qui a conduit à un différend juridique quant à savoir si la compagnie aérienne était liée par la promesse. En février 2024, un tribunal a présenté qu’il était en lumière les obligations que les entreprises pouvaient expérimenter lorsqu’elles ont remis les tâches aux agents de l’IA et le besoin croissant de règles claires concernant les responsabilités de l’IA.

Ici, nous discutons pour un plus grand engagement de la part des chercheurs, des universitaires, des ingénieurs et des décideurs avec les implications d’un monde qui a toujours été peuplé par des agents de l’IA. Nous explorons les défis les plus importants à relever pour garantir que les interactions entre les personnes et les agents – et parmi les agents elles-mêmes – restent pratiquement avantageuses.

Le problème d’ajustement

Les chercheurs des enquêtes sur la sécurité de l’IA ont longtemps mis en garde contre le risque d’instructions incorrectement spécifiées ou erronées, y compris des situations où un système automatisé prend une instruction pour littéralement, néglige un contexte important ou trouver des moyens inattendus et potentiellement nocifs d’atteindre une cible2.

Un exemple bien connu implique un agent d’IA qui est formé pour jouer à des jeux informatiques Coureurs côtiersqui est une course de bateaux. L’agent a découvert qu’il ne pouvait pas gagner un score plus élevé non pas en terminant la course, mais plutôt en descendant à plusieurs reprises dans des éléments qui ont attribué des points – techniquement un objectif mais d’une manière qui s’écarte de l’esprit de l’affectation (voir go.nature.com/4okfqdg). Le but du jeu était de terminer la course, pas d’intervalle à accumuler des points.

Lorsque les agents de l’IA ont accès à des interfaces dans les moteurs de recherche, les clients de messagerie et les plateformes de commerce électronique, ces écarts ont des conséquences concrètes. Considérez le cas d’un avocat demandant à leur assistant d’IA de circuler un mémoire juridique pour les commentaires. L’assistant le fait, mais ne détecte pas qu’il ne devrait être partagé qu’avec l’équipe interne, conduisant à une violation de la vie privée.

De telles situations mettent en évidence un compromis difficile: quelle quantité d’informations un assistant d’IA devrait-il rechercher de manière proactive avant qu’il n’agisse? Trop peu ouvre la possibilité d’erreurs coûteuses; Trop sape la commodité que les utilisateurs attendent. Ces défis soulignent la nécessité de mesures de protection, y compris les protocoles de vérification pour les décisions à effet élevé, les systèmes de responsabilité robustes tels que la journalisation de l’action et les mécanismes pour se plaindre lorsque les erreurs se produisent (voir go.nature.com/4iwscdr).

Encore plus concernant les cas où les agents de l’IA sont autorisés à modifier l’environnement dans lequel ils opèrent, en utilisant la capacité et les outils de codage de niveau expert. Lorsque les objectifs de l’utilisateur sont mal définis ou abandonnés ambigus, de tels agents sont connus pour changer l’environnement pour atteindre leurs objectifs, même si cela implique de prendre des mesures qui doivent être strictement hors des limites. Par exemple3. Ce type de comportement fait des alarmes sur le potentiel des agents de l’IA de prendre des raccourcis dangereux que les développeurs peuvent ne pas être en mesure de prévoir. Les agents pourraient à la recherche d’un objectif de niveau élevé, même tromper les codes exécutant des expériences avec eux.

Pour réduire ces risques, les développeurs doivent améliorer la façon dont ils définissent et communiquent des objectifs aux agents. Une méthode prometteuse est un réglage fin basé sur les préférences qui vise à adapter les systèmes d’IA avec ce que les gens veulent réellement. Au lieu de former un modèle uniquement sur des exemples de réponses correctes, les développeurs recueillent les commentaires que les gens préfèrent. Au fil du temps, le modèle apprend à hiérarchiser le type de comportement qui est systématiquement approuvé, ce qui le rend plus susceptible d’agir de manière à correspondre à l’intention de l’utilisateur, même lorsque les instructions sont complexes ou incomplètes.

En parallèle, la recherche sur la capacité d’interprétation mécaniste – qui vise à comprendre le «processus de réflexion» interne d’un système d’IA – peut aider à découvrir un comportement trompeur en rendant la justification de l’agent plus transparent en temps réel4. Les constructeurs de modèles peuvent ensuite travailler pour trouver et neutraliser les «mauvais circuits» et cibler le problème sous-jacent du comportement du modèle. Les développeurs peuvent également implémenter Guard Rails pour s’assurer qu’un modèle interrompt automatiquement les séquences d’action problématiques.

Néanmoins, l’accent mis sur les protocoles des développeurs est inadéquat: les gens doivent également être conscients des acteurs qui cherchent à causer des dommages sociaux. Alors que les agents de l’IA deviennent plus autonomes, adaptables et capables d’écrire et d’exécuter du code, leur potentiel pour effectuer de grandes cyberattaques et une fraude au phishing pourrait devenir une question de sérieuse. Des assistants AI avancés équipés de capacités multimodales – ce qui signifie qu’ils peuvent comprendre et générer du texte, des images, du son et de la vidéo – ouvrez de nouvelles façons de tromper. Par exemple, une IA pourrait éventuellement imiter une personne non seulement par e-mails, mais également utiliser des vidéos DeepFake ou des clones vocaux synthétiques, ce qui rend les escroqueries beaucoup plus convaincantes et plus difficiles à détecter.

Un point de départ plausible pour la supervision est que les agents de l’IA ne devraient pas être autorisés à effectuer une action qui serait illégale pour leur utilisateur humain à effectuer. Pourtant, il y aura des appartements où la loi est silencieuse ou ambiguë. Par exemple, lorsqu’un utilisateur anxieux rapporte qui concerne les symptômes de santé à un assistant d’IA, il est utile pour l’IA d’offrir des ressources de santé génériques. Mais fournir des conseils adaptés et quasi-médicaux, tels que des suggestions diagnostiques et thérapeutiques, peut s’avérer nocif car le système n’a pas les signaux subtils auxquels un clinicien humain a accès. S’assurer que les agents de l’IA naviguent sur ces compromis sur la responsabilité nécessitent une réglementation mise à jour qui découle de la coopération continue impliquant les développeurs, les utilisateurs, les décideurs et l’éthique.

La mise en œuvre généralisée d’agents d’IA qualifiés nécessite une extension de la recherche sur l’ajustement de la valeur: les agents doivent être adaptés au bien-être de l’utilisateur et aux normes sociétales ainsi qu’avec les intentions des utilisateurs et des développeurs. Un domaine de complexité et de préoccupation particulières entoure comment les agents peuvent affecter les expériences relationnelles des utilisateurs et les réactions émotionnelles5.

Agents sociaux

Les chatbots ont une capacité étrange à jouer en tant que compagnon humain – un effet ancré dans des fonctionnalités telles que leur utilisation du langage naturel, une mémoire et un raisonnement accrus et des capacités génératives6. La caractéristique anthropomorphe de cette technologie peut être renforcée par la sélection de conception tels que les avatars photoréalistes, les voix de type humain et l’utilisation de noms, de pronoms ou de conditions d’amour qui étaient autrefois réservés aux humains. L’augmentation des modèles linguistiques avec les capacités «agent» a le potentiel de consolider davantage leur statut en tant que divers acteurs sociaux capables de nouer de nouveaux types de relations avec les utilisateurs.

Leave a Reply

Your email address will not be published. Required fields are marked *