NETWORK DES SCIENCES SOCIALES DE CHINE
Recherches interdisciplinaires
ACCUEIL>RECHERCHES>Recherches interdisciplinaires
L'AGI incarnée : Relever les défis via AEAI
Source : Chinese Social Sciences Today 2025-03-21

Au cours des 70 dernières années, les chercheurs ont considérablement élargi les horizons de l'intelligence artificielle (IA). En tant que voie potentielle vers l'intelligence artificielle générale (AGI), les récents efforts universitaires et industriels ont cherché à affiner l'IA générative pour en faire une infrastructure fondamentale pour le développement de l'IA. En mettant l'accent sur l'action agentique et en plaidant pour une « Affordance-Enactive AI » (AEAI) - centrée sur les « modèles du monde local », la « généralité de la niche écologique » et l'« agence autonome » - nous pourrions tracer une nouvelle voie qui dépasse la fixation actuelle sur l'intelligence monolithique et universelle.

De la théorie de l'affordance à l'AEAI

L'aube de l'IA incarnée est à nos portes. Bien avant l'émergence de concepts tels que le « test de Turing incarné » ou l'« AGI incarnée », les chercheurs exploraient depuis longtemps la cognition incarnée, formant l'école de la cognition générative. Cette tradition examine la conscience et la cognition sous l'angle des « niches écologiques ». Au cœur de cette tradition se trouvent les « affordances » de James J. Gibson, c'est-à-dire les possibilités d'action qu'un environnement offre à un agent. Les travaux pionniers de Gibson ont révolutionné notre compréhension de la perception, en soutenant que les animaux perçoivent directement les possibilités d'action par le biais de stimuli visuels. Par exemple, une chaise « permet » de s'asseoir, tandis qu'une porte « permet » de passer. Ces affordances ne sont pas statiques ; elles dépendent de la posture physique, des compétences et des intentions de l'observateur. Dans le domaine de l'IA, les « affordances » et le « flux optique » constituent un cadre solide pour modéliser la danse complexe entre les agents intelligents et leur environnement. Ils se sont révélés inestimables dans des domaines tels que l'interaction homme-machine, la conduite autonome, la perception multimodale et le domaine en plein essor de l'intelligence incarnée.

Gibson a initialement inventé le terme « affordances » pour souligner le rôle décisif de la perception visuelle dans la réalisation de l'action animale, mettant ainsi en évidence le lien étroit entre la perception et l'action. Pour rendre hommage à son influence durable sur l'IA, le Stanford AI Lab a développé « iGibson », un environnement virtuel conçu pour former des agents à des tâches interactives. S'appuyant sur cette base, Fei-Fei Li a identifié l'IA incarnée, le raisonnement visuel et la compréhension des scènes comme des domaines critiques de l'« étoile polaire » pour la recherche future. L'objectif est de doter les machines de la capacité d'interpréter les relations 3D à partir de scènes 2D, de décoder les dynamiques sociales et d'exécuter des tâches humaines complexes.

La solution prometteuse consiste à intégrer des modèles à grande échelle dans des agents intelligents. L'IA générative multimodale, capable de traiter des données diverses, permet de créer un triangle « langage-visuel-action » — une intégration transparente de la compréhension et de l'exécution. Une percée dans cette direction a été réalisée avec « Voxposer », un agent qui associe des algorithmes basés sur l'affordance à une technologie d'IA générative. Salué comme une étape importante, Voxposer démontre comment de grands modèles peuvent être intégrés dans des entités physiques dans des scénarios du monde réel. Sans formation supplémentaire, il déduit les contraintes d'accessibilité d'un objet à partir d'instructions en langage naturel, traduisant la triade « langage-visuel-action » et des directives complexes en plans d'action concrets. L'émergence de l'intelligence spatiale est un signe supplémentaire de l'engagement croissant de l'industrie envers les agents incarnés.

Cependant, notre position est la suivante : alors que la communauté de l'IA et les médias se focalisent souvent sur la vision de l' « AGI incarnée », nous pensons que l'avenir de l'humanité a besoin d'agents d'IA capables d'interagir librement avec les humains, de se comprendre mutuellement, de coexister harmonieusement et d'agir de manière appropriée dans le monde réel. Si les conditions d'intégration de grands modèles de langage avec des algorithmes d'affordance pour permettre l'interaction homme-machine ne sont pas clairement définies - comme le prévoient le « paradoxe du général incarné » et ses risques inhérents -, des obstacles théoriques et pratiques persisteront. Si ces obstacles ne sont pas surmontés, l'AGI incarnée risque de rester une utopie inaccessible. Alors, quelles devraient être nos véritables aspirations et où pourrait se trouver un consensus théorique ?

AEAI : application à travers les niches écologiques

Sur la base de l'étude approfondie des fondements de la technologie de l'IA mentionnée ci-dessus, nous pensons que la recherche future sur l'IA devrait s'appuyer sur les ressources théoriques de la cognition générative, en mettant l'accent non plus sur le contenu génératif virtuel multimodal, mais sur les actions génératives capables d'interagir avec le monde extérieur. En d'autres termes, l'accent devrait être mis sur les agents intelligents incarnés qui s'adaptent à leur environnement et maîtrisent les affordances.

À cette fin, nous proposons un nouveau concept : Affordance-Enactive AI. L'objectif de développement de cette IA s'articule autour des actions au sein de scénarios diversifiés à fonctionnalités distribuées, ou « niches écologiques ». Selon la psychologie écologique défendue par Gibson, la niche écologique décrit la position qu'occupe une population biologique au sein d'un écosystème. Ce concept s'étend également aux conditions spatio-temporelles possibles pour les interactions entre les organismes et leur environnement (y compris les autres organismes), en réponse à des facteurs environnementaux spécifiques, ainsi qu'à l'ensemble des informations sur les ressources de survie exploitables. Dans l'AEAI, les agents opèrent dans ces champs, en construisant des modèles du monde local et en explorant activement des modèles d'action universels adaptés à leur environnement. Cette capacité, appelée « généralité de niche », implique que les agents intelligents doivent être capables d'extraire des informations environnementales en temps réel de leurs modèles du monde local et de discerner les possibilités d'action qu'elles offrent. La perception s'étend ici au-delà de l'entrée sensorielle physique pour inclure la reconnaissance de modèles de données, d'interactions sociales et même de contextes culturels.

Le modèle local du monde est une représentation interne construite par l'agent intelligent, qui capture les principales caractéristiques et dynamiques de son champ écologique. Ce concept est étroitement lié à la théorie du traitement prédictif de l'esprit, selon laquelle le cerveau fonctionne comme une machine à prédire. Grâce aux données sensorielles, il affine continuellement les prévisions environnementales afin de minimiser les écarts entre la perception et les attentes internes. Dans le cadre de l'AEAI, cette théorie clarifie la façon dont les modèles du monde local sont construits - les agents intelligents s'appuient sur des simulations internes pour anticiper les changements dynamiques dans leurs domaines écologiques. Cette capacité de prévision leur permet non seulement de s'adapter à leur environnement actuel, mais aussi de prévoir les états futurs, en intégrant les conséquences potentielles dans la prise de décision et en facilitant une résolution plus efficace des problèmes et l'exécution des tâches. En tant que mécanisme d'ajustement prédictif, le modèle du monde local permet aux agents intelligents de répondre aux exigences universelles de leurs domaines écologiques.

Auto-optimisation et principe de l'énergie libre

L'autonomie met l'accent sur la capacité d'un agent intelligent à agir de manière autonome, en se fixant des objectifs, en s'autorégulant et en s'optimisant. Cette notion est étroitement liée au principe de l'énergie libre, qui suggère que tous les systèmes vivants s'efforcent de minimiser l'énergie libre associée à leur état de survie, c'est-à-dire de réduire l'erreur de prédiction entre les modèles internes et les données perceptives. Dans l'AEAI, la modélisation basée sur ce principe permet aux agents d'affiner leurs interactions avec l'environnement en ajustant leur action de manière proactive. Plutôt que de se contenter de réagir aux stimuli, les agents autonomes recherchent activement des stratégies d'action optimales pour améliorer à la fois leur survie et leur efficacité fonctionnelle. L'inférence active, une application du principe de l'énergie libre, souligne davantage ce processus, car les agents minimisent les erreurs de prédiction par l'action, améliorant ainsi l'adaptabilité de l'environnement.

L'AEAI facilite l'autonomie et l'inférence active efficace en encourageant les agents à explorer et à exploiter activement les possibilités offertes par les champs écologiques. L'exigence de l'application universelle dans des contextes écologiques signifie que les agents intelligents doivent fonctionner efficacement dans des environnements divers. Grâce à l'inférence active, ils reconnaissent non seulement les possibilités offertes par leur environnement, mais expérimentent et mettent en œuvre les stratégies d'action les plus appropriées dans différents domaines. Cette capacité d'adaptation leur permet de gérer un large éventail de tâches et de conditions environnementales.

Le traitement prédictif, l'énergie libre et l'inférence active s'entremêlent donc dans le cadre de l'AEAI, formant une base théorique cohérente permettant aux agents de comprendre et de naviguer dans leurs niches écologiques. Cette approche intégrée permet non seulement d'approfondir notre compréhension du comportement et de la cognition des agents, mais aussi d'ouvrir la voie à la conception de systèmes d'IA qui s'adaptent de manière autonome à des environnements complexes et en constante évolution. En insufflant à l'IA une dimension « incarnée » précise et adaptée à une niche, l'AEAI offre une vision pratique qui contraste avec la poursuite abstraite de l'intelligence universelle.

Niches écologiques & modèles locaux du monde

Ici, le « corps » transcende la forme robotique traditionnelle. Il comprend les systèmes de connaissances ouverts, les interfaces logicielles et les réseaux d'acteurs plus larges dont les agents dépendent pour agir. En ce sens, l'AEAI ressemble à un grand modèle qui se nourrit de petites données spécifiques au contexte. Contrairement à la quête illusoire de l'AGI « Saint Graal », l'AEAI s'ancre dans les actions tangibles des agents de l'IA, en donnant la priorité aux stratégies incarnées qui s'enracinent dans la réalité. Les affordances décrivent non seulement les possibilités et les méthodes d'interaction flexible avec le monde extérieur, mais elles servent également de boussole pour guider les agents dans les niches écologiques.

Avant que les agents n'entrent dans le monde physique, les jeux vidéo offrent un terrain d'essai précieux pour les modèles écologiques. Ces environnements virtuels peuvent permettre aux agents d'affiner leurs compétences dans des environnements contrôlés mais dynamiques. À l'avenir, l'IA incarnée pourrait évoluer vers des machines prédictives dotées d'instincts de survie, tirant parti de l'inférence active pour prendre des décisions plus intelligentes et entreprendre des actions plus appropriées dans des contextes réels. Cette approche pratique permet de passer de la théorie à l'action, en alignant le développement de l'IA sur les complexités de l'expérience vécue.

La recherche future ne devrait donc pas viser une entité unique et super-intelligente capable de réaliser toutes les tâches. Elle devrait plutôt cultiver une série d'agents adaptés à des domaines spécifiques, prenant des décisions et des actions précises basées sur des affordances et des modèles de monde causal. On obtiendrait ainsi une IA générative dotée d'une véritable compréhension de l'environnement. Si l'on poursuit l'exploration, on peut envisager d'établir un réseau d'agents d'AEAI, chacun doté de capacités distinctes, collaborant dans des domaines écologiques pour former un système intelligent à plusieurs niveaux.

Leur intelligence collective pourrait se rapprocher de l'« intelligence générale », tout en restant ancrée dans des applications pratiques et spécifiques au contexte.

Cette vision rejoint notre appel constant à démystifier l'obsession de la généralité. L'AEAI poursuit une IA saisissant véritablement le monde physique, dotée de modèles réalistes reflétant ses subtilités. Mais en cela, ne forgons-nous pas une nouvelle forme de « Saint Graal » ?


Xue Shaohua est professeur associé à la Faculté de l'Éducation de l'Institut de la Technologie de Pékin. Liu Xiaoli est professeure à la Faculté de la Philosophie de l'Université Renmin de Chine.

Edité par:Zhao Xin
  • Copyright © CSSN All Rights Reserved
  • Copyright © 2023 CSSN All Rights Reserved