L'engouement fulgurant pour les modèles génératifs d'apprentissage automatique (machine learning) depuis 2022 a suscité une nouvelle vague d'enthousiasme pour l'intelligence artificielle (IA). Pourtant, leur développement rapide a aussi complexifié les efforts de régulation des grandes entreprises technologiques. Des recherches existantes montrent que le contrôle des géants du numérique sur les plates-formes digitales leur confère non seulement un levier économique, mais aussi une influence politique. Derrière cette asymétrie se cache leur puissance logistique en expansion constante. L'émergence et l'adoption massive des modèles génératifs d'apprentissage automatique ont encore cimenté ce déséquilibre et commencent à influencer le domaine même du machine learning. Un risque croissant est qu'à mesure que les modèles grossissent, la discipline pourrait délaisser progressivement les approches ouvertes.
La puissance logistique
Dès l'origine, le capital-risque et d'autres formes émergentes de « capital patient » (patient capital) ont poursuivi des investissements visant à construire des plates-formes à position monopolistique. Les entreprises survivant à la compétition et établissant des monopoles peuvent exploiter leur position dominante pour mener des pratiques concurrentielles déloyales. Dans ce processus, les données sont devenues une source de profit nouvelle et clé. L'influence de ces géants technologiques dépasse désormais largement la sphère économique. Certains experts estiment que les valeurs portées par les plates-formes ont gravement perturbé les systèmes réglementaires existants dans les métropoles européennes. Une condition préalable essentielle à cette influence réside dans le rôle d'infrastructure largement adoptée joué par la plate-forme. La capacité à bâtir de telles infrastructures a été nommée "puissance logistique" par les sociologues. Cette forme de pouvoir, fortement dépendante d'expertises spécialisées, reste difficile à monopoliser par les États ; dans bien des cas, elle repose aussi sur la participation d'acteurs non-étatiques. Alors que les modèles génératifs d'apprentissage automatique commençaient à démontrer leur potentiel, cette distribution profondément inégale du pouvoir a érodé l'infrastructure ouverte de la connaissance qui sous-tendait auparavant les progrès dans ce domaine.
L'essor de l'apprentissage automatique repose depuis longtemps sur des échanges ouverts et collaboratifs entre l'industrie et le monde académique. Cette interaction s'articule autour de logiciels open source et de matériel commercial. La stratégie open source a simultanément répondu aux besoins des deux sphères, établissant les bases d'une collaboration fructueuse. Les chercheurs doivent accumuler un capital de réputation : ils entendent que leurs travaux soient publiquement reconnus et largement diffusés. Ils cherchent également à accéder aux données et financements du secteur industriel. En retour, les entreprises dépendent du travail créatif des chercheurs pour impulser l'innovation et renforcer leur avantage concurrentiel sur le marché.
Le développement fermé
L'émergence des modèles génératifs d'apprentissage automatique, particulièrement le succès des grands modèles de langage (LLMs), commence désormais à ébranler cet écosystème ouvert. Ce qui distingue les LLMs réside dans leur appétit sans précédent pour les données et la puissance computationnelle. Dans le climat actuel de concurrence corporative et géopolitique exacerbée, ces exigences reconfigurent l'écosystème matériel et technologique soutenu par les logiciels open source et le matériel commercial. La recherche tend donc à se concentrer sur des acteurs spécifiques.
L'exemple le plus frappant du tournant de l'apprentissage automatique vers un développement fermé se voit dans l'évolution de la structure d'entreprise et de la mise en œuvre de projets chez OpenAI. Fondée initialement avec la mission de rendre une intelligence artificielle générale sûre ouvertement accessible au bénéfice de l'humanité, OpenAI s'était engagée à publier ses brevets et recherches au public et à favoriser la collaboration transdisciplinaire. Cependant, alors que les besoins en calcul et en données des LLMs augmentaient, OpenAI a subi des pressions financières croissantes. En 2019, l'entreprise s'est réorganisée pour créer une filiale à but lucratif et a accepté un investissement de Microsoft. À partir de ce moment, l'orientation stratégique d'OpenAI a changé. Au moment de la sortie de GPT-4, sa documentation technique se concentrait exclusivement sur les bancs d'essai de performance, omettant les détails concernant : les méthodes d'entraînement, les ensembles de données et même l'infrastructure logicielle utilisée pour l'apprentissage profond (deep learning). Sur le plan commercial, OpenAI s'est intégrée profondément dans l'écosystème commercial de Microsoft, accordant à l'entreprise des droits exclusifs sur nombre de ses algorithmes et modèles.
Un consensus croissant s'établit désormais : le standard déterminant des LLMs réside dans leur capacité générative — spécifiquement, leur aptitude à manifester de nouvelles capacités. À mesure que la taille des modèles s'accroît, la recherche de prototypes sur machines locales devient impraticable. En conséquence, les systèmes de cloud computing à grande échelle sont devenus indispensables, tant pour l'entraînement que pour la recherche. Parallèlement, l'appétit vorace des LLMs pour les données a amoindri le rôle des bases de données publiques. Une grande partie des données d'entraînement étant aspirées sur le web, les risques de litiges liés au droit d'auteur se multiplient, incitant nombre d'entreprises technologiques à taire leurs sources. Cette opacité dépasse désormais les seules données consommateurs. Alors que NVIDIA demeure le principal fabricant de matériel dédié à l'apprentissage automatique, un écosystème matériel plus diversifié (et propriétaire) se met en place.
Ces évolutions ont été accélérées par le potentiel commercial démontré par les modèles génératifs, ainsi que par l'intensification de la concurrence géopolitique. L'IA est désormais considérée comme un champ clé de rivalité technologique et économique entre la Chine et les États-Unis. Dans ce contexte, les États-Unis ont imposé des restrictions à la circulation des matériels avancés. Au-delà du freinage des industries étrangères de puces, ils ont également instauré des contrôles à l'exportation sur les systèmes haut de gamme de NVIDIA basés sur des GPU, y compris ceux destinés au marché grand public.
Contrairement aux craintes initiales d'un monopole par une seule entreprise, le domaine des LLMs voit au contraire proliférer des initiatives open source, créant un écosystème diversifié et dynamique. Toutefois, ces modèles open source restent inférieurs aux équivalents propriétaires en performance comme en sécurité. De plus, beaucoup ne sont pas véritablement open source au sens traditionnel. Ils doivent plutôt être considérés comme des outils par lesquels les entreprises affirment leur puissance logistique et façonnent l'environnement commercial de l'IA. Ces initiatives partagent généralement deux caractéristiques : au lieu d'adopter des licences open source standard, les firmes publient désormais leurs modèles sous des termes spécialement conçus ; la plupart des publications incluent uniquement les paramètres des modèles, retenant à la fois les données d'entraînement et le code du processus de formation.
Meta et Alibaba interdisent toutes deux l'utilisation des sorties de ces LLMs “open source" pour l'entraînement ou le réglage fin d'autres modèles de langage — une méthode indirecte mais efficace pour empêcher les concurrents d'exploiter ces ressources. Ainsi, ces modèles fonctionnent davantage comme des produits gratuits offerts aux développeurs. L'ouverture des LLMs par Meta, Microsoft et Alibaba est étroitement liée à leurs stratégies commerciales respectives. En intégrant les LLMs dans leurs services cloud propriétaires, Microsoft et Alibaba peuvent : renforcer la fidélisation de leur clientèle ; attirer les développeurs cherchant un accès plus pratique aux LLMs ; stimuler les ventes de ressources de cloud computing.
En raison des propriétés techniques et des risques applicatifs propres aux LLMs génératifs, le paradigme open source traditionnel — conçu pour les logiciels conventionnels — s'avère de plus en plus inadapté pour relever les défis posés par ces modèles. Les données utilisées pour l'entraînement des LLMs étant souvent extraites du web, l'ouverture des jeux de données d'entraînement soulèverait d'importantes questions éthiques et juridiques. Les pratiques open source traditionnelles échouent également à combler l'asymétrie croissante entre l'industrie et le monde académique en matière de puissance de calcul et d'accès aux données. Plus important encore, les normes open source actuelles imposent peu, voire aucune contrainte sur l'utilisation des modèles publiés. Pour les logiciels open source conventionnels, le risque principal réside généralement dans les vulnérabilités du code source. Comme ces projets sont gérés de manière décentralisée, corriger les failles de sécurité peut s'avérer difficile, compromettant potentiellement les systèmes qui s'appuient sur eux. À l'inverse, pour les LLMs, le risque majeur provient de la façon dont les modèles sont déployés — un domaine largement négligé par le paradigme open source existant.
Le Changement de paradigme
Pour remédier à cet angle mort réglementaire, les licences accompagnant les LLMs open source publiés par Meta, Alibaba et diverses institutions de recherche incluent désormais typiquement des clauses traitant de la conformité juridique et politique. Qu'il s'agisse de répondre aux perturbations rencontrées par les entreprises ou aux défis plus larges de l'IA générative, l'infrastructure de connaissance sous-tendant le machine learning se trouve à un moment charnière de changement de paradigme.
L'impact disruptif des modèles génératifs — particulièrement des LLMs — dépasse leurs applications étendues et conséquences sociétales ; il approfondit aussi les déséquilibres existants en puissance logistique. Comprendre les risques posés par ces modèles exige une attention soutenue aux éléments composant l'infrastructure de connaissance qui les soutient. Garantir que l'expertise technique et les capacités de production en machine learning ne soient pas monopolisées par une poignée d'entreprises est essentiel pour que la société conserve conscience et contrôle. Pourtant, c'est précisément ici que gouvernements et public échouent souvent — alors que les institutions académiques, notamment universitaires, tendent à être plus solides. Le domaine de l'apprentissage automatique lui-même a émergé via une collaboration entre universités et industrie. Face aux disruptions induites par les LLMs, les institutions de recherche assument des responsabilités sociétales accrues : elles peuvent agir comme contrepoids à la puissance logistique croissante des géants technologiques, ou comme ponts facilitant la collaboration entre public et industrie. Parallèlement, elles ont le devoir d'expliquer les risques afférents au public et de formuler des recommandations constructives aux régulateurs.
Zhang Bolun est chercheur au Département de Sociologie de l'Université du Zhejiang.