Le processus de fonctionnement et les mécanismes de décision des grands modèles de langage (LLMs) sont opaques pour tout utilisateur externe, qui n’en perçoit que les entrées et les sorties, sans pouvoir comprendre comment, à partir de masses de données hétérogènes, le modèle extrait et produit ses conclusions. Ce « fossé de compréhension » suscite inévitablement des doutes quant à la fiabilité des résultats fournis par les LLMs : si l’on ignore « comment une conclusion est générée », comment peut-on la juger digne de confiance ? Telle est l’essence du problème dit de la « boîte noire algorithmique ».
Conventionnellement, les conclusions générées par un système ne sont considérées comme fiables que lorsque ledit système est compris, à savoir lorsque son fonctionnement et ses mécanismes décisionnels peuvent être clairement décrits par le langage humain ou au moyen d’opérations logiques. Cependant, le succès des LLMs tels que ChatGPT et DeepSeek démontre que certains systèmes peuvent produire des résultats tout à fait raisonnables et largement acceptés par le public, alors même qu’ils ne peuvent pas être pleinement compris.
Cela nous oblige à nous interroger : comment comprendre les LLMs ? Sur quelle base pouvons-nous accepter raisonnablement les conclusions qu'ils génèrent ? Clarifier ces questions est indispensable pour orienter efficacement la gouvernance de l’intelligence artificielle (IA). Parmi les nombreuses questions philosophiques soulevées par l’IA, le problème de la boîte noire algorithmique occupe une position centrale. Il touche non seulement à la transparence technique et à l’exigence d’explicabilité, mais aussi à des enjeux plus profonds tels que les mécanismes de confiance entre l’humain et la machine.
Les structures isomorphes
Peut-on obtenir des connaissances scientifiques fiables à partir d’une expérience empirique limitée ? Tel est le célèbre problème soulevé par David Hume. Selon lui, le raisonnement inductif ne peut justifier logiquement l’inférence selon laquelle « ce qui s’est toujours passé ainsi dans le passé se produira également à l’avenir ». La fiabilité de telles conclusions repose sur le principe de l’uniformité de la nature — l’hypothèse selon laquelle l’avenir ressemblera au passé — mais cette hypothèse elle-même ne peut être démontrée. Hume en conclut que les connaissances scientifiques dérivées de l’induction ne peuvent revendiquer, sur la base d’une expérience limitée, ni nécessité logique ni certitude démonstrative.
Les LLMs présentent des caractéristiques inductives prononcées tant dans leur phase d’entraînement que dans leur phase de génération. Pendant l’entraînement, ils procèdent à une analyse statistique des corrélations — souvent conceptualisées comme des « distances » —entre les jetons (tokens) au sein de vastes corpus. Lors de la génération, le modèle prédit le token suivant le plus probable en fonction de ces « distances », et sélectionne parmi les jetons candidats par le biais de stratégies telles que la recherche gloutonne (greedy search), l’échantillonnage aléatoire ou la recherche par faisceau (beam search), générant ainsi des phrases, des paragraphes et des textes. Essentiellement, ce processus revient à identifier des régularités contextuelles : quels jetons sont susceptibles d’apparaître dans un contexte donné. Cependant, ces régularités textuelles sont inférées à partir de données disponibles et rien ne garantit que ces régularités s’appliquent également à de nouvelles situations.
Il apparaît clairement que le problème de la boîte noire algorithmique ne diffère pas, dans son essence, des doutes que l’on nourrit à l’égard du savoir inductif. La confiance que nous accordons aux résultats algorithmiques, tout comme notre croyance que le soleil se lèvera demain, ne repose sur aucune nécessité logique, mais uniquement sur une attente empirique. En ce sens, le problème de la boîte noire et la « question de David Hume » présentent une forte isomorphie. Comme le soulignent McMillan-Scott et Musolesi (2024) sur la base de données empiriques, tous les grands modèles de langage génèrent des réponses erronées, et même GPT-4, alors considéré comme le plus performant, n’atteignait qu’un taux d’exactitude de 69,2 %. Devrions-nous pour autant abandonner l’IA générative fondée sur les LLMs ? La réponse est négative. Le raisonnement inductif, malgré les objections soulevées par Hume, demeure un outil indispensable pour faire face à l’incertitude et acquérir des connaissances. De même, face au problème de la boîte noire algorithmique, nous pouvons également nous inspirer des tentatives de résolution de la question humienne.
Acceptation inductive et décision cognitive
Bien que le problème de Hume semble ébranler les fondements mêmes du savoir scientifique, les philosophes n’ont pas pour autant renoncé à l’induction. Parmi les réponses proposées, l’une des plus représentatives est celle de la théorie de « l’acceptation inductive », qui se base sur trois règles fondamentales. Premièrement, la règle de haute probabilité : si, compte tenu des preuves disponibles, la probabilité qu’une proposition soit vraie dépasse 0,5, alors le sujet a des raisons de l’accepter. Deuxièmement, la règle de clôture déductive : le sujet doit accepter les conséquences logiques des propositions déjà acceptées. Troisièmement, la règle de cohérence : l’ensemble des propositions acceptées doit être logiquement cohérent. Ces règles offrent un cadre potentiel pour aborder le problème de la boîte noire algorithmique, en suggérant une manière d’accepter raisonnablement les résultats des LLMs sans avoir à « comprendre » pleinement les mécanismes internes de ces modèles.
Cependant, le paradoxe de la loterie — formulé par le philosophe américain Henry Kyburg en 1961 — met en évidence une faille logique de cette approche. Si l’on accepte simultanément les trois règles, on peut se trouver contraint d’accepter deux propositions mutuellement contradictoires : aucun billet de loterie ne sera gagnant ; un billet de loterie sera gagnant. En réponse, le philosophe américain Isaac Levi a soutenu que l’acceptation inductive ne doit pas être simplement comprise comme l’acceptation de propositions à haute probabilité. Elle implique plutôt un équilibre entre deux objectifs cognitifs : d’une part, la probabilité de vérité d’une proposition, et, d’autre part, sa capacité à réduire l’incertitude. Ce second aspect renvoie au fait qu’un sujet, en acceptant une proposition, diminue le degré d’indétermination relatif à la question qui l’intéresse.
Considérons une loterie composée d’un million de billets avec un seul gagnant. Si la question posée est « Quel billet va gagner ? », accepter la proposition « Le billet 1 ne gagnera pas » a une probabilité de vérité très élevée, mais ne réduit que très peu l’incertitude. En revanche, si la question est « Le billet 1 va-t-il gagner ? », accepter « Le billet 1 ne gagnera pas » contient à la fois une probabilité de vérité très élevée et joue également un grand rôle dans la réduction de l’incertitude. L’acceptation d’une proposition dépend donc non seulement de sa probabilité, mais doit également être rapportée à la question qui préoccupe le sujet. Levi a introduit à cet effet un paramètre, l’« indice de prudence » (q), destiné à moduler le poids relatif de deux objectifs cognitifs : la recherche de la vérité (ou l’évitement de l’erreur) et la « réduction de l’incertitude ». Plus la valeur de q est élevée, plus le sujet accorde d’importance à la réduction de l’incertitude ; plus elle est faible, plus il privilégie la recherche de la vérité. En ajustant l’indice q, il devient possible d’éviter à la fois la recherche abstraite de la vérité détachée de toute question concrète (q = 0) et une posture excessivement radicale visant uniquement à éliminer l’incertitude (par exemple, accepter des propositions contradictoires, q = 1).
Levi a ainsi transformé le problème de l’acceptation inductive en un problème de décision épistémique. Une conclusion inductive n’exige ni que l’on croie pleinement qu’elle est vraie, ni que sa probabilité d’être vraie soit suffisamment élevée. Il suffit de trouver « un point d’équilibre » tel qu’elle offre, par rapport aux propositions concurrentes, une utilité cognitive espérée plus élevée. Dès lors, le savoir inductif peut être compris comme le choix optimal effectué par un sujet, sur la base de preuves limitées, guidé à la fois par la rationalité cognitive et par la rationalité pratique. Cette perspective fournit ainsi un fondement philosophique à la légitimité rationnelle du raisonnement inductif.
Vers un cadre de gouvernance
Le problème de la boîte noire algorithmique relève, dans son essence, d’un problème d’acceptation inductive. D’une part, accepter les conclusions d’un algorithme nécessite d’observer et de vérifier ces résultats, ce qui s’apparente au processus inductif consistant à inférer des régularités à partir d’un nombre limité de cas. D’autre part, les conclusions générées par un algorithme demeurent marquées par l’incertitude : il est impossible de garantir leur cohérence dans des situations futures. Exiger une transparence totale de l’algorithme est donc aussi vain que d’exiger une certitude absolue de la connaissance inductive.
Le modèle de décision cognitive appliqué au problème de Hume nous enseigne que, bien que le savoir inductif comporte intrinsèquement une incertitude probabiliste, nous pouvons y faire face par la rationalité pratique et par l’évaluation des risques. Cette perspective offre une orientation pour aborder le problème de la boîte noire algorithmique : en tant que système inductif, l’algorithme prolonge la rationalité limitée des êtres humains dans la compréhension de l’intelligence artificielle. Les stratégies visant à traiter l’opacité algorithmique doivent donc être examinées à l’aune de la rationalité pratique, plutôt que dans l’illusion d’une transparence absolue.
Les premières réponses au problème de la « boîte noire » algorithmique peuvent être regroupées en deux catégories. D’une part, les approches techniques considèrent la boîte noire comme un problème purement technique, et tentent d’améliorer la transparence via l’IA explicable (XAI), la visualisation ou la simplification des modèles. Cependant, elles se heurtent à la complexité non linéaire des algorithmes, et même les spécialistes peinent à parvenir à une compréhension complète, tandis que les utilisateurs ordinaires sont encore plus susceptibles de souffrir d’une « surcharge explicative ». D’autre part, les approches normatives, inscrites dans un paradigme « droits-pouvoirs », préconisent un encadrement par le droit et l’éthique. Néanmoins, en négligeant souvent les contraintes de faisabilité technique, elles tendent à demeurer abstraites et difficilement opérationnelles.
Ces deux approches tendent à dissocier les dimensions technique, normative et cognitive, et peinent à résoudre la tension fondamentale à laquelle l’être humain est confronté face à la « boîte noire » algorithmique : celle qui oppose la fiabilité des résultats à l’inaccessibilité de leur compréhension. Du point de vue cognitif, la difficulté à comprendre des systèmes imparfaitement transparents est presque isomorphe à celle de la compréhension des diagnostics médicaux ou des théories scientifiques. Sous cet angle, le problème de la boîte noire apparaît moins comme une remise en cause de la nature du savoir que comme une manifestation concrète de la rationalité limitée — une limitation structurelle de la cognition humaine, plutôt qu’une rupture des principes épistémiques.
Une voie plus prometteuse consiste à intégrer la dimension cognitive afin de construire un cadre de gouvernance de la boîte noire fondé sur une « transparence limitée » et une « décision justifiable ». Ce cadre peut se décliner en plusieurs axes. Premièrement, un modèle d’explication en « boîte grise » qui abandonne l’illusion d’une transparence totale et recherche un équilibre praticable entre la complexité intrinsèque des systèmes et leur interprétabilité. Deuxièmement, un mécanisme d’explication stratifié offrant des niveaux d’explication différenciés selon les publics — utilisateurs ordinaires, régulateurs, développeurs — afin d’éviter à la fois la redondance et l’insuffisance explicatives qu’entraînerait une approche uniforme. Troisièmement, la distinction entre la « difficulté technique de l’explication » et la « possibilité cognitive de la compréhension » : Il faut mettre l’accent sur les relations entrée-sortie et développer la confiance envers les algorithmes à partir d’une dimension fonctionnelle.
Le problème de la boîte noire algorithmique ne relève pas seulement d’un défaut technique : à l’instar de nombreux « dispositifs opaques » dans l’histoire des techniques, il constitue avant tout un défi cognitif suscité par les nouvelles technologies, sans pour autant ébranler les mécanismes fondamentaux de la connaissance humaine (la vérification, la correction des erreurs, le choix rationnel...). Intégrer la réflexion philosophique sur la rationalité inductive dans la conception technique, privilégier une compréhension fonctionnelle des algorithmes, développer progressivement dans la pratique des mécanismes d’explication et de confiance adaptés à la cognition humaine, et mobiliser une pensée critique pour maîtriser le potentiel considérable des intelligences artificielles génératives —telle est sans doute la voie d’une cohabitation harmonieuse entre l’homme et les technologies à l’ère de l’intelligence artificielle.
Li Zhanglyu est professeur à l’Institut de Philosophie de l’Académie des Sciences sociales de Chine.