NETWORK DES SCIENCES SOCIALES DE CHINE
Recherches interdisciplinaires
ACCUEIL>RECHERCHES>Recherches interdisciplinaires
Le rôle de l'analyse causale à l'ère du big data
Source : Chinese Social Sciences Today 2025-04-15

Avec les progrès rapides des méthodologies informatiques en sciences sociales, l'intégration des technologies numériques et des modèles à grande échelle dans la recherche universitaire et les applications commerciales est devenue de plus en plus courante. Une perspective commune suggère que les approches analytiques basées sur les big data reposent principalement sur la corrélation, ce qui conduit à l'argument selon lequel, à l'ère des big data, la recherche de la causalité devrait être abandonnée en faveur d'analyses corrélationnelles plus accessibles et plus efficaces sur le plan informatique. Bien que ce point de vue semble plausible, il est en fin de compte réducteur et erroné. Quelle que soit l'époque, la corrélation et la causalité restent des objectifs fondamentaux de la recherche scientifique. L'avènement du big data n'introduit pas seulement de nouveaux défis, mais offre également de nouvelles opportunités pour améliorer l'analyse causale.

L'importance des explications causales

Du point de vue de l'objectif de la recherche, les enquêtes en sciences sociales peuvent être classées en trois catégories : la recherche descriptive, la recherche explicative et la recherche prédictive. La recherche descriptive cherche à répondre à la question « qu'est-ce qui est », en utilisant souvent des données d'enquête représentatives ou des ensembles de données à grande échelle pour caractériser les phénomènes, identifier les tendances et analyser les corrélations entre les dimensions spatiales et temporelles. La recherche explicative répond à la question du « pourquoi », en utilisant des méthodes statistiques et des techniques d'inférence causale pour élucider les relations entre les variables et découvrir les mécanismes sous-jacents à l'origine des processus. La recherche prédictive se concentre sur « ce qui se passera à l'avenir », en s'appuyant sur des données historiques pour identifier les principes et les modèles sous-jacents et prévoir les développements futurs ou les probabilités d'événements. Dans ce cadre, la recherche contemporaine sur les big data met principalement l'accent sur la description et la prédiction. Toutefois, cela ne signifie pas que l'explication causale n'est pas pertinente.

Les explications causales permettent de distinguer les relations authentiques des corrélations trompeuses. Si les études descriptives du big data permettent d'identifier de nombreuses corrélations et schémas, ces associations et schémas peuvent être fallacieux ou ne pas avoir de signification substantielle. Par exemple, une analyse des big data liées à la santé peut révéler une corrélation positive entre les ventes de glaces et le nombre de personnes souffrant d'un coup de chaleur. Sans raisonnement causal, on pourrait conclure à tort que la consommation de glaces provoque des coups de chaleur. En réalité, les deux phénomènes sont liés à des températures élevées. L'analyse causale permet aux chercheurs d'identifier le véritable facteur sous-jacent - la température - et d'éviter ainsi les conclusions erronées.

En outre, alors que les études descriptives permettent de cartographier les caractéristiques superficielles d'un phénomène, les explications causales fournissent des informations plus approfondies en identifiant les mécanismes sous-jacents aux schémas observés. Par exemple, les « big data » de l'éducation peuvent montrer une corrélation négative entre l'utilisation des appareils électroniques par les élèves et leurs résultats scolaires. Une approche purement descriptive pourrait suggérer que la réduction du temps passé devant un écran améliore directement les résultats scolaires. Cependant, l'analyse causale peut révéler des variables confondantes, telles que le statut socio-économique et les habitudes d'apprentissage, ce qui permet aux chercheurs de proposer des recommandations plus précises et plus efficaces.

Deuxièmement, les modèles prédictifs basés uniquement sur la corrélation sont vulnérables à l'échec lorsque les conditions sous-jacentes changent, alors que les explications causales améliorent l'applicabilité du modèle en identifiant les relations causales durables. Un exemple notable est celui de Google Flu Trends, une réussite autrefois célèbre dans le domaine de l'analyse des données massives (big data). Utilisant les données de recherche de Google et des algorithmes d'apprentissage automatique, ce modèle a prédit avec précision les tendances de la grippe aux États-Unis vers 2009, avec des résultats comparables en précision à ceux des Centres de contrôle et de prévention des maladies (CDC). Toutefois, après 2011, le modèle a systématiquement surestimé l'incidence de la grippe, produisant parfois des estimations deux fois plus élevées que les chiffres rapportés par les CDC. L'échec du modèle a attiré l'attention des chercheurs, mais sa nature de « boîte noire » a empêché les ingénieurs de Google d'expliquer, d'anticiper ou de résoudre le problème.

Dans de nombreux domaines d'application tels que le droit, la finance et la médecine, les modèles prédictifs basés sur les big data nécessitent non seulement une grande précision, mais aussi une grande capacité d'interprétation. Les explications causales permettent d'élucider le processus de prise de décision d'un modèle, ce qui renforce la confiance des utilisateurs. Par exemple, dans le domaine médical, des études ont montré que de nombreux médecins hésitent à se fier aux prédictions diagnostiques basées sur l'IA et dérivées des big data médicales. L'une des principales raisons de cette réticence est le manque de transparence des mécanismes de prise de décision des modèles. Si les modèles prédictifs pouvaient expliquer clairement le raisonnement qui sous-tend leurs résultats, les professionnels de la santé seraient beaucoup plus enclins à les adopter dans des contextes cliniques.

Le manque d'interprétabilité et de transparence reste un défi majeur dans l'application et l'adoption de modèles prédictifs à grande échelle. Bien que la prédiction repose principalement sur la corrélation, les explications causales sont essentielles pour garantir que les prédictions sont scientifiques, logiques et acceptables. La recherche en sciences sociales utilisant les big data ne doit pas négliger la causalité tout en mettant l'accent sur la corrélation. En fait, les applications du big data exigent que l'on mette davantage l'accent sur le raisonnement causal. Cependant, les méthodologies actuelles de big data ne sont pas encore totalement équipées pour répondre à ces exigences.

Améliorer l'inférence causale grâce à la recherche sur le big data

La recherche sur les big data ne rend pas seulement nécessaire l'analyse causale, mais renforce également la crédibilité et la fiabilité de l'inférence causale en fournissant des sources de données étendues, en permettant un contrôle précis des variables, en élargissant les outils méthodologiques pour l'inférence occasionnelle et en soutenant l'analyse causale dynamique.

Tout d'abord, les big data englobent un large éventail de types de données, souvent avec une résolution temporelle élevée et une large couverture spatiale. Ces diverses sources de données permettent aux chercheurs de saisir des relations causales complexes avec une plus grande granularité. Par exemple, les plateformes de commerce électronique telles que Taobao et JD.com optimisent leurs algorithmes de recommandation en intégrant des modèles d'inférence causale. Ces modèles s'appuient sur une série de données utilisateur - des sources textuelles telles que l'historique des achats, le comportement de navigation et les requêtes de recherche aux interactions basées sur des capteurs telles que les clics et les achats.

Deuxièmement, par rapport aux ensembles de données traditionnels, les big data intègrent généralement un plus grand nombre de variables et des informations plus fines, ce qui permet un contrôle plus efficace des variables confusionnelles et facilite une identification plus précise des causes. Dans le domaine de l'éducation, par exemple, les chercheurs analysent les données relatives au comportement d'apprentissage des élèves afin d'évaluer l'impact de différentes stratégies d'enseignement sur les résultats scolaires. En contrôlant les caractéristiques contextuelles telles que le statut socio-économique et les habitudes d'apprentissage, les chercheurs peuvent déduire avec plus de précision les effets causaux des stratégies d'enseignement.

Troisièmement, la recherche sur les big data a introduit un large éventail d'outils et de méthodologies pour l'inférence causale, y compris des techniques telles que les forêts causales et le double apprentissage automatique, qui sont particulièrement efficaces pour traiter les données à haute dimension et les relations non linéaires. Par exemple, dans la recherche sur le commerce électronique, les analystes exploitent les données de transaction des plateformes de commerce électronique pour examiner l'impact des campagnes promotionnelles sur les performances des ventes. En employant des techniques de double apprentissage automatique, les chercheurs peuvent estimer avec précision les effets causaux des promotions tout en tenant compte de variables confusionnelles telles que les fluctuations saisonnières et la dynamique de la concurrence sur le marché.

Quatrièmement, les big data présentent souvent des caractéristiques de séries temporelles, ce qui les rend bien adaptées à la capture des relations dynamiques entre les variables. Cette caractéristique est particulièrement précieuse pour l'examen de la chronologie et des effets décalés des relations causales. Dans le domaine des sciences de l'environnement, par exemple, les chercheurs utilisent les données des capteurs météorologiques et les registres de surveillance de la qualité de l'air pour étudier la relation causale dynamique entre les conditions atmosphériques et les niveaux de pollution. En analysant les séries chronologiques de données sur la vitesse du vent, l'humidité et les concentrations de polluants, les chercheurs peuvent identifier les voies de causalité reliant les facteurs météorologiques aux fluctuations de la qualité de l'air.

Le changement de paradigme de l'analyse causale

Au-delà de l'amélioration de la fiabilité de l'inférence causale, la recherche sur les big data remet en question les paradigmes dominants et a le potentiel de conduire à des changements significatifs dans l'analyse causale à travers de multiples dimensions.
Le premier paradigme implique le passage d'une approche « axée sur la théorie » à un « cadre axé sur la théorie et les données ». L'analyse causale traditionnelle a été principalement axée sur la théorie, les chercheurs proposant d'abord des hypothèses et les testant ensuite à l'aide de données empiriques. Toutefois, l'essor du big data a facilité un paradigme de recherche axé sur les données dans lequel les relations causales potentielles sont d'abord identifiées par l'exploration de données à grande échelle, suivie d'une interprétation théorique. Ces dernières années, des chercheurs ont introduit la « théorie computationnelle fondée », soulignant qu'à l'ère des big data, les chercheurs en sciences sociales devraient être capables d'identifier des relations causales à partir d'ensembles de données complexes et de proposer des théories causales. La théorie computationnelle fondée ou l'approche axée sur les données est susceptible de jouer un rôle de plus en plus central dans l'élaboration de l'avenir de l'analyse causale et mérite une plus grande attention de la part des chercheurs.

Le second paradigme consiste à passer d'un accent sur l'identification des causes à un accent plus important sur l'explication des mécanismes. L'analyse causale conventionnelle cherche principalement à identifier l'effet causal d'une variable indépendante sur une variable dépendante en utilisant des techniques expérimentales ou statistiques. Cette approche manque souvent d'une explication approfondie des mécanismes sous-jacents. En revanche, l'ère du big data a mis en évidence l'importance croissante des explications basées sur les mécanismes. Par exemple, les modèles prédictifs basés sur le big data font souvent preuve d'une grande précision, mais ne donnent que peu d'indications sur les processus causaux à l'origine de leurs prédictions. Par conséquent, l'un des principaux défis de l'analyse causale future consistera à développer des méthodologies permettant d'élucider la « boîte noire », améliorant ainsi la transparence et l'interprétabilité des modèles basés sur les big data.

La troisième est le passage de la « recherche de la cause à l'effet » à la « recherche de l'effet à la cause ». L'analyse causale traditionnelle s'est généralement concentrée sur l'estimation de l'effet moyen d'une variable causale particulière sur une variable de résultat. Cependant, elle a accordé relativement peu d'attention à la manière dont un résultat donné découle de multiples facteurs de causalité. À l'ère du big data, la recherche prédictive a connu des avancées sans précédent. Pour améliorer la précision des prévisions, il faut aller au-delà des relations de cause à effet isolées. Par conséquent, l'analyse causale future s'orientera probablement vers des réseaux causaux complexes afin d'étudier systématiquement les divers facteurs contribuant à des résultats spécifiques.

En conclusion, l'essor du big data ne diminue pas l'importance de l'analyse causale ; au contraire, il offre de nouvelles possibilités d'améliorer les méthodologies traditionnelles d'inférence causale. Le raisonnement causal reste au cœur de notre compréhension du monde, et l'idée que la corrélation l'emporte sur la causalité est une interprétation trop simpliste et trompeuse de l'analyse des big data. À l'ère des big data, il existe un double impératif : d'une part, tirer parti des données et des algorithmes pour générer des informations prédictives qui guident la prise de décision et, d'autre part, atténuer les risques de dépassement des données et de déterminisme algorithmique, et protéger l'autonomie individuelle. Pour répondre à ces préoccupations, il est nécessaire de remettre l'accent sur l'analyse causale. Loin d'être obsolète, l'analyse causale reste essentielle - et plus critique que jamais - à l'ère du big data.
 

Xu Qi est professeur à la Faculté des Sciences sociales et comportementales de l'Université de Nanjing.

Edité par:Zhao Xin
  • Copyright © CSSN All Rights Reserved
  • Copyright © 2023 CSSN All Rights Reserved