Coefficient de corrélation : tout comprendre avec des exemples concrets

Le coefficient de corrélation est un outil statistique couramment utilisé en sciences économiques, psychologie, médecine, et bien d’autres disciplines. Il offre une mesure chiffrée de l’interdépendance entre deux variables quantitatives, permettant ainsi de détecter la présence d’une relation linéaire entre celles-ci. Dans cet article, nous allons explorer en détail le concept de coefficient de corrélation, en abordant notamment sa définition, ses propriétés et son calcul.

Sommaire

Comprendre les bases du coefficient de corrélation

Définition du coefficient de corrélation
Pearson et Spearman : deux coefficients de corrélation courants

Calculer le coefficient de corrélation : méthodes et étapes

Formule du coefficient de corrélation de Pearson
Calcul du rho de Spearman

Quelques exemples d’utilisation du coefficient de corrélation
Comment interpréter les valeurs du coefficient de corrélation
Différences d’usage entre Pearson et Spearman
Conseils pour une bonne interprétation statistique

Sommaire :

Comprendre les bases du coefficient de corrélation

Pour analyser le lien entre deux événements ou caractéristiques observées, on utilise souvent des mesures de tendance centrale telles que la moyenne ou la médiane. Toutefois, ces indicateurs ne suffisent pas toujours pour appréhender la complexité des relations entre variables. C’est là qu’intervient le coefficient de corrélation, qui sert à quantifier la force et la direction de l’association entre deux éléments.

Définition du coefficient de corrélation

Le coefficient de corrélation, noté généralement « r », est un nombre compris entre -1 et 1. Sa valeur reflète la nature et l’intensité du lien linéaire entre deux variables X et Y :

r = 1 : corrélation positive parfaite, indiquant que les deux variables évoluent dans le même sens (quand l’une augmente, l’autre augmente aussi)
r = -1 : corrélation négative parfaite, traduisant une évolution inverse entre les deux éléments (lorsque l’un croît, l’autre décroît)
r = 0 : absence de corrélation linéaire, signifiant que les variations de l’une ne sont pas liées à celles de l’autre

Ainsi, plus la valeur absolue du coefficient de corrélation est proche de 1, plus le lien linéaire entre les variables est fort. En revanche, un coefficient proche de 0 témoigne d’une faible association ou d’une absence totale de relation linéaire.

Pearson et Spearman : deux coefficients de corrélation courants

Il existe plusieurs types de coefficients de corrélation, mais les plus fréquemment utilisés sont ceux de Pearson et de Spearman :

Le coefficient de corrélation de Pearson, également appelé « corrélation de product-moment », évalue la force et la direction de la relation linéaire entre deux variables continues ou discrets mesurées sur une échelle d’intervalle ou de rapport.
Le coefficient de corrélation de Spearman, ou « rho de Spearman », est une mesure non-paramétrique de la dépendance au rang entre deux variables ordinales. Il permet notamment de détecter des relations monotones, même lorsque celles-ci ne sont pas linéaires.

Calculer le coefficient de corrélation : méthodes et étapes

La procédure pour déterminer le coefficient de corrélation varie en fonction du type choisi (Pearson ou Spearman). Voici un aperçu des principales étapes à suivre pour chaque méthode :

Formule du coefficient de corrélation de Pearson

La formule de base pour calculer le coeffcient de corrélation de Pearson est la suivante :

r = ∑((Xi - Xm)(Yi - Ym)) / √(∑(Xi - Xm)^2 • ∑(Yi - Ym)^2)

Xi représente la valeur de la variable X pour l’observation i;
Yi correspond à la valeur de la variable Y pour l’observation i;
Xm désigne la moyenne des observations de la variable X;
Ym indique la moyenne des observations de la variable Y.

Pour obtenir le coefficient de correlation de Pearson, on effectue les opérations suivantes sur l’ensemble des observations :

Calculer les écarts entre chaque observation et la moyenne respective de sa variable;
Multiplier les écarts obtenus pour les deux variables;
Sommer ces produits d’écarts;
Diviser ce total par la multiplication des sommes des carrés des écarts.

Calcul du rho de Spearman

Le coefficient de corrélation de Spearman est basé sur les rangs des observations plutôt que sur leurs valeurs. Pour le calculer, on suit généralement les étapes suivantes :

Attribuer un rang à chaque observation selon son ordre croissant ou décroissant au sein de sa variable;
Déduire la moyenne des rangs de chaque observation;
Multiplier les écarts obtenus pour les deux variables;
Sommer ces produits d’écarts;
Diviser ce total par les sommes des carrés des écarts.

Notez que l’utilisation du coefficient de corrélation adéquat dépendra du type de données et des objectifs de votre analyse. Il est également important de rappeler que le coefficient de corrélation ne prouve pas l’existence d’une relation causale entre deux variables, mais peut simplement mettre en évidence leur association linéaire. Enfin, il convient de prendre en compte d’autres paramètres statistiques pour compléter votre étude et interpréter avec justesse les résultats.

Quelques exemples d’utilisation du coefficient de corrélation

Pour bien appréhender la notion de corrélation, prenons le cas d’une étude sur la réussite scolaire. Si l’on mesure le nombre d’heures d’étude hebdomadaires d’un groupe d’étudiants et leurs résultats aux examens, on constate souvent une relation linéaire positive : plus les étudiants étudient, meilleures sont leurs notes. Si l’on obtient un coefficient de corrélation de +0,85, cela traduit une forte liaison dans le même sens.

Dans un autre contexte, on peut observer une corrélation négative. Par exemple, si l’on compare la quantité d’alcool consommée et le temps de réaction au volant, un coefficient de -0,70 indiquerait que plus la consommation d’alcool est élevée, plus le temps de réaction est long. Ces deux exemples montrent bien que le coefficient traduit l’intensité et le sens d’une relation, mais en aucun cas une causalité.

Comment interpréter les valeurs du coefficient de corrélation

Il est essentiel de savoir lire la valeur de r pour en tirer des conclusions justes. Plus ce coefficient est proche de 1 ou de -1, plus la relation linéaire entre les deux variables est forte. À l’inverse, une valeur proche de 0 indique une absence de lien linéaire.

En général, une valeur inférieure à 0,3 révèle une corrélation faible ou négligeable. Entre 0,3 et 0,5, la relation est modérée. Au-delà de 0,5, on parle de corrélation forte, et au-delà de 0,7, la relation est considérée comme très forte. Toutefois, il convient de rester prudent : un coefficient élevé ne prouve jamais un lien de cause à effet.

Différences d’usage entre Pearson et Spearman

Le choix entre Pearson et Spearman dépend du type de données que l’on souhaite analyser. Pearson est idéal lorsque l’on travaille avec des données quantitatives continues présentant une relation linéaire. Il nécessite aussi une distribution normale des variables.

À l’inverse, Spearman est recommandé lorsque les données ne suivent pas une loi normale, qu’elles sont ordinales ou que la relation semble monotone sans être linéaire. Dans des domaines comme la psychologie ou les sciences sociales, où les données sont souvent rangées ou subjectives, Spearman est souvent plus pertinent.

Conseils pour une bonne interprétation statistique

Un coefficient de corrélation ne devrait jamais être utilisé isolément. Il est fortement conseillé d’accompagner cette mesure d’un graphique en nuage de points. Ce visuel permet de repérer visuellement des relations non linéaires ou la présence d’éléments aberrants. De plus, la significativité statistique du coefficient peut être évaluée à l’aide d’une p-value. Si celle-ci est inférieure à 0,05, on peut considérer que le lien observé n’est probablement pas dû au hasard.

Enfin, la taille de l’échantillon est cruciale. Des coefficients obtenus à partir d’un petit nombre d’observations peuvent être instables et trompeurs. Une analyse robuste repose toujours sur plusieurs indicateurs complémentaires.

Valeur de r	Signification
0 à ±0,3	Relation faible ou inexistante
±0,3 à ±0,5	Relation modérée
±0,5 à ±0,7	Relation forte
±0,7 à ±1	Relation très forte