V.1.2.3 - Dernière mise à jour : 15/10/2019
- Qu'est ce qu'un test de significativité ?
Cette fiche mémo est, pour partie, librement inspirée d'un exemple traité dans le CHADULE (cf. CHADULE 1987, p.174).
Exemple du test d'indépendance du , prononcer Khi2*
- Lorsque l'on évalue l'intensité de la liaison entre 2 caractères qualitatifs X et Y, par exemple la réussite ou l'échec au bac (X) lorsque l'on est une fille ou un garçon (Y), on obtient un résultat compris entre :
- l'indépendance mathématique* ;
X et Y ne sont pas liés
=> dans notre exemple, que l'on soit fille ou garçon, on ne sait pas à l'avance qui aura le bac
- la liaison mathématique.
X et Y ne sont pas indépendants
=> dans notre exemple, le fait de connaître le sexe d'un individu implique la connaissance du résultat au bac
- fille = réussite
- garçon = échec (ou le contraire)
- Comment trancher ?
- Y a-t-il liaison ?
- Est-elle significative (au sens statistique) ?
On part de l'hypothèse nulle suivante :
H0 : il y a indépendance entre les deux caractères X et Y.
- L'écart à l'indépendance, entre des X et Y observés et des X et Y théoriques (lorsqu'ils sont indépendants), a une valeur (V) ;
- H0 vaut 0 quand il y a indépendance mathématique (absence de liaison).
L'écart V - 0 = V est-il significatif de :
- l'indépendance statistique entre X et Y ;
ou de
- la non indépendance statistique entre X et Y ?
- Trouver une valeur seuil V' qui permette de :
- rejeter H0 quand V > V'
- accepter H0 quand V < V'
- La valeur seuil V' est lue dans une table, dite ici table du Khi2, qui fournit les probabilités cumulées V - 0.
- Pourquoi une valeur seuil ?
- X et Y sont renseignés à l'aide d'un échantillon
Lorsque l'on observe une série d'échantillons, on constate que :
- l'échantillonnage provoque des fluctuations aléatoire de V - 0 ;
- d'un échantillon à l'autre cette quantité varie ;
- V - 0 est également une variable qui suit une loi (le modèle du test)
dont un des paramètres est le nombre de degrés de libertés (cf. Annexe n°1 )
Ces fluctuations aléatoires expliquent l'existence d'un risque d'erreur dans l'acceptation ou le rejet de H0.
- On se fixe un risque d'erreur noté .
- Si = 0,05, soit 5% :
- On accepte de rejeter dans 5 cas sur 100, par erreur, l'hypothèse nulle H0 alors quelle est vraie (faux rejet).
- La table, ici table du Khi2, fournit la valeur seuil V' correspondant à :
- un risque d'erreur choisi ;
- un d.d.l. calculé .
Le risque d'erreur est la probabilité que V (observée) dépasse V' (lue) dans le cas de l'indépendance entre X et Y.
- si V > V' on rejette H0
=> ce n'est pas le hasard qui fait que, dans notre exemple, les filles réussissent et les garçons échouent
- si V < V' on accepte H0
=> c'est le hasard qui fait que, dans notre exemple, les filles réussissent et les garçons échouent
Remarques :
- Cette procédure de test ne permet pas de se prononcer sur la dépendance entre X et Y :
Elle permet simplement d'accepter ou de rejeter l'indépendance H0.
- On peut commettre une autre erreur :
accepter l'hypothèse nulle alors qu'elle est fausse (fausse acceptation) !
Dans la pratique, on ne tient pas compte de ce risque, car sa mesure est très délicate !!!
On souhaite répondre à la question : y a-t-il indépendance entre l'année d'enquête [échantillonnage sur photo-aériennes (cf. TP n°1 du cours d'enquête)], la variable X, et l'urbanisation, exprimée en bâti / non bâti, la variable Y, dans le secteur de Volx (04).
tab. 1 - Table de contingence issue de deux photo-interprétations en 1960 et 1990 en bâti / non bâti
Années \ Urbanisation Bâti Non Bâti Total 1960 98 1182 1280 théorique 124,16 1155,84
1990 96 624 720 théorique 69,84 650,16
Total 194 1806 2000
On pose H0 : il y a indépendance entre la date de prise de vues (1960 ou 1990) et le bâti observé.
On calcule la valeur V de l'écart à l'indépendance entre X et Y :
= (98-124,16)2/ 124,16 + (1182-1155,84)2/ 1155,84 + (96-69,84)2/ 69,84 + (624-650,16)2/ 650,16 = 16,888
- On détermine la valeur seuil V'.
Comme V a été déterminée selon la métrique* du , la valeur-seuil V' est lue dans la table du (cf. Table n°1 ).
- pour un risque d'erreur fixé dans l'exemple = 0,05 ;
- pour un nombre de degrés de liberté (d.d.l.) :
formule n°1 - (mema1enq.htm)
Avec :
n nombre de modalités de la 1ère variable (X) ;
p nombre de modalités de la 2e variable (Y).
donc = 1
et V', lue dans la table vaut :
V' = 3,841
- V est supérieure à V'
=> 16,888 > 3,841
H0 est rejetée, il n'y a pas indépendance entre la date de prise de vue et la densité du bâti à Volx.
En fait, on devrait dire : on rejette H0 car il y a moins de 5 p.100 de chances (voire moins de 1 pour 1000) d'observer cet échantillon si H0 est vraie ! Pour plus d'explication voir l'ouvrage de Denis POINSOT (POINSOT, 2004), en particulier la section "7.2 détail des étapes d'un test statistique"
Cette dépendance est même significative au seuil de 1 p.1 000 ( = 0,001)
- Dans la pratique, on peut supposer qu'il existe une relation entre X et Y.
- Ici, dans l'hypothèse nulle H0, la courbe de régression dans la population d'origine est une droite horizontale (cf. SCHWARTZ 1991, p.210-211).
- Dans l'échantillon,
- la droite de régression fluctue autour de l'horizontale ;
donc
- le coefficient r, qui exprime sa pente en coordonnées réduites, fluctue autour de 0.
- La loi de probabilité qui décrit cette fluctuation est résumée dans la table du coefficient de corrélation (cf. Table n°3 ).
Elle donne la correspondance entre :
- un intervalle de pari [- r ; + r] ;
- le risque d'erreur correspondant ;
en général, = 5 %
- le nombre de d.d.l. (cf. Annexe n°1 ).
dans le cas d'une corrélation linéaire simple, = n - 2
- Principe du test
Si on dispose d'un échantillon de m couples (x ; y) :
on peut calculer r sur l'échantillon
Ce test se déduit, selon le mode habituel, du problème des paris.
Prenons un exemple :
On souhaite répondre à la question : la corrélation entre les variables UNEM (chômage) et SUIC (suicide) pour les 18 villes états-uniennes est-elle significative (cf. Matrice des corrélations du cours d'analyse de données en Master 2) ?
On pose H0 : il y a indépendance entre le chômage (X) et le suicide (Y).
On lit la valeur V de l'écart à l'indépendance entre X et Y dans le tableau de la matrice des corrélations :
r = 0,64
- La valeur-seuil V' est lue dans la table du coefficient de corrélation du r de Bravais-Pearson (cf. Table n°3 ).
- pour un risque d'erreur fixé, dans l'exemple = 0,05 ;
- pour un nombre de degrés de liberté (d.d.l.) :
= n - 2 = 18 - 2 = 16
et V', lue dans la table vaut :
V' = 0,4683
- V est supérieure à V'
=> 0,64 > 0,47
H0 est rejetée, il n'y a pas indépendance entre le chômage et le suicide pour ces 18 villes.
- On peut dire que :
- r diffère significativement de 0 au seuil de 5 % ;
- que H0, l'hypothèse d'indépendance, doit être rejetée, avec le risque de 1ère espèce < 0,05 %.
En fait, on devrait dire : on rejette H0 car il y a moins de 5 p.100 de chances d'observer cet échantillon si H0 est vraie ! Pour plus d'explication voir l'ouvrage de Denis POINSOT (POINSOT, 2004), en particulier la section "7.2 détail des étapes d'un test statistique"
- On peut même dire que :
- r diffère significativement de 0 au seuil de 1 %
- Dans la pratique, on peut supposer qu'il existe une relation entre X et Y.
Quand la relation n'est pas linéaire, ce qui est le cas ici, il est préférable de tester la corrélation des rangs de Kendall ou de Spearman.
et de comparer le coefficient obtenu avec celui lu dans la table du r de Bravais-Pearson (cf. Table n°3 ).
- Limite de la table du coefficient de corrélation de Bravais-Pearson
Cette table (cf. Table n°3 ) ne donne pas d'informations si :
- le nombre de d.d.l. dépasse 100 ;
- le risque retenu est inférieur à 1 %.
- Cependant, il est possible d'obtenir une réponse en utilisant la formule suivante (surtout, voire uniquement, si la relation entre les variables est linéaire et monotone) :
formule n°1 - (mema2enq.htm)
Avec :
t le coefficient de Student ;
r le coefficient de corrélation linéaire de Bravais-Pearson ;
n le nombre de couples.
Dans notre exemple :
t = {0,64 / [1 - (0,64)2]1/2}*(n - 2)1/2 = 3,33
La valeur-seuil V' est lue dans la table du t (cf. Table n°2 ).
- V est supérieure à V'
=> 3,33 > 2,12
H0 est rejetée, il n'y a pas indépendance entre le chômage et le suicide pour ces 18 villes, au risque de 1ère espèce < 5 %.
- On peut même dire que :
- que H0, l'hypothèse d'indépendance, doit être rejetée, avec le risque de 1ère espèce compris entre :
0,01 < < 0,001
car
2,92 < 3,33 < 4,02
NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.