V.1.2 - Dernière mise à jour : 07/01/2010
Comment tester l'intensité d'une liaison qualitative / quantitative ?
Hypothèse sur la normalité de la variable quantitative
- La variable quantitative a une distribution proche de la normale
- tests paramétriques
- La variable quantitative a une distribution non normale
- tests non paramétriques
Cette partie de la fiche guide est en : Un peu de patience !!!
- Quelles sont les conditions d'application des tests non paramétriques ?
Lorsque,
- pour la variable quantitative, il n'est pas possible d'émettre certaines hypothèses :
- normalité de la distribution ;
- égalité des variances...
- la taille de l'échantillon devient trop faible (hypothèses précédentes invérifiables !).
On utilise des tests non paramétriques
Le test du Khi2, vu à la fiche mémo 5.1, est un test non paramétrique.
Les méthodes non paramétriques peuvent traiter la totalité, ou presque, des relations entre variables qualitatives et quantitatives.
On souhaite comparer la moyenne des surfaces rangées par ordre croissant des deux groupes a et b (communes, parcelles...) :
a 11 21 25 52 71 79 b 22 43 72 91 116 - ma = 6 et mb = 5 ;
ma+b = 11.
Pour comparer les moyennes il faudrait utiliser le test t de Student, mais il est impossible de vérifier les hypothèses : de normalité de la distribution, d'égalité des variances, etc.
donc il faut utiliser un des tests suivants (deux parmi les plus courants) :
- Test U de Mann et Whitney
- Test de Wilcoxon
On va créer un indice Uba tel que :
Uba est le nombre des couples (a , b) où :
b < a
- Il faut trier les observations par ordre croissant, ce qui donne pour notre exemple :
a < a < b < a < b < a < a < b < a < b < b
car
11 < 21 < 22 < 25 < 43 < 52 < 71 < 72 < 79 < 91 < 116
- Puis de compter pour chaque a le nombre de b qui lui sont inférieurs et d'en faire la somme.
Pour nous ici :
Uba = 0 + 0 + 1 + 2 + 2 + 3 = 8
On pourrait tout aussi bien comparer les
a < b
l'indice serait Uab = 22, car
Uab + Uba = ma * mb = 30
le nombre de comparaisons
L'utilisation de Uab + Uba conduit au même résultat.
Uba peut prendre toutes les valeurs entières comprises entre :
0 => tous les a < b
ma * mb => tous les b < a
Pour savoir si le test de U est significatif, il faut le comparer à la valeur théorique de l'hypothèse nulle.
Dans l'hypothèse nulle, pour un b déterminé, a a autant de chances de lui être :
- supérieur
que
- inférieur
formule n°1 - (mem52enq.htm)
Il en va de même pour Uab.
Quant à la variance de U (U désigne aussi bien Uab que Uba ), elle vaut :
formule n°2 - (mem52enq.htm)
Si on peut admettre que la distribution de U est normale, le test de l'écart réduit permet de savoir si U s'écarte significativement de U0 en consultant la table n°4.
formule n°3 - (mem52enq.htm)
En fait, c'est la valeur absolue de l'écart réduit que l'on calcule.
La formule est applicable dès que :
ma et mb sont > ou = 10
Pour de plus petits effectifs, pour notre exemple, il faut recourir à la table n°5.
La table de U (pour < ou = 5%) indique la borne inférieure de significativité.
=> Pour que la différence entre les deux groupes soit significative :
Il faut que la valeur calculée soit inférieure à celle lue dans la table.
Dans notre exemple,
ma - mb = 1
mb = 5 (le plus petit des effectifs)
UT = 3 (la valeur lue dans la table)
Uba = 8 >>> UT
Les deux séries ne diffèrent pas significativement au seuil 5%.
- Que faire en présence de nombreux ex aequo ?
Au moins 2 possibilités :
- Attribution d'un rang commun aux ex aequo ;
- Départage des ex aequo par tirage au sort.
Ce fichier est au format Excel98 (.xls) et "pèse" 97 ko..
- Refaire sous Excel les exemples pris dans Schwartz (SCHWARTZ 1991 pp 246-247)
Onglet => Schwartz
- Analyser les dégâts tempétueux pour deux forêts du massif de Conches-Breteuil (Eure)
Onglet => UMann
Exemple tiré de : AMAT (J.-P.), GODARD (V.), HOTYAT (M.) - 2003 - Bilan des dégâts : Milieu, gestion, histoire et scénarios de reconstitution dans les sylvosystèmes touchés par les tempêtes de décembre 1999, GIP-ECOFOR, Min. agriculture, 133 p.
Cette fois-ci, on compare le rang moyen des a et des b, ou, ce qui est équivalent les sommes des rangs.
En fait, comme les sommes des rangs sont liées,
la somme des rangs, Wa, vaut :
formule n°4 - (mem52enq.htm)
il suffit de considérer l'une d'entre elles.
Dans notre premier exemple, la somme des rangs des a, Wa , vaut :
Observations a a b a b a a b a b b Valeurs 11 21 22 25 43 52 71 72 79 91 116 Rangs 1 2 3 4 5 6 7 8 9 10 11 Wa = 1 + 2 + 4 + 6 + 7 + 9 = 29
(ou Wb = 3 + 5 + 8 + 10 + 11 = 37)
En fait, Wa et Uba sont liés par :
formule n°5 - (mem52enq.htm)
qu'on vérifie dans notre exemple par :
8 = 29 - 1/2 * 6 * 7
Pour savoir si le test de W est significatif, il faut le comparer à la valeur théorique de l'hypothèse nulle.
Dont la valeur attendue est :
formule n°6 - (mem52enq.htm)
La variance de Wa est de :
formule n°7 - (mem52enq.htm)
Si on peut admettre que la distribution de Wa est normale, le test de l'écart réduit permet de savoir si Wa s'écarte significativement de (Wa)0 en consultant la table n°4.
formule n°8- (mem52enq.htm)
En fait, c'est la valeur absolue de l'écart réduit que l'on calcule.
La formule est applicable dès que :
ma et mb sont > ou = 10
Pour de plus petits effectifs, pour notre exemple, il faudrait recourir à des tables spécifiques. Il vaut mieux à ce moment là passer par le test de U et utiliser la table n°5.
- Reprise de l'exemple précédent (traité pour le U de Mann et Whitney)
- Refaire sous Excel les exemples pris dans Schwartz (SCHWARTZ 1991, pp 246-247)
Onglet => Schwartz
- Analyser les dégâts tempétueux pour deux forêts du massif de Conches-Breteuil (Eure)
Onglet => Wilkin
- Test H de Kruskall et Wallis
Communiquez-moi par courrier électronique les réponses aux questions suivantes Question n°5.2.1. Si la valeur U du test de Mann et Whitney lue dans la table dépasse celle calculée :
Question n°5.2.2. La comparaison du rang moyen relève plutôt du test :
|
NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.