Vincent GODARD

Département de Géographie

Université de Paris 8


V.1.2 - Dernière mise à jour : 07/01/2010

 

Fiche Mémo n°5.2. du cours d'enquête :

Liaisons entre une variable qualitative et une variable quantitative

 

Comment tester l'intensité d'une liaison qualitative / quantitative ?

 

Hypothèse sur la normalité de la variable quantitative

- La variable quantitative a une distribution proche de la normale

- tests paramétriques

- La variable quantitative a une distribution non normale

- tests non paramétriques

 

1. Tests paramétriques

Cette partie de la fiche guide est en :

Un peu de patience !!!

 

2. Tests non paramétriques

- Quelles sont les conditions d'application des tests non paramétriques ?

Lorsque,

- pour la variable quantitative, il n'est pas possible d'émettre certaines hypothèses :

- normalité de la distribution ;

- égalité des variances...

- la taille de l'échantillon devient trop faible (hypothèses précédentes invérifiables !).

On utilise des tests non paramétriques

Le test du Khi2, vu à la fiche mémo 5.1, est un test non paramétrique.

Les méthodes non paramétriques peuvent traiter la totalité, ou presque, des relations entre variables qualitatives et quantitatives.

 

2.1. Liaison entre un caractère quantitatif et un caractère qualitatif à deux classes

On souhaite comparer la moyenne des surfaces rangées par ordre croissant des deux groupes a et b (communes, parcelles...) :

a

11

21

25

52

71

79

b

22

43

72

91

116

-

ma = 6 et mb = 5 ;

ma+b = 11.

Pour comparer les moyennes il faudrait utiliser le test t de Student, mais il est impossible de vérifier les hypothèses : de normalité de la distribution, d'égalité des variances, etc.

donc il faut utiliser un des tests suivants (deux parmi les plus courants) :

- Test U de Mann et Whitney

- Test de Wilcoxon

 

2.1.1. Test U de Mann et Whitney

On va créer un indice Uba tel que :

Uba est le nombre des couples (a , b) où :

b < a

- Il faut trier les observations par ordre croissant, ce qui donne pour notre exemple :

a < a < b < a < b < a < a < b < a < b < b

car

11 < 21 < 22 < 25 < 43 < 52 < 71 < 72 < 79 < 91 < 116

- Puis de compter pour chaque a le nombre de b qui lui sont inférieurs et d'en faire la somme.

Pour nous ici :

Uba = 0 + 0 + 1 + 2 + 2 + 3 = 8

On pourrait tout aussi bien comparer les

a < b

l'indice serait Uab = 22, car

Uab + Uba = ma * mb = 30

le nombre de comparaisons

L'utilisation de Uab + Uba conduit au même résultat.

Uba peut prendre toutes les valeurs entières comprises entre :

0 => tous les a < b

ma * mb => tous les b < a

Pour savoir si le test de U est significatif, il faut le comparer à la valeur théorique de l'hypothèse nulle.

Dans l'hypothèse nulle, pour un b déterminé, a a autant de chances de lui être :

- supérieur

que

- inférieur

formule n°1 - (mem52enq.htm)

Il en va de même pour Uab.

Quant à la variance de U (U désigne aussi bien Uab que Uba ), elle vaut :

formule n°2 - (mem52enq.htm)

Si on peut admettre que la distribution de U est normale, le test de l'écart réduit permet de savoir si U s'écarte significativement de U0 en consultant la table n°4.

formule n°3 - (mem52enq.htm)

En fait, c'est la valeur absolue de l'écart réduit que l'on calcule.

La formule est applicable dès que :

ma et mb sont > ou = 10

Pour de plus petits effectifs, pour notre exemple, il faut recourir à la table n°5.

La table de U (pour < ou = 5%) indique la borne inférieure de significativité.

 

=> Pour que la différence entre les deux groupes soit significative :

Il faut que la valeur calculée soit inférieure à celle lue dans la table.

Dans notre exemple,

ma - mb = 1

mb = 5 (le plus petit des effectifs)

UT = 3 (la valeur lue dans la table)

Uba = 8 >>> UT

Les deux séries ne diffèrent pas significativement au seuil 5%.

 

- Que faire en présence de nombreux ex aequo ?

Au moins 2 possibilités :

- Attribution d'un rang commun aux ex aequo ;

- Départage des ex aequo par tirage au sort.

- Analyse d'un exemple

Téléchargement du tableau n°2

Ce fichier est au format Excel98 (.xls) et "pèse" 97 ko..

- Refaire sous Excel les exemples pris dans Schwartz (SCHWARTZ 1991 pp 246-247)

Onglet => Schwartz

- Analyser les dégâts tempétueux pour deux forêts du massif de Conches-Breteuil (Eure)

Onglet => UMann

Exemple tiré de : AMAT (J.-P.), GODARD (V.), HOTYAT (M.) - 2003 - Bilan des dégâts : Milieu, gestion, histoire et scénarios de reconstitution dans les sylvosystèmes touchés par les tempêtes de décembre 1999, GIP-ECOFOR, Min. agriculture, 133 p.

 

2.1.2. Test W de Wilcoxon

Cette fois-ci, on compare le rang moyen des a et des b, ou, ce qui est équivalent les sommes des rangs.

En fait, comme les sommes des rangs sont liées,

la somme des rangs, Wa, vaut :

formule n°4 - (mem52enq.htm)

il suffit de considérer l'une d'entre elles.

Dans notre premier exemple, la somme des rangs des a, Wa , vaut :

Observations

a

a

b

a

b

a

a

b

a

b

b

Valeurs

11

21

22

25

43

52

71

72

79

91

116

Rangs

1

2

3

4

5

6

7

8

9

10

11

Wa = 1 + 2 + 4 + 6 + 7 + 9 = 29

(ou Wb = 3 + 5 + 8 + 10 + 11 = 37)

En fait, Wa et Uba sont liés par :

formule n°5 - (mem52enq.htm)

qu'on vérifie dans notre exemple par :

8 = 29 - 1/2 * 6 * 7

Pour savoir si le test de W est significatif, il faut le comparer à la valeur théorique de l'hypothèse nulle.

Dont la valeur attendue est :

formule n°6 - (mem52enq.htm)

La variance de Wa est de :

formule n°7 - (mem52enq.htm)

 

Si on peut admettre que la distribution de Wa est normale, le test de l'écart réduit permet de savoir si Wa s'écarte significativement de (Wa)0 en consultant la table n°4.

formule n°8- (mem52enq.htm)

En fait, c'est la valeur absolue de l'écart réduit que l'on calcule.

La formule est applicable dès que :

ma et mb sont > ou = 10

Pour de plus petits effectifs, pour notre exemple, il faudrait recourir à des tables spécifiques. Il vaut mieux à ce moment là passer par le test de U et utiliser la table n°5.

- Reprise de l'exemple précédent (traité pour le U de Mann et Whitney)

- Refaire sous Excel les exemples pris dans Schwartz (SCHWARTZ 1991, pp 246-247)

Onglet => Schwartz

- Analyser les dégâts tempétueux pour deux forêts du massif de Conches-Breteuil (Eure)

Onglet => Wilkin

 

2.1.3. Cas des séries appariées, Test T de Wilcoxon

 

2.2. Liaison entre un caractère quantitatif et un caractère qualitatif à plus de deux classes

- Test H de Kruskall et Wallis

 

 

 

3. Test de compréhension

Communiquez-moi par courrier électronique les réponses aux questions suivantes

Question n°5.2.1. Si la valeur U du test de Mann et Whitney lue dans la table dépasse celle calculée :

a) Les deux séries diffèrent significativement

b) Les deux séries ne diffèrent pas significativement

Question n°5.2.2. La comparaison du rang moyen relève plutôt du test :

a) U de Mann et Whitney

b) W de Wilcoxon

 

Précisez à la rubrique objet :

EC enquête

puis dans le corps du message vos

n° d'étudiant, nom et prénom

puis vos

réponses

vgodard@univ-paris8.fr

 

 

Retour au début de la fiche Mémo

 

Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.