Vincent GODARD

Département de Géographie

Université de Paris 8


V.2.31 - Dernière mise à jour : 07/01/2010

 

Fiche Mémo n°5.1. du cours d'enquête :

Liaisons entre deux variables qualitatives

 

Comment étudier 2 à 2 des variables qualitatives ?

- cas des variables à 2 modalités

- cas des variables à plus de 2 modalités

 

1. Liaisons entre deux variables qualitatives dichotomiques

Dichotomiques = deux modalités

 

1.1. Tris à plat et tris croisés

Pour passer du tableau de collecte à celui de contingence*

- Qui réussit le mieux au Bac ?

Exemple du chef d'établissement :

- Pour chaque élève, il connaît son sexe et son résultat

tab. 1 - Tableau élémentaire

Identificateur de l'élève

Sexe

Résultats

1 = masculin

+ = réussite

2 = féminin

- = échec

1

1

+

2

2

+

3

2

-

4

2

+

...

...

...

200

1

-

V1 - le sexe => variable nominale dichotomique (2 modalités) repérée et explicative

V2 - les résultats => variable nominale dichotomique (2 modalités) repérée et à expliquer

- Résultats sont reportés dans un tableau dit tableau de contingence* (croisé* ou à double entrée)

tab. 2 - Tableau de contingence

Réussite

Échec

Total Lignes

Garçon

30

40

70

Fille

90

40

130

Total Colonnes

120

80

200

- La distribution marginale* correspond au tri à plat de la variable

On voit en :

- Total lignes => + de filles que de garçons à se présenter

- Total Colonnes => + de réussite que d'échecs dans cet établissement

- dans les cases => 30 garçons qui réussissent, etc...

- Mais, qui réussit le mieux ?

 

1.2. Évaluation numérique du lien

Construction des résultats

 

1.2.1. Analyse des pourcentages

2 calculs de pourcentages sont possibles :

en lignes et en colonnes

 

1.2.1.1. Analyse des pourcentages en lignes

- Que ce passe-t-il si le nombre de garçons et de filles devient identique ?

égal à 100 par exemple

tab. 3 - Pourcentages en lignes

Réussite

Échec

Total Lignes

Garçon

30 / 70 = 43%

40 / 70 = 57%

70 / 70 = 100%

Fille

90 / 130 = 69%

40 / 130 = 31%

130 / 130 = 100%

Total Colonnes

120 / 200 = 60%

80 / 200 = 40%

- Donc

- les filles réussissent mieux au Bac (69%) que le garçons (43%)

- le taux d'échec des garçons (57%) est supérieur à celui des filles (31%)

s'il y avait indépendance, les résultats seraient identiques

- le taux de réussite est supérieur au taux d'échec

 

1.2.1.1. Analyse des pourcentages en colonnes

- Que ce passe-t-il si le nombre de réussites et d'échecs devient identique ?

égal à 100 par exemple

tab. 4 - Pourcentages en colonnes

Réussite

Échec

Total Lignes

Garçon

30 / 120 = 25%

40 / 80 = 50%

70 / 200 = 35%

Fille

90 / 120 = 75%

40 / 80 = 50%

130 / 200 = 65%

Total Colonnes

120 / 120 = 100%

80 / 80 = 100%

- Donc

Les garçons qui représentent 35% de l'effectif contribuent pour :

- 25% des réussites

- 50% des échecs

Or, ils étaient supérieurs pour le calcul en lignes !!!

- La méthode des pourcentages ne permet de raisonner que sur l'axe des 100%

pas les 2 en même temps

- Mais elle permet de décrire les relations

 

1.2.2. Analyse de l'écart à l'indépendance

Il existe une manière de raisonner sur les lignes et les colonnes

Il faut comparer les résultats observés à ceux obtenus en cas d'indépendance (calculés ou théoriques)

 

1.2.2.1. Effectif calculés

- Calcul de l'effectif théorique d'une case

(Total Ligne * Total Colonne) / Nb total d'unités stat = Effectif si indépendance entre sexe et résultats

en respectant disparité du nombre de filles et de garçons

tab. 5 - Effectifs théoriques

Réussite

Échec

Total Lignes

Garçon

(70 * 120) / 200 = 42

(70*80) / 200 = 28

70

Fille

(130 * 120) / 200 = 78

(130 * 80) / 200 = 52

130

Total Colonnes

120

80

200

NB : On peut en calculer 1 cellule et en déduire les 3 autres.

42 - 120 = 78 réussites des filles

70 - 42 = 28 échecs des garçons

- Peut-on mesurer l'écart entre l'effectif calculé (théorique) et l'observé ?

 

1.2.2.2. Écarts bruts à l'indépendance

tab. 6 - Écarts bruts à l'indépendance

Réussite

Échec

Total Lignes

Garçon

30 - 42 = -12

40 - 28 = +12

0

Fille

90 - 78 = +12

40 - 52 = -12

0

Total Colonnes

0

0

- Résultat positif = sur-représentation

il y a plus d'élèves dans cette case que l'indépendance ne le laissait penser

- Résultat négatif = sous-représentation

il y a moins d'élèves dans cette case que l'indépendance ne le laissait penser

- Mais, les écarts bruts sont à relativiser avec les effectifs théoriques attendus

Car, l'écart brut de +12 est le même dans 1 case à 78 individus et une à 28.

 

1.2.2.3. Écarts pondérés à l'indépendance

- Calcul de l'écart pondéré d'une case

(Effectif observé - Effectif calculé) / Effectif calculé

tab. 7 - Écarts pondérés à l'indépendance

Réussite

Échec

Garçon

(30 - 42) / 42 = -0,29

(40 - 28) / 28 = +0,43

Fille

(90 - 78) / 78 = +0,15

(40 - 52) / 52 = -0,23

L'écart le plus important => échec relatif des garçons

C'est cette case qui :

- contribue le plus à l'écart global

- apporte le plus d'information sur le lien entre les 2 variables

Remarque : si l'effectif théorique est faible, la pondération est à prendre avec circonspection

 

1.3. Significativité globale du lien

Pour tester la significativité des résultats

Il peut être utile d'aller plus loin que la sur ou la sous représentation case par case

Il peut être nécessaire d'obtenir 1 indice globale du lien

surtout pour comparer des résultats

 

1.3.1 Indice du Khi2

L'indice du , prononcer Khi2*, est dû à Karl Pearson (Mathématicien anglais, 1857 - 1936)

formule n°1 - (mem51enq.htm)

Avec :

oi valeur de la case observée ;

ci valeur de la case calculée ;

j étant égale à 4 pour 2 variables dichotomiques.

Pour l'ensemble des 4 cases

Si < 3,84 la différence n'est pas significative au seuil de 5%

Si > ou = 3,84 la différence est significative au seuil de 5%

- Le degré de signification est lu dans la table du (cf. Table n°1)

pour 1 degré de liberté (ddl).

- le n'est significatif que si les effectifs calculés sont > ou = 5 dans chaque case

Exemple du bac (suite) :

- Les résultats des filles et des garçons sont-ils identiques ?

- Les différences sont-elles dues au hasard ?

On formule le test de significativité suivant (cf. Annexe 2), où l'hypothèse nulle* est :

H0 : il y a indépendance entre les résultats des filles et des garçons (les différences sont dues au hasard)

= (30-42)2/42 + (40-28)2/28 + (90-78)2/78 + (40-52)2/52 = 3,43 + 5,14 + 1,85 + 2,77 = 13,19

Donc rejet de l'Hypothèse nulle,

la différence est significative au seuil de 5%

Si on est une fille ou un garçon, on n'a pas la même "chance" d'être reçu au bac !

- Pour plus de précision,

on recherche dans la table de l'écart-réduit (cf. Table n°4) au risque correspondant à la

Uniquement pour les tableaux à 4 cases

où on a 2 caractères nominaux dichotomiques

Exemple du bac (suite) :

= = 3,63

3,29 < < 3,89

Donc la différence est significative au seuil de 1 p.1 000

Exemple de Volx :

tab. 8 - Table de contingence : l'urbanisation à Volx

Années \ Urbanisation

Bâti

Non Bâti

Total

1960

98

1182

1280

théorique

124,16

1155,84

1990

96

624

720

théorique

69,84

650,16

Total

194

1806

2000

= (98-124,16)2/ 124,16 + (1182-1155,84)2/ 1155,84 + (96-69,84)2/ 69,84 + (624-650,16)2/ 650,16 = 16,888

La différence est significative au seuil de 1 p.1 000

- Mais pour plus de précision, on lit dans la table de l'écart-réduit :

= 4,11

si 3,89 < < 4,42

alors 0,000 1 < < 0,000 01

Donc la différence est significative au seuil de 1 p.10 000

 

1.3.2. Correction de YATES

Dans le cas de petits échantillons

- lorsque p ou q < 5

- mais supérieurs à 1

[sinon agréger ou recourir aux tables (2A ou 2B, et p.96 de SCHWARTZ 1991)]

formule n°2 - (mem51enq.htm)

 

- C'est une solution approchée

on diminue la valeur absolue de l'écart de 1/2

- Si on n'applique pas cette correction

on risque de conclure à tort à une signification

- La correction est valable quelque soit la taille de l'échantillon

mais que sur des variables dichotomiques

elle n'est appréciable que si l'échantillon est faible

 

1.3.3. Cas des distributions appariées

Si les variables ne sont pas indépendantes

Cas :

- de la double correction

ce n'est pas la correction de 2 échantillons de copies d'un même examen

- d'une succession de traitements (culturaux, médicaux)

c'est le même individu à deux époques successives

Alors, ils faut utiliser une formule de l'écart-réduit ou un modifié

Exemple :

- Les 2 photo-interprètes notent-ils pareils ?

Quand corrélation ne signifie pas concordance !

100 points de contrôle ont été inventoriés tour à tour par 2 photo-interprètes

On a donc 100 couples de notes dont on relève juste si elles concordent

tab. 9 - Résultats d'un double contrôle

Résultats avec les photo-interprètes

Nombre de points

A

B

-

-

35

-

+

5

+

-

15

+

+

45

Total

100
Par exemple :

- => Non bâti

+ => Bâti

On laisse de côté les 35 "--" et les 45 "++" qui n'apportent rien à la question.

On compare les réponses divergentes (- + et + -)

- Méthode adaptée de l'écart-réduit

formule n°3 - (mem51enq.htm)

a = - +

et

b = + -

Si | | < 1,96 la différence n'est pas significative au seuil de 5%

Si | | > ou = 1,96 la différence est significative au seuil de 5%

- Le degré de signification est lu dans la table de l'écart-réduit .

- La méthode n'est applicable que si :

- (a + b) / 2 > ou = 5

- le nombre de paires considérée dépasse 10

Exemple :

= |15 - 5 | / (15+ 5)(1/2) = 10 / (20)(1/2) = 2,24

Les différences de correction sont significatives avec 1 risque inférieur à 3%

- Il est également possible d'utiliser le à un degré de liberté

formule n°4 - (mem51enq.htm)

Qui est simplement le carré de l'écart-réduit

- Dans le cas de petits échantillons sur des séries appariées

Les corrections sont les suivantes :

- pour l'écart réduit

formule n°5 - (mem51enq.htm)

- pour le

formule n°6 - (mem51enq.htm)

Conditions d'application :

- Méthode recommandée

quand les effectifs théoriques sont proches de 5

- Méthode insuffisante

quand les effectifs théoriques sont proches de 1 ou 2

Recourir aux tables (tables 2A et 2B SCHWARTZ 1991 pp 282-283)

Dans les séries appariées, il faut :

- tester la différence

mais aussi

- le degré de concordance des réponses

Ce qu'on verra au prochain chapitre (cf. 2.2.3. Notion de concordance)

 

1.4. Intensité globale du lien

Pour tester l'intensité de la liaison entre les deux variables

- Lorsque la liaison est significative

On teste l'intensité de la relation entre les deux caractères

- Un grand nombre de coefficients existe :

YULE, KENDALL, de contingence, etc.

- Ces coefficients varient de :

0 => indépendance entre les deux caractères

à

1 => liaison mathématique entre les deux caractères

Ce sont des nombres sans dimension.

- Le coefficient de Tschuprow*, qui utilise le calculé, est commode :

formule n°7 - (mem51enq.htm)

avec :

V => calculé ;

m => effectif total de l'échantillon de l'échantillon (ma + mb) ;

l => le nombre de modalités du caractère "en lignes" ;

c => le nombre de modalités du caractère "en colonnes" ;

Ce qui renvoie au nombre de degrés de liberté (d.d.1.)

d.d.l. = (l -1) * (c - 1)

Exemple :

- de Volx :

Reprise des résultats calculés sur le tableau 8

T = {16,888 / 2000 * [(2 - 1) * (2 - 1)]^(1/2)}^(1/2) = 0,09

L'indépendance est rejetée mais la liaison n'est pas significative pour autant.

On n'a pas :

- le désert en 1960 ;

- la ville en 1990 !

- du bac :

Reprise des résultats calculés sur l'exemple du bac

T = {13,19 / 200 * [(2 - 1) * (2 - 1)]^(1/2)}^(1/2) = 0,26

Là aussi, l'indépendance est rejetée mais la liaison n'est que faiblement significative.

Le sexe n'explique pas tout !

 

2. Liaisons entre deux variables qualitatives à plus de 2 modalités

Analyse très proche des variables qualitatives à 2 modalités

 

2.2.1. Variables nominales

Exemple : tiré de Homo Academicus, BOURDIEU, 1984, éd. de Minuit

- Y a t-il une relation entre la discipline choisie par les enseignants du supérieur et le lycée où ils ont effectué leurs études secondaires ?

Les 2 variables sont repérées

tab. 10 - Discipline et origine des enseignants du supérieur

a) Tableau de contingence

sciences

lettres

droit

médecine

total lignes

grand lycée parisien

29

47

9

8

93

autre lycée parisien

35

27

11

29

102

lycée de province

51

36

46

17

150

enseignement privé

8

9

20

11

48

total colonnes

123

119

86

65

393

b) Pourcentage en lignes

sciences

lettres

droit

médecine

total lignes

grand lycée parisien

31,2%

50,5%

9,7%

8,6%

100%

autre lycée parisien

34,3%

26,5%

10,8%

28,4%

100%

lycée de province

34,0%

24,0%

30,7%

11,3%

100%

enseignement privé

16,7%

18,7%

41,7%

22,9%

100%

total lignes

31,3%

30,3%

21,9%

16,5%

100%

c) Pourcentage en colonnes

sciences

lettres

droit

médecine

total lignes

grand lycée parisien

23,6%

39,5%

10,5%

12,3%

23,7%

autre lycée parisien

28,4%

22,7%

12,8%

44,6%

25,9%

lycée de province

41,5%

30,2%

53,5%

26,2%

38,2%

enseignement privé

6,5%

7,6%

23,2%

16,9%

12,2%

total lignes

100%

100%

100%

100%

100%

d) Effectifs théoriques

sciences

lettres

droit

médecine

total lignes

grand lycée parisien

29,1

28,2

20,4

15,3

93

autre lycée parisien

31,9

30,9

22,3

16,9

102

lycée de province

47,0

45,4

32,8

24,8

150

enseignement privé

15,0

14,5

10,5

8,0

48

total lignes

123

119

86

65

393

e) Écarts pondérés

sciences

lettres

droit

médecine

grand lycée parisien

0,003

0,670

-0,560

-0,480

autre lycée parisien

0,100

-0,130

-0,510

0,720

lycée de province

0,090

-0,210

0,400

-0,310

enseignement privé

-0,470

-0,380

0,900

0,390

- Quelles sont les cases qui contribuent le plus à ce lien global ?

Les 3 plus importantes sont positives = surreprésentation :

- enseignement privé et droit + 0,9

- autre lycée parisien et médecine + 0,72

- grand lycée parisien et lettres + 0,67

Il faut toutefois s'assurer de la dépendance entre discipline et établissement secondaire fréquenté.

- Indice et dépendance globale

On calcule le :

formule n°1 - (mem51enq.htm)

pour l'ensemble des cases

Puis on recherche le risque correspondant nombre de degrés de liberté (d.d.1.)

d.d.l. = (l -1) * (c - 1)

Si > 5% la différence n'est pas significative au seuil de 5%

Si < ou = 5% la différence est significative au seuil de 5%

et mesure son degré de signification

- Le degré de signification est lu dans la table du (cf. Table n°1)

- n'est significatif que si les effectifs calculés sont > ou = 5

Exemple BOURDIEU :

= [(29 - 29,1)2/29,1] + [(47 - 28,2)2/28,2] + ... + [(20 - 10,5)2/10,5] + [(11 - 8)2/8] = 62,93

avec d.d.l. = (4 -1) * (4 - 1) = 9

< 1 p.1 000 la différence est hautement significative

Donc il y avait liaison entre discipline et établissement secondaire fréquenté

Mais il faut préciser :

par rapport aux disciplines considérées et aux établissements considérés

Tout autre regroupement ou découpage peut donner 1 autre résultat

 

2.2.2. Variables ordinales en classes

Semblable à l'étude de variables nominales

Exemple : Les risques d'avalanche

Comparaison jour à jour du risque avalancheux pour 2 stations de ski sur environ 4 ans

- Y a t-il une différence entre les avis de risques avalancheux de la station A et de la station B ?

tab. 11 - Risque avalancheux pour 2 stations de ski

a) Tableau de contingence

Station A

faible

moyen

fort

total lignes

Station B

faible

20

100

30

150

moyen

200

20

30

250

fort

10

10

80

100

total colonnes

230

130

140

500

b) Pourcentage en lignes

Station A

faible

moyen

fort

total lignes

Station B

faible

13%

67%

20%

100%

moyen

80%

8%

12%

100%

fort

10%

10%

80%

100%

total colonnes

46%

26%

28%

100%

c) Pourcentage en colonnes

Station A

faible

moyen

fort

total lignes

Station B

faible

9%

77%

21%

30%

moyen

87%

15%

21%

50%

fort

4%

8%

57%

20%

total colonnes

100%

100%

100%

100%

d) Effectifs théoriques

Station A

faible

moyen

fort

total lignes

Station B

faible

69

39

42

150

moyen

115

65

70

250

fort

46

26

28

100

total colonnes

230

130

140

500

e) Écarts pondérés

Station A

faible

moyen

fort

Station B

faible

-0,7

+1,6

-0,3

moyen

+0,7

-0,7

-0,6

fort

-0,8

-0,6

+1,9

- Quelles sont les cases qui contribuent le plus à ce lien global ?

Les 2 plus importantes sont positives = surreprésentation :

- Risque fort pour les stations A et B + 1,9

- Risque faible pour B et fort pour A + 1,6

bien que :

- Plus de risques faibles pour A (% en lignes maxi à 46%)

- Plus de risques moyens pour B (% en colonnes maxi à 50%)

- Y a-t-il dépendance entre les 2 stations de ski ?

car de nombreux écarts à l'indépendance sont présents (+ ou - important)

- Indice et dépendance globale

- On calcul le pour l'ensemble des cases

- Puis on recherche le risque correspondant nombre de degrés de liberté (d.d.1.)

d.d.l. = (l -1) * (c - 1)

Si > 5% la différence n'est pas significative au seuil de 5%

Si < ou = 5% la différence est significative au seuil de 5%

et mesure son degré de signification

- Le degré de signification est lu dans la table du (cf. Table n°1)

- n'est significatif que si les effectifs calculés sont > ou = 5

Exemple Avalanches :

= [(20 - 69)2/69] + [(100 - 39)2/39] + ... + [(10 - 26)2/26] + [(80 - 28)2/28] = 385,1

avec d.d.l. = (3 -1) * (3 - 1) = 4

< 1 p.1 000 la différence est hautement significative

Quand on est dans l'une des modalités de A,

on est pas dans n'importe quelle autre de B

- La liaison est-elle forte ?

- Le calcul du coefficient de Tschuprow est de :

T = {385,1 / 500 * [(3 - 1) * (3 - 1)]^(1/2)}^(1/2) = 0,62

Cette fois si, la liaison est plus nettement significative.

Le risque avalancheux sur une station est assez fortement lié au risque connu sur l'autre

- Peut-on pour autant prédire B connaissant A (ou le contraire) ?

En clair,

- Peut-on supprimer 1 des 2 postes météo

et prédire le risque avalancheux de l'une sur l'autre ?

Cela signifierait qu'il y a concordance entre les modalités des 2 stations

 

2.2.3. Notion de concordance

- La concordance* s'observe par une surreprésentation de :

l'effectif observé / l'effectif théorique

sur la diagonale de la matrice

- Est-ce le cas dans l'exemple du risque avalancheux ?

- La concordance se calcule à l'aide d'indices (Kappa de COHEN, K de COLEMAN, ...)

Le Kappa, , teste le degré de concordance formulée sur chaque case concernée

=> sur la diagonale

formule n°8 - (mem51enq.htm)

où :

f(o) => effectif observé dans les cases de la diagonale ;

f(c) => effectif calculé dans les cases de la diagonale ;

les fréquences se calculent indifféremment sur les lignes ou les colonnes

j => le nombre de cases étudiées ;

m => nombre total d'observations.

Le coefficient varie de - 1 à + 1 :

- 1 concordance inverse (désaccord total)

0 indépendance

+ 1 concordance parfaite

tab. 12 - Exemple de concordance parfaite

observé

a

b

total lignes

a

10

0

10

b

0

10

10

total colonnes

10

10

20

calculé

a

b

total lignes

a

5

5

10

b

5

5

10

total colonnes

10

10

20

= {[(10 + 10) / 20] - [(5 + 5) / 20]} / {1 - [(5 + 5) / 20]} = 1

vaut 1 pour cette matrice

(et le vaut 20 pour 1 d.d.l., soit < 1 p.1 000):

Exemple Avalanches :

= {[(20 + 20 + 80) / 500] - [(69 + 65 + 28) / 500]} / [1 - (69 + 65 + 28)] / 500]

= (0,24 - 0,324) / (1 - 0,324) = - 0,124

- Le est proche de 0 signe d'indépendance

- Il est négatif, le peu de liaison est inverse

Donc on ne peut pas utiliser une station météo pour les 2 stations de ski.

Il n'y a pas concordance

pourtant le test du était hautement significatif !

- L'analyse du degré de concordance

s'applique aussi aux variables nominales

 

2.2.4. Regroupement des modalités

- Souvent utilisé quand :

- 1 ou plusieurs cases du tableau ont 1 effectif faible ;

- la diversité des modalités n'est pas indispensable

très peu et peu sont regroupées en non favorable

- Comment faire le bon regroupement ?

Exemple :

On classe 200 parcelles en fonction de la nature du peuplement et de l'espacement moyen entre les arbres.

- Existe-t-il une relation entre ces 2 variables ?

tab. 13 - Espacement moyen (3 classes) entre les arbres en fonction de la nature du peuplement

Effectifs observés

Espacement

Résineux

Feuillus

Total lignes

< 2,5 m

26

20

46

[2,5 m ; 5 m[

61

63

124

> 5 m

8

22

30

Total colonnes

95

105

200

Effectifs calculés

Espacement

Résineux

Feuillus

Total lignes

< 2,5 m

21,85

24,15

46

[2,5 m ; 5 m[

58,90

65,10

124

> 5 m

14,25

15,75

30

Total colonnes

95

105

200

= [(26 - 21,85)2 / 21,85] + [(20 - 24,15)2 / 24,15] + ... + [(8 - 14,25)2 / 14,25] + [(22 - 15,75)2 / 15,75] = 6,86

avec d.d.l. = (3 -1) * (2 - 1) = 2

Pour 2 d.d.l., la différence est significative

2% < <5%

Son sens est le suivant :

l'espacement le plus élevé se rencontre surout pour les feuillus

- Que ce passe-t-il avec 1 autre découpage ?

Exemple :

Les 200 parcelles précédemment étudiées sont regroupées en 2 classes d'espacement :

- les peuplements denses < 2,5 m

- les peuplements lâches > ou = 2,5 m

tab. 14 - Espacement moyen (2 classes) entre les arbres en fonction de la nature du peuplement

Effectifs observés

Espacement

Résineux

Feuillus

Total lignes

< 2,5 m

26

20

46

> ou = 2,5 m

69

85

154

Total colonnes

95

105

200

Effectifs calculé

Espacement

Résineux

Feuillus

Total lignes

< 2,5 m

21,85

24,15

46

> ou = 2,5 m

73.15

80,85

154

Total colonnes

95

105

200

= [(26 - 21,85)2 / 21,85] + [(20 - 24,15)2 / 24,15] + [(69 - 73,15)2 / 73,15] + [(85 - 80,85)2 / 80,85] = 1,95

Pour 1 d.d.l., la différence n'est pas significative

5% <

La relation entre espacement et nature du peuplement n'est plus significative

pour ce découpage en tout cas

- Les résultats ne sont pas contradictoires

C'est l'illustration provisoire d'un manque de signification

Causes possibles :

- trop petit nombre de sujets ;

- défaut de puissance du test.

Car ici, il restait 2 modalités => perte d'une grande quantité d'info

 

Récapitulatif : pour une liaison entre 2 variables qualitatives à 2 ou n modalités

1) Établir le tableau croisé des résultats observés

effectifs observés

2) Calcul des effectifs pour 2 variables indépendantes

effectifs théoriques

3) Calculer pour chaque case la différence entre effectifs observés et théoriques

écarts bruts

4) Diviser chaque écart brut par l'effectif théorique

écarts pondérés

5) Repérer et commenter les plus forts écarts pondérés

signe + sur-représentation, attraction

signe - sous-représentation, répulsion

6) Calculer et tester la significativité de la liaison

7) Calculer l'intensité de la liaison

T de Tschuprow par exemple

8) Recherche du degré de concordance (si nécessaire)

- Repérer les cases où l'on attend des surreprésentations

- Calculer la somme des effectifs observés sur les cases intéressantes

diviser la par l'effectif total

- Calculer la somme des effectifs calculés de ces cases

diviser la par l'effectif total

- Calculer le coefficient Kappa,

 

3. Test de compréhension

Communiquez-moi par courrier électronique les réponses aux questions suivantes

Question n°5.1.1. La table de contingence renseigne sur :

a) les effectifs observés

b) les effectifs calculés

c) les écarts relatifs

Question n°5.1.2. Si la valeur du khi2 lue dans la table dépasse celle calculée :

a) on rejette l'indépendance

b) on accepte l'indépendance

Question n°5.1.3. Le test du khi2 permet de se prononcer sur le rejet ou l'acceptation de :

a) l'indépendance

b) la dépendance

(cf. Annexe 2, mema2enq.htm)

 

Précisez à la rubrique objet :

EC enquête

puis dans le corps du message vos

n° d'étudiant, nom et prénom

puis vos

réponses

vgodard@univ-paris8.fr

 

 

Retour au début de la fiche Mémo

 

Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.