Vincent GODARD

Département de Géographie

Université de Paris 8


V.2.3.01 - Dernière mise à jour : 20/12/2019

 

Fiche Mémo n°4 d'analyse de données pour le Master 2 :

Les classifications hiérarchiques (ou non)

 

 

1. Principes

Très complémentaires des analyses factorielles, dont l'objectif est de faire apparaître des structures, les classifications servent à réaliser des partitions dans la masse des individus.

La classification peut proposer plusieurs partitions hiérachisées avec un nombre de classes (groupes) différent.

Partitionner la distribution revient à affecter chaque individu à une classe et à une seule,

c'est un moyen très commode pour cartographier les résultats des analyses factorielles.

 

Ce cours doit beaucoup aux ouvrages suivants : ESCOFIER 2008, NAKACHE 2000, SANDERS 1989

 

1.1. Quelques méthodes de classification

Les techniques de classification sont exploratoires.

Elles servent souvent à formuler des hypothèses de travail.

On peut les opposer aux méthodes de classement, dont le but est plus prédictif , voire explicatif.

Dans la littérature, cinq grands types de méthodes de classification émergent :

 Deux méthodes vont être décrites ici, celles proposées dans SPAD et SAS, à savoir :

 

1.2. Préparation des données

Déterminer une stratégie de classification en fonction des données.

Les variables peuvent être : continues, ordinales, nominales et binaires.

=> Homogénéisation des données car un seul critère d'agrégation

Données quantitatives => distance  

Données qualitatives => indice de similarité  

 

Avec SPAD, deux étapes successives sont proposées :

=> codage des données sous forme disjonctive complète (0/1)

- les qualitatives sont décomposées en modalités ;

- les quantitatives sont discrétisées, puis chaque classe est traitée comme une modalité.

=> une AFC est réalisée sur le tableau disjonctif complet, c'est donc une ACM !

Quelque soit le tableau de données initial, la classifications des individus se fera sur des données quantitatives - les coordonnées des axes factoriels.

En pratique, on ne retient pas tous les axes factoriels dans la classification :

- pour éliminer le "bruit" des derniers axes ;

- pour améliorer l'homogénéité des classes

=> en général, on conserve un peu plus de la moitié des axes.

 Remarque : si les données d'origine sont toutes quantitatives ou toutes binaires, il n'est pas nécessaire de les recoder.

 

2. Classification ascendante hiérarchique

 Technique fournissant un système de classes emboîtées dont l'hétérogénéité va croissante avec la taille des classes.

On visualise un arbre hiérarchique indicé nommé dendrogramme.

 

  fig. 1 - Dendrogramme de la CAH sur l'AFC des Awrajas avec indices de niveau et partitions

Les éléments terminaux sont appelés les feuilles de l'arbre.

 - Comment les regrouper ?

 

2.1. Construction de l'arbre hiérarchique

 Cette construction nécessite :

- un critère d'agrégation

- une procédure d'agrégation

 

2.1.1. Le critère d'agrégation

  Dans SPAD, le critère retenu est celui qui assure la perte d'inertie minimale quand on passe d'une partition à la suivante => critère de Ward

formule dfm04fo1

La différence d'inertie entre deux classes h et h' est fonction de :

- mh et mh' les masses respectives de h et h' ;

- gh et gh' les centres de gravité de h et h' ;

- d2(gh , gh') le carré de la distance euclidienne entre les centres de classes gh et gh'

Ce critère représente le moment d'inertie* de l'ensemble des deux points gh et gh' munis de leur masse respective mh et mh' que l'on compare à leur centre de gravité g.

formule dfm04fo2

 Le critère de Ward fournit des classes sphériques.

 

2.1.2. La procédure d'agrégation

Par construction d'une matrice de perte d'inertie.

Comme on recherche des classes les plus différentes entre elles. Cela se traduit par une :

C'est l'inertie intra-classes minimale qui va être favorisée dans les étapes suivantes.

 

2.2. Le principe

Comme cela est fort bien expliqué sur le site de Joseph Larmarange :

"Le principe de la CAH est de rassembler des individus selon un critère de ressemblance défini au préalable qui s’exprimera sous la forme d’une matrice de distances, exprimant la distance existant entre chaque individu pris deux à deux. Deux observations identiques auront une distance nulle. Plus les deux observations seront dissemblables, plus la distance sera importante. La CAH va ensuite rassembler les individus de manière itérative afin de produire un dendrogramme ou arbre de classification. La classification est ascendante car elle part des observations individuelles ; elle est hiérarchique car elle produit des classes ou groupes de plus en plus vastes, incluant des sous-groupes en leur sein. En découpant cet arbre à une certaine hauteur choisie, on produira la partition désirée." in : http://larmarange.github.io/analyse-R/classification-ascendante-hierarchique.html

 

3. Partition par centres mobiles

 

En cours de réalisation !!!

4. Exemples d'interprétation de classifications

4.1. Classifications faisant suite à une analyse en composantes principales (ACP ex-COPRI)

La classification présentée ici fait suite à une analyse en composantes principales (ACP). Les données issues du tableau 4.1 (exemple n°1) sont transformées. La métrique utilisée est euclidienne.

Exemple n°1 : Tableau 4.1 - La structure pastorale éthiopienne par awrajas (en nombre de têtes), [Sources : EASTMAN (J.R.) - 1997 - 10. Database Workshop. in : IDRISI for Windows. Tutorial Exercises. Version 2.0. Worcester (MA, USA), Clark University, pp. 69-79 et traduction française GODARD, 2003]

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 51 Ko.

Pour un traitement avec R :

Téléchargement du fichier de données CSV (dfm04ta1.csv)

            Ce fichier est au format CSV et "pèse" 11 Ko.

                Téléchargement du script CAH_awrajas_v3.R

Pour la cartographie de l'analyse :

- sous ArcGis, récupérer le fichier de formes (shp) et sa base de données dans le dfm04ta1_ag.rar.

Ce fichier est compressé (.rar) et "pèse" 68 Ko.

 Ce tableau est le support d'un exercice détaillé sur la fiche guide 1.8 du cours de SIG.

 

4.1.1. Paramétrage de COPRI

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Variables

- Sélection des variables : Continues actives

=> toutes sauf population

- Sélection des variables : Continues illustratives

=> population

Onglet Individus

- Choix des individus

=> tous

Onglet Pondération

=> Uniforme

Onglet Paramètres

- Paramètres de fonctionnement :

Analyse normée (synonyme de standardisée*)

Coordonnées conservées toutes

- Paramètres d'édition :

Matrice permutée selon F1 Non

Coordonnées éditées toutes

Résultats pour les individus tous

Nombre de décimales 2

- Fichier pour application tableur : Oui

Options pour application tableur :

Résultats pour les individus Oui

Édition pour la matrice analysée Identifiant long

- Valider par OK deux fois

- Méthode + Exécuter méthode (ou Shift + F5)

 

4.1.2. Paramétrage de DEFAC

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Commande de description

- Liste des axes à décrire : 1-3

- Avec les éléments :

Variables continues Actives seules

Individus Actifs seuls

Onglet Paramètres

Laisser Défaut

- Méthode + Exécuter méthode (ou Shift + F5)

 

4.1.3. Paramétrage de RECIP/SEMIS

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Paramètres

- Choix de la méthode : Hiérarchique (RECIP)

La méthode SEMIS est une méthode mixte pour classer les très grands nombres d'individus.

- Paramètres de fonctionnement :

Coordonnées utilisées pour l'agrégation : Toutes

Sauvegarde partielle de l'arbre (nombre d'éléments terminaux) : 50

- Paramètres d'édition :

Histogramme des indices : 50

Composition des éléments terminaux : Oui

Coordonnées des éléments terminaux : Toutes

Caractéristiques des nœuds : Oui

Dendrogramme (arbre hiérarchique) : Large

- Méthode + Exécuter méthode (ou Shift + F5)

 

4.1.4. Paramétrage de PARTI-DECLA

- Méthode + Paramètres ... (ou Shift + F6)

Onglet Choix des partitions

- Recherche automatique des meilleurs partitions :

Nombre de partitions : 3

Nombre minimum de classes par partition : 2

Nombre maximum de classes par partition : 6

Onglet Paramètres de partitionnement

- Paramètres de partitionnement :

Itérations de consolidation : 10

Affectation des individus illustratifs aux classes les plus proches : Oui

- Paramètres d'édition : par défaut

Onglet Caractérisation des partitions

=> par défaut

- Méthode + Exécuter méthode (ou Shift + F5)

 

- Enregistrement et exécution de la filière

- Filière + Enregistrer filière sous ...

D:\geo\Votre_nom\fm18\copri-recip1.fil

Donner un titre "causant", car il apparaîtra sur le bandeau de la fenêtre

- Filière + Exécuter filière (ou F5)

 

4.2. Classifications faisant suite à une analyse factorielle des correspondances (AFC ex-CORBI)

La classification présentée ici fait suite à une analyse factorielle des correspondances binaires (AFC). Les données issues du tableau 4.2 (exemple n°2) ne sont pas transformées comme pour l'exemple n°1, car la métrique utilisée est celle du Khi2.

Exemple n°2 : reprendre le Tableau 4.1 - La structure pastorale éthiopienne par awrajas (en nombre de têtes), [Sources : EASTMAN (J.R.) - 1997 - 10. Database Workshop. in : IDRISI for Windows. Tutorial Exercises. Version 2.0. Worcester (MA, USA), Clark University, pp. 69-79 et traduction française GODARD, 2003]

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 51 Ko.

Ce tableau est le support d'un exercice détaillé sur la fiche guide 1.8 du cours de SIG.

Pour la cartographie de l'analyse :

- sous ArcGis, récupérer le fichier de formes (shp) et sa base de données dans le dfm04ta1_ag.rar.

Ce fichier est compressé (.rar) et "pèse" 68 Ko.

 Ce tableau est le support d'un exercice détaillé sur la fiche guide 1.8 du cours de SIG.

 

4.2.1. Aide à l'interprétation de la "Coupure de l'arbre - description des classes"

La description proposée correspond à une coupure (partition) de l'arbre de la CAH en 4 classes intitulée "Coupure 'b' de l'arbre en 4 classes". C'est l'onglet DECLA-10.

 

tab. 4.2a - Classe 1 / 4 - Caractérisation par les fréquences des classes de la partition (onglet DECLA-10)

Fréquences caractéristiques

% de la fréquence dans l'échantillon

GLOBAL

% de la fréquence dans la classe

FRE / CLA

% de la classe dans la fréquence

CLA / FRE

Valeur-Test

Probabilité

Poids

écarts au GLOBAL

cattle

63.84

67.91

32.21

318.39

0.000

20561700

6%

sheep

22.04

24.29

33.37

201.82

0.000

7099180

10%









goats

14.11

7.79

16.72

-712.03

0.000

4545520

- 45%


100.00

100.00






tab. 4.2b - Classe 2/ 4 - Caractérisation par les fréquences des classes de la partition (onglet DECLA-10)  

Fréquences caractéristiques

% de la fréquence dans l'échantillon

GLOBAL

% de la fréquence dans la classe

FRE / CLA

% de la classe dans la fréquence

CLA / FRE

Valeur-Test

Probabilité

Poids

écarts au GLOBAL

cattle

63.84

78.93

48.33

1456.83

0.000

20561700

24%









goats

14.11

11.92

33.01

-289.76

0.000

4545520

-16%

sheep

22.04

9.16

16.25

-1481.85

0.000

7099180

-58%


100.00

100.00






Comment lire les en-têtes de colonnes (qui s'appellent des FREQUENCES dans un tableau de contingence chez SPAD !) ?

On trouvera un descriptif pour permettre la compréhension de ces tableaux de classification dans NAKACHE 2000 pp. 61-65.

Ont été rajoutés en GRAS les en-têtes tels qu'ils sont présentés dans le listage (Editeur de résultats de SPAD 7 et antérieur).

% de la fréquence dans l'échantillon - GLOBAL : représente la part en pourcentage de sujets (cattle, goats, sheep) dans l'échantillon global (l'ensemble des animaux pour toutes les Awrajas).

Il y a pour 100 % des animaux éthiopiens : 63,84 % de bovidés (cattle) ; 14.11 % de caprins (goats) et 22,04 % d'ovins (sheep).

% de la fréquence dans la classe - FRE / CLA : représente le pourcentage de chaque catégorie d'animaux (cattle, goats, sheep) dans la classe.

Il y a dans la classe 1 (tableau 4.2a) pour 100 % de ses animaux : 67.91 % de bovidés (cattle) ; 24.29 % de caprins (goats) et 7,79 % d'ovins (sheep). Par rapport au GLOBAL (moyenne générale), les écarts sont de :

- pour les bovidés, une sur représentation de 4 points [(67,91-63,84), soit 6 % de la valeur de la moyenne générale obtenue par (67,91-63,84) / 63,84] ;

- pour les caprins, une sur représentation de 2,3 points [(24,29-22,04), soit 10 % de la valeur de la moyenne générale obtenue par (24,29-22,04) / 22,04] ;

- pour les ovins, une sous représentation de 6,3 points [(7,79-14,11), soit - 45 % de la valeur de la moyenne générale obtenue par (7,79-14,11) / 14,11] ;

% de la classe dans la fréquence - CLA / FRE : représente le pourcentage de chaque catégorie d'animaux (cattle, goats, sheep) dans la classe par rapport à l'échantillon global (la population des animaux).

Il y a dans la classe 1 (tableau 4.2a) : 32,21 % de l'ensemble des bovidés (cattle), les autres sont pour 48,33 % dans la classe 2 (tableau 4.2b), 14,34 % dans la classe 3 (tableau non affiché) et 5,12 % dans la classe 4 (tableau non affiché). Soit un total de 100 % de bovidés.

Procédez pareillement pour les ovins et les caprins (goats)

 

Qu'est-ce qui différencie la classe 1 de la classe 2 ?

- La classe 1 (tableau 4.2a) sur représente les bovidés (+ 6 % par rapport à la moyenne) et les ovins (+ 10 % par rapport à la moyenne) alors que les caprins y sont sous représentés (- 45 % par rapport à la moyenne) ;

a contrario,

- La classe 2 (tableau 4.2b) continue de sur représenter les bovidés, mais plus fortement (+ 24 % par rapport à la moyenne), alors que les ovins sont cette fois-ci sous représentés et fortement (- 58 % par rapport à la moyenne) avec les caprins, un peu plus faiblement que dans la classe 1 (- 16 % par rapport à la moyenne).

 

4.3. Classifications faisant suite à une analyse factorielle des correspondances multiples (ex-CORMU)

La classification présentée ici fait suite à une analyse factorielle des correspondances multiples (ACM). Les données issues du tableau 4.3 (exemple n°3).

Exemple n°3 : Tableau 4.3 - Dossier Départemental des Risques Majeurs - Information des populations, [Sources : Ministère de l'aménagement du territoire et de l'environnement, Préfecture de l'Aude, 2001]

Codage en 2 classes (oui - non)

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 763 Ko.

Codage en 4 classes (absence 0 ; non concerné 1 ; aléa sans enjeu 2 ; aléa avec enjeu ou enjeu humain à l'étude 3)

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 763 Ko.

 

4.3.1. Aide à l'interprétation de la "Coupure de l'arbre - description des classes"

La description proposée correspond à une coupure (partition) de l'arbre de la CAH en 3 classes intitulée "Coupure 'a' de l'arbre en 3 classes". ici, en fonction des paramétrages retenus dans SPAD, c'est l'onglet DECLA-5 qui contient l'information présentée.

 

tab. 4.3a - Classe 1 / 3 - Caractérisation par les modalités des classes de la partition (Effectif: 227 - Pourcentage: 62.88 ; onglet DECLA-5)

Libellés des variables

Modalités caractéristiques

% de la modalité dans la classe

MOD / CLA

% de la modalité dans l'échantillon

GLOBAL

% de la classe dans la modalité

CLA / MOD

Valeur-Test

Probabilité

Poids

écarts au GLOBAL

Séisme

1

100.00

66.48

94.58

19.12

0.000

240

50%

Rupt_barrage

1

98.68

92.24

67.27

5.77

0.000

333

7%

Inondation

2

70.48

60.11

73.73

5.12

0.000

217

17%

Transp_mat_dang

2

41.85

33.24

79.17

4.51

0.000

120

26%

Risq_indust

1

100.00

97.78

64.31

3.42

0.000

353

2%

Mouv_terrain

1

99.12

96.95

64.29

2.76

0.003

350

2%










Mouv_terrain

2

0.88

3.05

18.18

-2.76

0.003

11

-71%

Risq_indust

2

0.00

2.22

0.00

-3.42

0.000

8

-100%

Transp_mat_dang

1

58.15

66.76

54.77

-4.51

0.000

241

-13%

Inondation

1

29.52

39.89

46.53

-5.12

0.000

144

-26%

Rupt_barrage

2

1.32

7.76

10.71

-5.77

0.000

28

-83%

Séisme

2

0.00

33.52

0.00

-19.12

0.000

121

-100%

 tab. 4.3b - Classe 2 / 3 - Caractérisation par les modalités des classes de la partition (Effectif: 8 - Pourcentage: 2.22 ; onglet DECLA-5)

Libellés des variables

Modalités caractéristiques

% de la modalité dans la classe

MOD / CLA

% de la modalité dans l'échantillon

GLOBAL

% de la classe dans la modalité

CLA / MOD

Valeur-Test

Probabilité

Poids

écarts au GLOBAL

Risq_indust

2

100.00

2.22

100.00

8.17

0.000

8

4412%

Transp_mat_dang

2

100.00

33.24

6.67

3.66

0.000

120

201%

Inondation

2

100.00

60.11

3.69

2.14

0.016

217

66%










Inondation

1

0.00

39.89

0.00

-2.14

0.016

144

-100%

Transp_mat_dang

1

0.00

66.76

0.00

-3.66

0.000

241

-100%

Risq_indust

1

0.00

97.78

0.00

-8.17

0.000

353

-100%

tab. 4.3c - Classe 3 / 3 - Caractérisation par les modalités des classes de la partition (Effectif: 126 - Pourcentage: 34.90 ; onglet DECLA-5)  

Libellés des variables

Modalités caractéristiques

% de la modalité dans la classe

MOD / CLA

% de la modalité dans l'échantillon

GLOBAL

% de la classe dans la modalité

CLA / MOD

Valeur-Test

Probabilité

Poids

écarts au GLOBAL

Séisme

2

93.65

33.52

97.52

19.01

0.000

121

179%

Transp_mat_dang

1

86.51

66.76

45.23

5.96

0.000

241

30%

Inondation

1

61.11

39.89

53.47

5.91

0.000

144

53%

Rupt_barrage

2

18.25

7.76

82.14

5.15

0.000

28

135%

Mouv_terrain

2

6.35

3.05

72.73

2.29

0.011

11

108%










Mouv_terrain

1

93.65

96.95

33.71

-2.29

0.011

350

-3%

Rupt_barrage

1

81.75

92.24

30.93

-5.15

0.000

333

-11%

Inondation

2

38.89

60.11

22.58

-5.91

0.000

217

-35%

Transp_mat_dang

2

13.49

33.24

14.17

-5.96

0.000

120

-59%

Séisme

1

6.35

66.48

3.33

-19.01

0.000

240

-90%

Comment lire les en-têtes de colonnes (qui s'appellent des MODALITÉS dans un tableau de contingence chez SPAD !) ?

On trouvera un descriptif pour permettre la compréhension de ces tableaux de classification dans NAKACHE 2000 pp. 61-65.

Ont été rajoutés en GRAS les en-têtes tels qu'ils sont présentés dans le listage (Editeur de résultats de SPAD 7 et antérieur).

La modalité caractéristique est codée :

 

Qu'est-ce qui différencie la classe 1 de la classe 2 ?

- La classe 1 (tableau 4.3a) sur représente les communes risquant les inondations (codage 2, + 17 % par rapport à la moyenne) et celles qui concentrent le Transp_mat_dang (codage 2, + 26 % par rapport à la moyenne) alors que celles qui redoutent les séismes y sont sous représentées (codage 2, - 100 % par rapport à la moyenne), etc. ;

a contrario,

- La classe 2 (tableau 4.3b) concentre les communes sur représentant le Risq_indust [codé 2, 4412 % !, soit presque 45 fois plus (8 communes avec le codage 2, contre 353 avec le codage 1 ) de concentration de ce risque dans cette classe que dans l'ensemble du département. C'est normale, elles y sont toutes regroupées. Cette classe est encore plus fortement impliquée dans le Transp_mat_dang (codage 2, + 201 % par rapport à la moyenne) que la classe 1 (tableau 4.3a)... C'est la seule qui sur représente les modalités en code "2" qui la concernent et sous représente les modalités en code "1" qui sont d'ailleurs les même, mais à - 100 %.

Qu'en est-il des feux de forêt ?

Quel nom (titre) donneriez-vous à ces classes en fonction des modalités qui les caractérisent ?

 

En cours de réalisation !!!

 

5. Cartographie des classes des partitions

 

fig. 2 - Une possibilité de légende pour la cartographie d'une typologie (avec emboîtement par numérotation)

sources : SANDERS 1989, p. 213

 

fig. 3 - Une possibilité de légende pour la cartographie d'une typologie (avec emboîtement graphique)

sources : SANDERS 1989, p. 222

 

 

En cours de réalisation !!!

 

Retour au début de la fiche Mémo

 

Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.