Vincent GODARD

Département de Géographie

Université de Paris 8


V.2.2 - Dernière mise à jour : 29/11/2022

Fiche Mémo n°3 d'analyse de données pour le Master 2 :

L'analyse factorielle des correspondances (AFC)

 

 

1. Principes

1.1. Contexte

- 1er cas de figure

- Les caractères sont :

- quantitatifs ;

- des entiers (décimaux sous certaines conditions !) ;

- tous positifs ;

- regroupés dans un tableau de contingences*

- Le tableau de contingences est constitué de :

- n individus statistiques ;

qui peuvent être des unités spatiales (tableau de données = tableau d'information géographique)

- p variables quantitatives.

Alors,

- il est possible d'effectuer sur ce tableau une Analyse des correspondances simples, ou binaires.

- 2e cas de figure

- Les caractères sont :

- qualitatifs ;

- des effectifs (fréquences absolues) ;

- tous positifs ;

- regroupés dans un tableau quelconque qui sera transformé en un tableau disjonctif complet* (dans certains cas appelé tableau logique)

- Le tableau disjonctif complet est constitué de :

- n individus statistiques ;

qui peuvent être des unités spatiales (tableau de données = tableau d'information géographique)

- p variables qualitatives.

Où chaque modalité des variables p :

- devient une "colonne" ;

- est codée en présence / absence (1 ou 0).

Alors,

- il est possible d'effectuer sur ce tableau une Analyse des correspondances multiples.

 

1.2. Objectifs

Comme l'ACP, l'AFC a pour but de hiérarchiser l'information contenue dans un tableau de données. Elle va aussi bien s'intéresser à l'étude des colonnes (variables) qu'à l'étude des lignes (individus) du tableau d'information pour confronter les différentes distributions et permettre :

- de découvrir des irrégularités dans ces distributions ;

- d'analyser des interrelations entre les variables ;

- de mettre en évidence des combinaisons plus ou moins systématiques entre les variables ;

En bref, de dégager des structures dans l'espace géographique étudié, qui ne sont pas forcément linéaires.

Cela passe par une simplification de l'information d'origine

 

1.3. Les spécificités d'une AFC

L'AFC se pratique sur :

- des tableaux de contingences ;

ou

- des tableaux quelconques transformés en tableaux disjonctifs complets.

Contrairement à l'ACP, les calculs relèvent de la métrique du khi deux* (noté )

 

1.3.1. Les tableaux de contingences

- Qu'est-ce qu'un tableau de contingence ?

C'est un tableau constitué de nombres entiers où :

- la somme en lignes a un sens !

- la somme en colonnes a un sens !

tab. 1 - Superficie des types de peuplements en Picardie en 1984 (en ha)


Feuillus

Résineux

Mixtes

Total par dép.

Aisne

106 500

3 380

1 470

111 350

Oise

101 700

10 000

0

111 700

Somme

45 200

4 350

50

49 600

Total Picardie

253 400

17 730

1 520

272 650
Sources : Superficie en bois et forêts en 1984, Statistique agricole annuelle 1984, Ministère de l'Agriculture, SCEES

Faire une ACP ou une AFC, c'est chercher à établir des degrés :

- de ressemblance ;

et

- de différence entre les unités spatiales (ou les variables).

- Pourquoi ne pas garder la même métrique que dans l'ACP pour les peuplements forestiers de la Picardie ?

Si l'on choisit la distance euclidienne sur les données brutes pour mesurer ces différences entre départements, on obtient les écarts suivants :

d(Aisnes ; Oise)2 = (106 500 - 101 700)2 + (3 380 - 10 000)2 + (1 470 - 0)2 = 69 025 300

d(Aisnes ; Oise) = (69 025 300)1/2 = 8 308,1 ha

d(Aisnes ; Somme) = 61 324,1 ha

d(Oise ; Somme) = 56 781,8 ha

L'Aisnes et l'Oise se ressemblent alors que la Somme diffère.

Pourtant, sur le tableau 1 les profils de l'Oise et de la Somme, avec une forêt mixte très faible, sont très proches.

- Dans ce contexte, la distance euclidienne transcrit les différences de masse entre les départements :

L'Aisnes et l'Oise se ressemblent car leurs superficies sont proches.

- Pour éliminer l'artefact lié aux ordres de grandeur, il faut transformer les données :

en pourcentage, par exemple !

Mais attention, le tableau des pourcentages n'est plus un tableau de contingences.

tab. 2 - Part des types de peuplements en Picardie en 1984 (en %)


Feuillus

Résineux

Mixtes

Part du dép. dans la région

Aisne

95,6

3,0

1,3

40,8

Oise

91,0

9,0

0,0

41,0

Somme

91,1

8,8

0,1

18,2
Sources : Superficie en bois et forêts en 1984, Statistique agricole annuelle 1984, Ministère de l'Agriculture, SCEES

Si l'on choisit la distance euclidienne sur les données relatives pour mesurer ces différences entre départements, on obtient les écarts suivants :

d(Aisnes ; Oise)2 = (95,6 - 91,0)2 + (3 - 9)2 + (1,3 - 0)2 = 57,9

d(Aisnes ; Oise) = (57,9)1/2 = 7,6 %

d(Aisnes ; Somme) = 7,4%

d(Oise ; Somme) = 0,2%

Cette fois, l'Oise et la Somme apparaissent bien comme se ressemblant le plus avec leurs forêts mixtes pratiquement nulles.

Pour annuler l'effet de masse, il est également possible de pondérer les distances.

 

1.3.2. Les distances pondérées

- Qu'est-ce qu'une distance pondérée ?

C'est, par exemple, une distance euclidienne entre les profils (les lignes) des individus ou chaque terme est pondéré par l'inverse du poids relatif de la variable (colonne) correspondante.

Dans les calculs de distance, cette pondération :

- renforce le poids des variables de masse faible ;

donc

- compense les différences de poids entre les variables.

Sa formulation est la suivante :

formule n°1 - (mem03dea.htm)

Avec :

tab. 3 - Notations du tableau de contingence (lecture horizontale des quotients)


j = 1

2

.

j

j'

.

p

Somme en lignes

i = 1

k 1 1

k 1 2






k 1 .

2

k 2 1







k 2 .

.









i




k i j

k i j'



k i .

i'




k i' j




k i' .

.









n








k n .

Somme en colonnes

k . 1

k . 2


k . j

k . j'



k . .

Si l'on choisit la distance euclidienne pondérée sur les données brutes pour mesurer ces différences entre départements, on obtient les écarts suivants :

Téléchargement du tableau n°5

Ce fichier est au format Excel (.xls) et "pèse" 193 Ko.

d(Aisnes ; Oise) = (0,0543)1/2 = 0,30

d(Aisnes ; Somme) = 0,39

d(Oise ; Somme) = 0,02

Cette fois encore, l'Oise et la Somme apparaissent bien comme se ressemblant le plus.

Cette distance pondérée s'appelle la métrique* (ou distance) du , prononcer Khi2*.

tab. 4 - Récapitulatif des distances entre les départements (individus) de Picardie


Dist. euclidienne sur données brutes

Dist. euclidienne sur données relatives (%)

Distance du

d(Aisnes ; Oise)

8 308,1

0,076

0,23

d(Aisnes ; Somme)

61 324,1

0,074

0,22

d(Oise ; Somme)

56 781,8

0,002

0,01

Remarques :

- Il ne faut pas comparer les distances entre elles, mais la hiérarchie à l'intérieure d'une distance ;

- La distance euclidienne sur les données brutes peut ne traduire que des effets de masse ;

- En raison de la symétrie des pondérations que la métrique du impose au tableau de contingence, cette distance pondérée peut aussi bien s'appliquer aux lignes (individus) qu'aux colonnes (variables).

Si l'on veut répondre à la question :

- Quels sont les traitements sylvicoles les plus proches en Picardie ?

Alors, la formule devient :

formule n°2 - (mem03dea.htm)


Avec :

tab. 3bis - Notations du tableau de contingence (lecture verticale des quotients)


j = 1

2

.

j

j'

.

p

Somme en lignes

i = 1

k 1 1

k 1 2






k 1 .

2

k 2 1







k 2 .

.









i




k i j

k i j'



k i .

i'




k i' j




k i' .

.









n








k n .

Somme en colonnes

k . 1

k . 2


k . j

k . j'



k . .


La distance du repose sur la comparaison de profils

=> la masse des individus est relativisée (mais pas annulée comme lors d'une ACP sur des pourcentages) ;

=> le découpage spatial est peu marqué ;

=> la symétrie entre lignes et colonnes est conservée.

 

1.4. Les résultats d'une AFC

Ils sont très proches de ceux d'une ACP.

Cependant,

il existe quelques différences d'interprétation remarquables dues :

- au nuage de point construit sur les profils (des ligne ou des colonnes) ;

- à la métrique du

Mais, là encore,

on recherche les droites (les axes factoriels) d'allongement maximum du nuage de point

(celles qui sont les plus proches de tous les points simultanément)

- Chaque axe factoriel est défini par un vecteur dit

vecteur propre*

Les vecteurs propres définissent les différentes directions du nuage d'information

- La part d'information prise par chaque vecteur propre est appelée

valeur propre*

Elle définie la hiérarchie de l'axe factoriel.

- En AFC :

- la 1ère valeur propre est triviale, elle vaut 1 ;

elle ne sert pas à l'interprétation

- toutes les autres sont inférieures à 1 ;

- la plus grande d'entre-elles désigne la variance du 1er axe factoriel ;

- la 2e etc. ;

- la somme de toutes les valeurs propres mesure l'inertie totale du nuage.

- le degré de différenciation introduit par un axe est d'autant plus grand que sa valeur propre est élevée.

- Comme pour l'ACP :

- valeur propre = part de variance (d'information) du nuage prise en compte par l'axe

- elle est généralement exprimée en pourcentage

on parle indifféremment de pourcentages :

- d'inertie

- d'information

- de variance

- Cependant, contrairement à l'ACP :

- on étudie également les valeurs brutes des valeurs propres, car les 2 informations sont complémentaires :

- le taux d'inertie associé à une valeur propre permet l'analyse de la concentration de l'information sur l'axe ;

- la valeur brute permet l'analyse de la dispersion de l'information sur l'axe, donc la mesure de la différentiation spatiale (cas des tableaux d'information géographiques)

- les coordonnées, contributions ou qualités s'interprètent de la même façon

que l'on s'intéresse aux variables ou aux individus.

 

1.4.1. Les coordonnées* (ou saturation) sur les axes factoriels

- indiquent les positions relatives des variables (ou celles des individus) :

- les unes par rapport aux autres ;

et

- par rapport au centre de gravité du nuage.

- contrairement à l'ACP, où ce sont des coefficients de corrélation.

 

1.4.2. Les contributions* (CTR) aux axes factoriels

Synonyme = contributions absolues*

- indiquent le rôle relatif des variables (ou celles des individus) :

- dans la formation (la caractérisation) ;

donc

- dans la dispersion ;

de l'axe factoriel

Elles permettent de repérer quelles sont les variables (ou les individus) les plus contributives par axe

- la somme des contributions vaut 1

- généralement exprimée en pour cent ou pour mille

Elles permettent :

- d'identifier les variables (ou les individus) qui définissent le mieux les axes ;

les plus contributives !

- Contrairement à l'ACP, deux variables (ou individus) peuvent être projetés au même endroit sur l'axe :

- avoir les mêmes coordonnées ;

- sans avoir les mêmes contributions.

Car la masse (cf. Poids relatif dans les tableaux d'analyse) de la variable (ou de l'individu) intervient dans le calcul de la contribution en AFC (cf. métrique du khi2).

C'est la différence de masses  qui ferra la différence de contributions !

Donc, dans l'AFC, l'analyse des contributions revêt plus d'importance que dans l'ACP.

 

1.4.3. La qualité* (QLT) de représentation sur un axe factoriel

Synonyme = contributions relatives*

- permet de caractériser les variables (ou les individus) par les axes

- mesure la part de l'écartement d'une variable (ou d'un individu) au centre de gravité prise en compte par un axe

QLT = cos2 [de l'angle entre le vecteur-variable (ou individu) et l'axe]

cos2 (0°) = 1

=> variable (ou individu) sur l'axe

=> description parfaite de la variable (ou de l'individu) par l'axe

cos2 (90°) = 0

=> variable (ou individu) perpendiculaire à l'axe

=> description nulle de la variable (ou de l'individu) par l'axe

- généralement exprimée en pourcent ou pour mille

 

1.4.4. Les indicateurs généraux

Ils complètent les indicateurs fournis pour chaque axe factoriel.

- La contribution* [ou Inertie relative*, INR(i)] de chaque variable (ou de chaque individu) à la dispersion du nuage de points.

=> s'obtient par le rapport de la distance de chaque variable (ou de chaque individu) au centre de gravité du nuage de points sur l'inertie totale du nuage de points.

formule n°3 - (mem03dea.htm)

Avec, ici dans le cadre du calcul de la contribution d'un individu :

INR(i) => inertie relative d'un individu i ;

fi. => sa fréquence ;

d2(i , G) => sa distance au centre de gravité, G, du nuage de points.

- une faible valeur pour la variable (ou l'individu) indique un profil proche du profil moyen ;

- une forte valeur pour la variable (ou l'individu) indique un profil caractéristique par rapport aux autres.

 

- La qualité* de représentation par rapport à l'ensemble des n 1er axes factoriels

=> s'obtient par l'addition de la qualité de chacun des n axes

Une faible valeur pour la variable (ou l'individu) indique un caractère marginal sur l'ensemble du nuage.

 

- La masse relative de chaque variable (ou de chaque individu).

- L'inertie totale*

=> s'obtient par l'addition de toutes les valeurs propres brutes

Lors d'études diachroniques (comparaison de recensements, ...), permet de voir si l'on va vers une homogénisation ou une spécialisation

 

1.5. Cartographie des axes factoriels

  - Quelles discrétisations (variables visuelles) ont été retenues dans les exemples suivants ?

- figurés proportionnels ?

- montées en valeurs ?

- pourquoi ?


fig. 1 - Une possibilité de légende pour la cartographie d'un axe factoriel (avec analyse)

sources : SANDERS 1989, p. 123

 

fig. 2 - Une possibilité de légende pour la cartographie de deux axes factoriels (avec analyse)

sources : SANDERS 1989, p. 124

 

fig. 3 - Autre possibilité de légende pour la cartographie d'un axe factoriel (écarts au profil moyen)

sources : SANDERS 1989, p. 121

 

Remarques :

L'ACP et l'AFC présentent des différences fondamentales, mais :

- bien souvent, c'est la nature des données et les objectifs qui font choisir l'une ou l'autre ;

- parfois, une simple transformation des données permet d'utiliser l'une ou l'autre.

Toutefois,

- si l'ACP ne se pratique que sur des données quantitatives ;

- l'AFC accepte :

- les données quantitatives ;

- les données qualitatives

mais les tableaux doivent être :

- de contingence

ou

- disjonctifs complets.

 

2. Analyse des correspondances binaires (CORBI)

2.1. Analyse d'un 1er exemple

Exemple n°1 : Tableau 3.1 - La structure socio-professionnelle des salariés (Pop Act en 1990) dans les régions françaises (en nb d'emplois), (Sources : Céline ROZENBLAT "Les salaires dans les régions françaises." Feuilles de Géographie, II-1994, Feuilles n°7, 10 p.)

Téléchargement du fichier

Ce fichier est au format texte tabulé (.txt) et "pèse" 10 Ko.

 

2.2. Analyse d'un 2e exemple

Exemple n°2 : Tableau 3.2 - Le nombre de voies obtenues par les candidats aux élections présidentielles de 2002 (1er tour et 2e tour), (Sources : Conseil constitutionnel)

Téléchargement du fichier

Ce fichier est au format texte tabulé (.txt) et "pèse" 15 Ko.

L'objectif de cet exemple est voir comment s'opèrent les regroupement et comment l'ajout de deux variables illustratives complète l'analyse.

 

2.3. Analyse d'un 3e exemple

Exemple n°3 : Tableau 3.3 - Surface en ha des différents postes d'occupation du sol issus de la base de données Corine Land Cover pour 156 communes de Côte-d'Or.

Téléchargement du fichier

Ce fichier est au format texte tabulé (.txt) et "pèse" 15 Ko.

 

2.4. Analyse d'un 4e exemple

Exemple n°4 : Tableau 3.4 - La structure pastorale éthiopienne par awrajas (en nombre de têtes), [Sources : EASTMAN (J.R.) - 1997 - 10. Database Workshop. in : IDRISI for Windows. Tutorial Exercises. Version 2.0. Worcester (MA, USA), Clark University, pp. 69-79 et traduction française GODARD, 2003]

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 51 Ko.

Ce tableau est le support d'un exercice détaillé sur la fiche guide 1.8 du cours de SIG.

Téléchargement du fichier de données CSV (dfm04ta1.csv)

            Ce fichier est au format CSV et "pèse" 11 Ko.

                Téléchargement du script AFC_awrajas_v1.R


Pour la cartographie de l'analyse :

- sous ArcGis, récupérer le fichier de formes (shp) et sa base de données dans le dfm04ta1_ag.rar.

Ce fichier est compressé (.rar) et "pèse" 68 Ko.

 

2.5. Analyse d'un 5e exemple

Exemple n°5 : Tableau 3.5 - Somme des précipitations mensuelles de 72 villes françaises pour l'année 2010 (Sources : www.meteociel.fr)

Reconstitution de l'année 2010 (exemple de novembre) : http://www.meteociel.fr/climatologie/climato.php?mois=11&annee=2010

Téléchargement du fichier

Ce fichier est au format texte (.csv). Les variables sont séparées par des ";" et "pèse" 6 Ko.

Affichage du résumé de ce script généré en R Markdown : AFC_precip_v3.Rmd (en html)

Affichage de l'aide à l'analyse Investigate(AFC_precip_v3_Investigate) inclus dans le R Markdown ci-dessus.


2.6. Analyse d'un 6e exemple

Exemple n°6 : Tableau 3.6 - Moyenne des températures maximales mensuelles de 72 villes françaises pour l'année 2010 (Sources : www.meteociel.fr)

Choix des températures maximales pour ne pas avoir de moyennes négatives. Sinon, pour l'AFC, faire un changement d'origine pour supprimer les valeurs négatives.

Reconstitution de l'année 2010 (exemple de novembre) : http://www.meteociel.fr/climatologie/climato.php?mois=11&annee=2010

Téléchargement du fichier

Ce fichier est au format texte (.csv). Les variables sont séparées par des ";" et "pèse" 6 Ko.

- pour voir l'effet d'un outlier, remplacer la Tmax_dece pour Lanveoc par "329.7" (donnée avant correction) ;

- l'intitulé des variables qualitatives a été modifié pour une meilleure lisibilité.

tab. 3.6bis - Dictionnaire des variables qualitatives supplémentaires (illustratives)

RA Régions administratives RC Régions climatiques
AURA Auvergne-Rhône-Alpes MED Climat méditerranéen
BOFC Bourgogne-Franche-Compté MON Climat montagnard
BRET Bretagne OAQ Climat océanique aquitain
CEVL Centre-Val-de-Loire ODE Climat océanique dégradé
CORS Corse ONO Climat océanique du nord-ouest
GEST Grand-Est SCO Climat semi-continental
IDFR Île-de-France
HFRA Hauts-de-France
NAQU Nouvelle-Aquitaine
NORM Normandie
OCCI Occitanie
PACA Provence-Alpes-Côte-d'Azur
PLOI Pays-de-Loire

Sources : Régions climatiques Climat_de_la_France (pages Wikipedia)

Affichage du résumé de ce script généré en R Markdown : AFC_Temperat_Max_v2.Rmd (en html)

Affichage de l'aide à l'analyse Investigate(AFC_Temperat_Max_v2_Investigate) inclus dans le R Markdown ci-dessus.

 

2.7. Analyse d'un 7e exemple

Exemple n°7 : Tableau 3.7 - Résultats du premier tours de la présidentielle de 2012, (Sources : regardscitoyens.org)

Téléchargement du fichier

Ce fichier est au format Excel (.xls) et "pèse" 34 Ko.

Téléchargement du fond de carte

Ce fichier est compressé (.rar) et "pèse" 382 Ko.


2.8. Analyse d'un 8e exemple

Exemple n°8 : Tableau 3.8 - Élection présidentielle américaine de 2016, (Sources : Wikipedia.org)

Téléchargement du fichier

Ce fichier est au format CSV (.csv) et "pèse" 3 Ko.

Affichage du résumé de ce script généré en R Markdown :
AFC_presidUSA16_v2.Rmd (en .html)
AFC_presidUSA16_v2.Rmd (en .Rmd)

 

Récapitulatif :

Il n'est pas possible de dire que l'AFC est meilleure que l'ACP, et vice-versa.

On privilégie simplement une certaine forme d'entité de base lorsque l'on prend une méthode plutôt qu'une autre :

- c'est l'agrégat (département, région, ...) qui est privilégié par l'ACP sur les données en %.

- c'est l'individu (salarié, électeur, ...) qui est privilégié par l'AFC sur les données brutes.

 

 

3. Analyse des correspondances multiples (CORMU)

3.1. Analyse d'un 1er exemple

Exemple n°5 : AMAT (J.-P.), GODARD (V.), HOTYAT (M.) - 2003 - Milieu, gestion, histoire et scénarios de reconstitution dans les sylvosystèmes touchés par les tempêtes de décembre 1999, GIP-ECOFOR, Min. agriculture, 115 p.

Analyse des dégâts en Forêt d'Armainvilliers

Téléchargement du fichier des données

Ce fichier est au format .xls et "pèse" 97 Ko.

Téléchargement du rapport

Ce fichier est au format .pdf et "pèse" 4,5 Mo !!.

Analyse détaillé de l'exemple : voir la fiche pour SPAD 5.6

 

3.2. Analyse d'un 2ème exemple

Exemple n°6 : porte sur le traitement et la représentation des risques majeurs dans le département de l'Aude en 2001. Il s'agit de coder les informations contenues dans le tableau synthétique des communes puis d'en faire une typologie et de la représenter sur un fond de carte communal.

Étape 1 => Entraînement à la manipulation d'ArcGIS

ou d'Idrisi à l'aide des 7 premiers exercices de prise en main ;

Étape 2 => Recodage des risques ;

- Téléchargement du Dossier départemental des risques majeurs ;

Ce fichier est au format .pdf et "pèse" 7,4 Mo.

Étape 3 => Import des fichiers des limites communales (format shape file, projection Lamber 2e) et du fichier des catastrophes naturelles ayant touché chaque commune (Sources Ministère de l'aménagement du territoire et de l'environnement, Préfecture de l'Aude, Dossier départemental des risques majeurs, 2001) ;

- Téléchargement du Couche communale du département de l'Aude et détail des catastrophes naturelles ;

Ce fichier est au format .zip et "pèse" 100 Ko.

Étape 4 => Préparation et traitement sous Excel des données scannées (merci PMK !)

- Téléchargement du tableau des données ;

Ce fichier est au format .xls et "pèse" 81 ko.

- Téléchargement du tableau des données recodées ;

Ce fichier est au format .xls et "pèse" 761 ko.

Étape 5 => Traitement sous SPAD et ArcGIS ou Idrisi des données scannées

- Téléchargement du tableau des résultats pour la partition en 5 classes ;

Ce fichier est au format .xls et "pèse" 108 ko.

 

4. Test de compréhension


Communiquez-moi sur la plateforme Moodle, à la rubrique "Questions de cours", les réponses aux questions suivantes :

 

Question n°3.1. Parmi les mots clefs suivants, le(s)quel(s) ne caractérise(nt) pas les données d'une Analyse factorielle des correspondances (AFC) :

a) quantitatives

d) négatives

b) qualitatives

e) entières

c) positives

f) décimales

 

Question n°3.2. Parmi les mots clefs suivants, lesquels sont compatibles avec la métrique d'une Analyse factorielle des correspondances (AFC) :

a) distance euclidienne

d) effectifs

b) distance pondérée

e) pourcentages

c) distance du Khi2

f) qualités

Question n°3.3. Quel(s) indicateur(s) d'une Analyse factorielle des correspondances (AFC) informe(nt) d'une évolution vers plus de différentiation dans les études multidates :

a) Coordonnées

d) Inertie relative

b) Contributions

e) Inertie totale

c) Qualités (contributions relatives)

f) Poids

 

Retour au début de la fiche Mémo

 

Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.