Ce jeu de données contient 18 individus et 11 variables, 1 variable qualitative est illustrative.
L’analyse des graphes ne révèle aucun individu singulier.
L’inertie des axes factoriels indique d’une part si les variables sont structurées et suggère d’autre part le nombre judicieux de composantes principales à étudier.
Les 2 premiers axes de l’ analyse expriment 52.53% de l’inertie totale du jeu de données ; cela signifie que 52.53% de la variabilité totale du nuage des individus (ou des variables) est représentée dans ce plan. C’est un pourcentage assez important, et le premier plan représente donc convenablement la variabilité contenue dans une grande part du jeu de données actif. Cette valeur est supérieure à la valeur référence de 48.71%, la variabilité expliquée par ce plan est donc significative (cette intertie de référence est le quantile 0.95-quantile de la distribution des pourcentages d’inertie obtenue en simulant 2538 jeux de données aléatoires de dimensions comparables sur la base d’une distribution normale).
Du fait de ces observations, il serait tout de même probablement préférable de considérer également dans l’analyse les dimensions supérieures ou égales à la troisième.
Figure 2 - Décomposition de l’inertie totale
Une estimation du nombre pertinent d’axes à interpréter suggère de restreindre l’analyse à la description des 3 premiers axes. Ces composantes révèlent un taux d’inertie supérieur à celle du quantile 0.95-quantile de distributions aléatoires (69.93% contre 63.71%). Cette observation suggère que seuls ces axes sont porteurs d’une véritable information. En conséquence, la description de l’analyse sera restreinte à ces seuls axes.
Figure 3.1 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution à la construction du plan.
La probabilité critique du test de Wilks indique la variable dont les modalités sépare au mieux les individus sur le plan (i.e. qui explique au mieux les distances entre individus).
## lieu
## 5.737682e-05
Il n’y a qu’une unique variable qualitative possible pour illustrer les distances entre individus : lieu.
Figure 3.2 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution à la construction du plan. Les individus sont colorés selon leur appartenance aux modalités de la variable lieu.
Figure 3.3 - Graphe des variables (ACP) Les variables libellées sont celles les mieux représentées sur le plan.
Figure 3.4 - Graphe des modalités (ACP) Les facteurs libellés sont ceux les mieux représentés sur le plan.
La dimension 1 oppose des individus tels que Los Angeles et San Francisco (à droite du graphe, caractérisés par une coordonnée fortement positive sur l’axe) à des individus comme New York, Chicago, Washington D. C. et Baltimore (à gauche du graphe, caractérisés par une coordonnée fortement négative sur l’axe).
Le groupe auquel les individus Los Angeles et San Francisco appartiennent (caractérisés par une coordonnée positive sur l’axe) partage :
Le groupe auquel les individus New York, Chicago, Washington D. C. et Baltimore appartiennent (caractérisés par une coordonnées négative sur l’axe) partage :
La dimension 2 oppose des individus tels que New York, Chicago, Washington D. C. et Baltimore (en haut du graphe, caractérisés par une coordonnées fortement positive sur l’axe) à des individus comme Boston, Milwaukee, Buffalo, Minneapolis, Cleveland et Dallas (en bas du graphe, caractérisés par une coordonnées fortement négative sur l’axe).
Le groupe auquel les individus New York, Chicago, Washington D. C. et Baltimore appartiennent (caractérisés par une coordonnée positive sur l’axe) partage :
Le groupe auquel les individus Boston, Milwaukee, Buffalo, Minneapolis, Cleveland et Dallas appartiennent (caractérisés par une coordonnées négative sur l’axe) partage :
Figure 4.1 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution à la construction du plan.
La probabilité critique du test de Wilks indique la variable dont les modalités sépare au mieux les individus sur le plan (i.e. qui explique au mieux les distances entre individus).
## lieu
## 0.01793217
Il n’y a qu’une unique variable qualitative possible pour illustrer les distances entre individus : lieu.
Figure 4.2 - Graphe des individus (ACP) Les individus libellés sont ceux ayant la plus grande contribution à la construction du plan. Les individus sont colorés selon leur appartenance aux modalités de la variable lieu.
Figure 4.3 - Graphe des variables (ACP) Les variables libellées sont celles les mieux représentées sur le plan.
Figure 4.4 - Graphe des modalités (ACP) Les facteurs libellés sont ceux les mieux représentés sur le plan.
La dimension 3 oppose des individus tels que Minneapolis, Milwaukee et Boston (à droite du graphe, caractérisés par une coordonnée fortement positive sur l’axe) à des individus comme Dallas, Philadelphie et Houston (à gauche du graphe, caractérisés par une coordonnée fortement négative sur l’axe).
Le groupe auquel les individus Minneapolis, Milwaukee et Boston appartiennent (caractérisés par une coordonnée positive sur l’axe) partage :
Le groupe auquel les individus Dallas, Philadelphie et Houston appartiennent (caractérisés par une coordonnées négative sur l’axe) partage :
Figure 5 - Classification Ascendante Hiérachique des individus. La classification réalisée sur les individus fait apparaître 3 classes.
La classe 1 est composée d’individus tels que New York, Chicago, Washington D. C. et Baltimore. Ce groupe est caractérisé par :
La classe 2 est composée d’individus tels que Boston, Cleveland, Minneapolis, Dallas, Milwaukee et Buffalo. Ce groupe est caractérisé par :
La classe 3 est composée d’individus tels que Los Angeles et San Francisco. Ce groupe est caractérisé par :
dimdesc(res, axes = 1:3)
$Dim.1
$quanti
correlation p.value
TRAF 0.8726177 2.319808e-06
SUIC 0.8084607 4.897035e-05
LOWI 0.7196380 7.601770e-04
UNEM 0.5790090 1.180736e-02
HCOS -0.4769680 4.534601e-02
POLL -0.5392174 2.092819e-02
$quali
R2 p.value
lieu 0.8186732 1.857411e-05
$category
Estimate p.value
lieu=West 2.812509 0.0004879634
lieu=Est -2.432901 0.0194839279
attr(,"class")
[1] "condes" "list "
$Dim.2
$quanti
correlation p.value
ROBB 0.8828867 1.224712e-06
MENT 0.6984053 1.264876e-03
INCO 0.5361193 2.182158e-02
POLL 0.5318978 2.308675e-02
attr(,"class")
[1] "condes" "list "
$Dim.3
$quanti
correlation p.value
HCOS 0.7370007 0.0004843393
INFM -0.7433859 0.0004068152
$quali
R2 p.value
lieu 0.5865221 0.005183225
$category
Estimate p.value
lieu=West 2.012716 0.028347728
lieu=Sud -2.228357 0.006000701
attr(,"class")
[1] "condes" "list "
$call
$call$num.var
[1] 1
$call$proba
[1] 0.05
$call$weights
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
$call$X
Dim.1 INCO UNEM LOWI HCOS MENT INFM SUIC POLL ROBB TRAF lieu
Baltimore -0.15951648 3551 3.4 13.5 2056 10 231 81 3550 455 201 lieu=Est
New York -2.27243096 3868 3.0 14.3 2727 12 227 72 4575 485 133 lieu=Est
St Louis 0.47319849 3450 3.1 15.6 2315 6 240 102 3690 220 235 lieu=Nord
Philadelphie -1.04955578 3462 3.2 13.9 2222 11 248 92 4045 115 179 lieu=Est
Los Angeles 3.31609420 4029 4.7 16.5 2278 7 199 224 3935 273 248 lieu=West
Pittsburgh 0.62186092 3441 4.4 14.8 2032 5 214 86 3900 150 190 lieu=Nord
Minneapolis 0.37823368 3788 2.4 11.9 2392 2 196 99 2570 167 205 lieu=Nord
Boston -2.51477540 3371 2.5 9.3 2832 7 194 71 3890 97 156 lieu=Est
Chicago -1.78315609 4014 3.0 11.4 2617 11 244 82 4220 305 172 lieu=Nord
Détroit -0.06755761 3872 3.8 9.8 2208 8 227 104 3700 378 207 lieu=Nord
Cincinnati -0.22780148 3454 2.9 16.8 2272 7 205 101 3255 75 148 lieu=Nord
Houston 1.65127116 3480 3.3 17.8 1927 10 218 111 2335 232 218 lieu=Sud
Milwaukee -0.57953319 3656 2.9 11.0 2584 3 201 100 3015 62 171 lieu=Nord
Buffalo -0.13451343 3133 4.0 13.5 2498 4 223 61 2600 107 192 lieu=Nord
San Francisco 4.06501981 4075 4.8 17.5 2578 6 193 235 2530 377 250 lieu=West
Cleveland -1.71479440 2645 3.5 12.4 2646 8 210 104 3905 186 159 lieu=Nord
Washington D. C. -1.77798631 3641 2.7 9.4 2406 15 207 81 3275 379 174 lieu=Est
Dallas 1.77594287 3729 2.3 17.1 2005 8 232 98 1780 86 253 lieu=Sud
Figure 6 - Liste des variables caractéristiques des dimensions de l’analyse.
res.hcpc$desc.var
Link between the cluster variable and the categorical variables (chi-square test)
=================================================================================
p.value df
lieu 0.0003890968 6
Description of each cluster by the categories
=============================================
$`1`
Cla/Mod Mod/Cla Global p.value v.test
lieu=Est 80 66.66667 27.77778 0.02240896 2.283364
$`2`
NULL
$`3`
Cla/Mod Mod/Cla Global p.value v.test
lieu=West 100 100 11.11111 0.006535948 2.719607
Link between the cluster variable and the quantitative variables
================================================================
Eta2 P-value
SUIC 0.9219480 4.930362e-09
ROBB 0.6021350 9.954474e-04
MENT 0.5546318 2.319497e-03
UNEM 0.4773676 7.699677e-03
INCO 0.4152890 1.786732e-02
INFM 0.4032551 2.081687e-02
TRAF 0.3439434 4.237013e-02
Description of each cluster by quantitative variables
=====================================================
$`1`
v.test Mean in category Overall mean sd in category Overall sd p.value
MENT 3.064455 11.16667 7.777778 2.114763 3.224137 0.002180669
ROBB 2.673819 352.83333 230.500000 121.158872 133.389676 0.007499284
INFM 2.292753 230.66667 217.166667 13.324997 17.166667 0.021862233
POLL 2.055785 3894.16667 3376.111111 434.352168 734.696754 0.039803252
$`2`
v.test Mean in category Overall mean sd in category Overall sd p.value
INCO -2.412351 3414.7 3592.166667 312.699872 339.121782 0.015849996
MENT -2.541812 6.0 7.777778 2.366432 3.224137 0.011027951
ROBB -3.189767 138.2 230.500000 58.257703 133.389676 0.001423876
$`3`
v.test Mean in category Overall mean sd in category Overall sd p.value
SUIC 3.945320 229.50 105.777778 5.50 45.7135472 7.969341e-05
UNEM 2.845395 4.75 3.327778 0.05 0.7286255 4.435636e-03
TRAF 2.280516 249.00 193.944444 1.00 35.1922849 2.257709e-02
INCO 1.976625 4052.00 3592.166667 23.00 339.1217825 4.808406e-02
Figure 7 - Liste des variables caractéristiques des clusters de la classification.