V.2.1 - Dernière mise à jour : 18/10/2004
- Quelles différences y-a-t-il entre un tableau élémentaire et un tableau de dénombrement* ?
Le tableau élémentaire :
- est un tableau brut, de collecte de l'information
- à chaque individu (unité spatiale) correspond une modalité de la variable
Le tableau de dénombrement :
- est un tableau élaboré, de construction de l'information
- à chaque modalité de la variable correspond un certain nombre d'unités statistiques
appelées effectif* de la modalité
En général,
- il y a autant de tableaux de dénombrement qu'il y a de variables
- les unités statistiques deviennent anonymes regroupées dans leur modalité
Exemple : Tableau 2.1 - Évolution de la population camerounaise (1976 - 1987) - (Sources : RGP Cameroun, 1987, in SAINT-JULIEN 1999, p.11).
Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.
On se propose de réaliser un dénombrement des départements (unités spatiales) du Cameroun selon les modalités de chacun des caractères. Le nombre de ces modalités étant trop élevé, celles-ci vont être découpées en classes.
On a vu comment réaliser le diagramme de distribution avec EXCEL à la fiche mémo 1.1.
Cependant, le nombre de modalités (surtout pour des données quatitatives continues) peut être très (trop) important.
Pour synthétiser et communiquer, on a intérêt à discrétiser* les modalités
Synonyme : découper en classes, partitionner
Discrétiser c'est regrouper en classes, de manière pas trop arbitraire, des données quantitatives
- Données quantitatives
- échelles :
- mesurées ou dénombrées ;
- repérées ;
- échelle :
- de rapport (les ratios et pourcentages).
On passe d'une variable continue a une variable discrète
- Données qualitatives
- On ne parle pas de discrétisation
- On peut évoquer un regroupement de modalités
- Il n'y a pas de règles universelles, que des solutions empiriques et pragmatiques.
Mais l'objectif est de conserver à la distribution sa forme générale
- Il faut naviguer entre un :
- découpage trop fin (trop grand nombre de classes)
où l'effectif par classe risque d'être trop faible et sa répartition aléatoire (car fonction du découpage)
- découpage trop grossier (trop petit nombre de classes)
avec une perte d'information et une schématisation extrême
Que ce soit à des fins
cartographiques ou statistiques
- Pour constituer un découpage significatif, deux méthodes sont proposées :
elles tiennent compte de l'effectif* total de la distribution
elles sont décrites (entre autre) dans le CHADULE 1974 p.32
Pour Brooks-Carruthers, le nombre de classes K1 doit être :
K1 < 5 log10 N
Pour Huntsberger, le nombre de classes K2 doit être :
K2 = 1 + 3,3 log10 N
Si vous voulez en savoir plus sur les logarithmes, allez jeter un oeil sur a fiche mémo annexe mema3tel.htm.
- Qu'en est-il pour notre exemple ?
cf. Onglet Tab2 en G3 et G5
K1 < 5 log10 N < 5 log10 49 < 5 * 1,69 < 8,4
K2 = 1 + 3,3 log10 N = 1 + 3,3 log10 49 = 6,57
Un nombre de 7 ou 8 classes semble pouvoir convenir.
- Toutefois, d'autres raisons peuvent guider le choix du nombre de classes :
- Des raisons techniques
la cartographie manuelle est difficile au delà de 5 ou 7 paliers
- Des raisons pratiques
un résumé de la distribution est parfois suffisant en 3 ou 4 classes
- Combien de classes retient-on dans notre exemple ?
cf. Onglet Tab2 en G7
Il répond comme le nombre de classes à certaines conditions :
- Par convention des valeurs simples
retenir des paliers "ronds", "naturels"
- Une borne appartient à une classe et une seule
- La borne inférieure est incluse
- La borne supérieure est exclue
- Les bornes sont, de préférence, là où il y a des seuils*, des discontinuités*
là où la variable a un faible effectif
- Certaines valeurs significatives comme :
- zéro pour le taux d'accroissement
- 2,1 pour l'indice de fécondité
Les deux plus courantes :
- Classes d'effectifs égaux*
Caractérise des classes contenant un même nombre d'unités statistiques mais de taille variable
effectif égaux par classe K (à ± 1 près)
ni = N / K
où
ni est l'effectif par classe
N est le nombre d'unités statistiques
K est le nombre de classes
Permet de faire des groupes équilibrés mais :
- ignore les particularités de la distribution
- regroupe des individus très éloignés (par exemple les dix 1er, puis les dix suivants, etc.)
- d'amplitude inégale
Conseillées lorsque la distribution n'offre pas de seuils nets, sans être cependant uniforme
et surtout lorsqu'elle est dissymétrique*
cf. Onglet Tab2 en G10
Pour remplir le tableau du découpage en classe d'égale fréquence (effectifs égaux) :
- Triez la colonne C (avec les col. A et B !)
- Reportez en G la valeur des paliers lue tous les 6 départements (valeur lue en G10) !
- Par quel miracle les effectifs se calculent-ils ?
- Complétez les bornes en F
Synonyme : Classes d'égale étendue*
Caractérise des classes de pas constant contenant un nombre d'unités statistiques variables
e = (xi max - xi min) / K
où
e est l'étendue de chaque classe ;
xi max est la valeur maximale de l'effectif ;
xi min est la valeur minimale de l'effectif ;
K est le nombre de classes.
- La 1ère classe vaut [xi min ; xi min + e[
qui se lit : va de xi min inclu à xi min + e exclu
- La 2e classe vaut [xi min + e ; xi min + 2e[
etc. jusqu'à Ke classe
- La Ke classe vaut [xi min + (K - 1) * e ; xi min + K * e]
avec
xi min + K * e = xi max
Permet de faire des paliers "ronds" mais si la distribution est :
- discontinue, cela crée des classes vides ;
- dissymétrique ou normale, certaines classes extrèmes sont presque vides alors que d'autres sont pléthoriques ;
Conseillées lorsque la distribution est relativement uniforme* ou que l'on veut renforcer une tendance !
cf. Onglet Tab2 en K10
Pour remplir le tableau du découpage en classe d'égale amplitude (égale étendue) :
- Complétez en K les formules !
- Par quel miracle les effectifs se calculent-ils ?
- Complétez les bornes en J.
C'est d'abord un problème de forme des distributions
Mais lorsqu'il y a comparaison de distributions (dans l'espace, le temps)
le découpage est commun aux distributions et donc arbitraire
- même nombre de classes
- classes d'égale population (méthode la plus robuste*)
ou
- classes d'égale amplitude (méthode la plus courante)
- On va calculer pour chaque caractère et chaque classe retenue :
- l'effectif (col. B) ;
- l'amplitude (col. D) ;
- la fréquence relative simple* (col. C)
fi = ni / N
où :
fi est la fréquence relative simple de la modalité i ;
ni est l'effectif de la modalité i ;
N est l'effectif total.
cf. Onglet Tab3-Tab4 en B20
- Compléter d'abord le tableau :
Tab2.1.3 (b) Classes d'effectifs (approximativement) égaux
- Puis faire les autres sur le même principe
Laissez de côté la colonne D pour le moment.
- Comparez la forme des distributions
- Peut-on départager les deux méthodes décrites précédemment ?
- Conviennent-elles de la même manière à chacun des caractères ?
En vous aidant du fond de carte, décrire les 49 départements camerounais selon le caractère qualitatif nominale "position frontalière" (le littoral est assimilé à une frontière).
- Quel tableau de dénombrement peut être construit ?
cf. Onglet Tab5
- Compléter d'abord le tableau élémentaire Onglet Tab1
- Quelles représentations graphiques peut-on proposer ?
Téléchargement du fond de carte
(Sources : Code et localisation des 49 départements camerounais en 1987, in : SAINT-JULIEN 1999, p.12).
Ce fichier est au format ".TIF" et "pèse" 92 Ko.
Communiquez-moi par courrier électronique les réponses aux questions suivantes Question n°2.1.1. Quel tableau permet de répondre à la question suivante :"Combien d'individus prennent cette modalité ?" :
Question n°2.1.2. Quel tableau permet de répondre à la question suivante "Quelle est la modalité de cette unité statistique ?" :
Question n°2.1.3. Face à une distribution dissymétrique, quel mode de discrétisation est conseillé :
|
NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.