V.1.51 - Dernière mise à jour : 04/04/2011
Synonyme : quantiles*
Les fractiles* sont des paramètres de position
- Ils divisent la distribution en un certain nombre de parties égales (à plus ou moins un individu près)
sur le nombre d'individus et non sur leur valeur
Contexte :
caractères quantitatifs et, dans certains cas, qualitatifs ordonnables
Objectif :
partitionner la distribution en classes d'effectifs égaux pour :
- comparer le comportement de certaines sous populations
- éliminer les extrêmes
- cartographier
Réalisation :
- Classer les individus du plus petit au plus grand ;
cela pose un problème pour classer les ex-aequo !
- Diviser la distribution selon le nombre de classes voulues
Les quantiles les plus utilisés portent des noms particuliers
- Les quartiles* (effectif de la distribution divisé en 4 parties égales)
Q1 est le quartile inférieur
25 % des valeurs lui sont inférieures
75 % des valeurs lui sont supérieures
Q2 est la médiane*
50 % des valeurs lui sont inférieures
50 % des valeurs lui sont supérieures
Q3 est le quartile supérieur
75 % des valeurs lui sont inférieures
25 % des valeurs lui sont supérieures
- Les quintiles* (effectif de la distribution divisé en 5 parties égales)
Q1 est le quintile inférieur
20 % des valeurs lui sont inférieures
Q4 est le quintile supérieur
80 % des valeurs lui sont inférieures
L'intervalle [ Q2 ; Q3 ] contient la médiane
- Les déciles* (effectif de la distribution divisé en 10 parties égales)
Di découpe la distribution en tranche de 10 p.100
D5 correspond à la médiane
enfin,
- les centiles* (effectif de la distribution divisé en 100 parties égales)
Ci découpe la distribution en tranche de 1 p.100
C50 correspond à la médiane
- lorsque N est impair
formule n°1 (mem24sta.htm)
où
Qi est le quantile recherché (Q1, D3, C17, ...) ;
X est la valeur du quantile ;
i est le numéro du quantile recherché ;
N est l'effectif total ;
ni est l'effectif de la modalité i pour le quantile recherché ;
f(ni) est la fréquence de cette modalité ;
est la fraction (ou fréquence relative cumulée) du quantile recherché, exemple :
= 1/4 (ou 0,25) si on recherche Q1 le premier quartile ;
= 1/2 (ou 0,5) si on recherche Q2 le deuxième quartile ;
= 3/4 (ou 0,75) si on recherche Q3 le troisième quartile.
- lorsque N est pair
formule n°2 (mem24sta.htm)
Exemple :
Si l'on prend les températures de Paris, quelle est la valeur des quartiles ?
Sources : Météo France
Mois Moy T° à Paris janv 3,0 fév 3,6 mars 6,6 avril 9,6 mai 13,0 juin 16,0 juil 17,9 août 17,7 sept 15,3 oct 11,2 nov 6,4 déc 3,7
- Ordonner les températures
- Puis effectuer le calcul
Q1 = 5,05 °C
Q2 = 10,4 °C
Q3 = 15,65 °C
A Paris :
25% des t° moyennes mensuelles sont inférieures à 5,05 °C
25% des t° moyennes mensuelles sont supérieures à 15,65 °C
Donc 50% des t° moyennes mensuelles sont comprises dans l'intervalle [5,05° ; 15,65°]
Lorsque l'on n'a pas accès au tableau élémentaire
Cas fréquent des statistiques déjà publiées en tableau de dénombrement
et si l'on ne procède pas par interpolation, on peut utiliser la formule suivante (cf. DAGNELIE 1984, vol.1, p.44) :
formule n°3 (mem24sta.htm)
où
Qi est le quantile recherché (Q1, D3, C17, ...) ;
Xi inf est la valeur de la borne inférieure qui contient le quantile recherché ;
i est le numéro du quantile recherché ;
est l'étendue* de la modalité qui contient le quantile recherché ;
est la fréquence cumulée du quantile recherché, exemple :
- dans le cas des fréquences cumulées relatives
= 0,25 si on recherche Q1 le premier quartile ;
- dans le cas des fréquences cumulées absolues
= [(N + 1) * 1/4] si on recherche Q1 le premier quartile pour des effectifs impairs ;
= {[(N/4) + (N/4) + 1] * 1/2} si on recherche Q1 le premier quartile pour des effectifs pairs ;
f(ni) est la fréquence de cette modalité ;
ni est l'effectif de la modalité i pour le quantile recherché ;
est la fréquence cumulée de la classe directement inférieure à celle du quantile recherché.
- Certains auteurs préconisent l'utilisation des fréquences absolues, dans la formule,
le résultat serait moins approximatifs qu'avec les fréquences relatives
Exemple : Commune agricole du temps jadis !
SAU en ha Nb de fermes [0 ; 10[ 4 [10 ; 20[ 10 [20 ; 30[ 14 [30 ; 40[ 12 [40 ; 50[ 10
A titre d'information, en 2004 en Île-de-France :
- La surface moyenne des presques 6 000 exploitations est de 98 ha ;
- Il y a presque 2 000 exploitations qui ont une surface comprise entre 100 et 200 ha.
Pour notre exemple :
- Quelle est la valeur du 4e quintile ?
Q4 = 40,5 ha
- Quelle est la valeur du 7e centile ?
C7 = 10 ha
Pour se concentrer sur la partie "utile" d'une distribution
- éliminer des années pluviométriques extrêmes jugés peu représentatifs
- étudier les individus les plus courants d'une distribution (la partie centrale)
On découpe une étendue au sein de la série
- Intervalle interdécile D9 - D1
- conserve 80% de la distribution
- difficile à utiliser sur moins de 40 individus dans la distribution
Distribution des salaires mensuels nets de tous prélèvements en euros courants en 2008
/// : absence de résultat due à la nature des choses.
Déciles Hommes Femmes Ensemble (F-H)/H en % D1 1 170
1 065
1 124
-9.0
D2 1 316
1 188
1 261
-9.7
D3 1 445
1 287
1 381
-10.9
D4 1 579
1 392
1 508
-11.8
Médiane (D5) 1 732
1 516
1 653
-12.5
D6 1 924
1 673
1 834
-13.0
D7 2 191
1 883
2 074
-14.1
D8 2 636
2 178
2 462
-17.4
D9 3 562
2 753
3 263
-22.7
D9/D1 3.0 2.6 2.9 /// Lecture : en 2008, 10 % des salariés à temps complet du secteur privé et semi-public gagnent un salaire mensuel net inférieur à 1 124 euros.
Champ : France.
Source : Insee, DADS.
- Intervalle interquartile Q3 - Q1
- conserve 50% de la distribution
- difficile à utiliser sur moins de 20 individus dans la distribution
Exemple : Télécharger le Tableau 1 - Distribution des résidences secondaires dans les villes de plus de 250 000 habitants en France en 1990 - (Sources : RGP, 1990, in SAINT-JULIEN 1999, p.21).
Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.
A partir du tableau élémentaire (Tab. 1) :
- Construire les tableaux de dénombrements 2a et 2b de chacune des variables par la méthode des quintiles (5 classes de même effectif)
Pour compléter les colonnes, il faut :
a) Pour la colonne Classes
- Sur la 2e feuille de calcul "Travail"
déterminer les quintiles à l'aide de la fonction Centile d'EXCEL
- Sur la 1ère feuille de calcul "Tab 1 et 2"
En faire une matrice intervalle
- Remplir la colonne Classes avec les bornes précédemment trouvées
b) Pour la colonne Effectif
- La remplir à l'aide de la fonction Fréquence d'EXCEL
- Faire la somme qui doit être égale à 23 (=N)
c) Pour les colonnes Fréquences relatives simples et cumulées
- Procéder comme pour les exercices de la fiche mémo "mem23sta.htm"
A partir de la variable "Nombre de résidence secondaire en 1990"
- Peut-on répondre au questions suivantes ?
- Quel est le nombre de résidences secondaires tel que :
- 50 % des unités urbaines ont un nombre de résidences secondaires inférieur à ce nombre (et 50% un nombre supérieur) ?
- Entre quelles bornes de cette variable se trouvent les :
- 25% des unités urbaines concentrant les plus faibles nombres de résidences secondaires (adapter l'axe des ordonnées en conséquence) ?
- 25% des unités urbaines concentrant les plus fortes concentrations ?
- Est-il possible de tracer les courbes de fréquences cumulées avec EXCEL pour des données groupées en classes d'égale fréquence ?
Se référer à la variable "Nombre de résidences secondaires pour 1 000 hab. en 1990"
- Déterminer la proportion des unités urbaines pour lesquelles ce nombre dépasse 15 pour 1 000
- Calculer l'intervalle interdécile* (entre D1 et D9) soit la situation la moins extrême (80 % des cas)
- Calculer l'intervalle des situations les plus extrêmes (faibles et fortes)
Exemple : Télécharger le Tableau 2 - Distribution des précipitations en Mauritanie entre 1940 et 1990 - (Sources : ASECNA, ORSTOM).
Ce fichier est au format EXCEL 5.0 et "pèse" 97 Ko.
Pour construire un graphique en "Boîtes et moustaches" (mis au point par J. Tukey)
A partir du tableau élémentaire (Tab. 2) :
- Compléter les cases laissées vides sur la feuille de calcul
- A la place des déciles, n'importe quel autre fractile pourrait être utilisé
On pourra consulter à ce sujet les descriptions qu'en donne Philippe WANIEZ (WANIEZ 91 p.57-58)
- Sélectionner les données (sauf D9 - D1)
Mettre pour :
Ouverture => Quartile 1
Max => Centile 0,9
Min => Centile 0,1
Clôture => Quartile 3
- Dans l'assistant graphique, prendre le graphique dans
- Types standard
- Type de graphique : Boursier
- Sous type de graphique : en haut à droite
Faire suivant puis lignes au lieu de colonnes
- Les traits noirs (moustaches) correspondent aux extrêmes
- Le rectangle (la boîte) correspondent à l'intervalle interdécile
- Plutôt que d'utiliser les déciles comme moustaches, J. Tukey a préconisé de prendre pour la valeur des :
min => Q1 - [1,5 * (Q3 - Q1 )]
et
Max => Q3 + [1,5 * (Q3 - Q1 )]
et de représenter chaque individu en deçà du min et au delà du Max par une étoile ou un point sur le graphique.
- Quelle est la station qui connaît les plus gros écarts de précipitation ?
- Quelle est la station qui connaît 90% des pluies les plus faibles ?
- Quelle est la station qui autorise la culture du mil pluviale (400 mm de pluie par an) dans plus de la moitié des années ?
Communiquez-moi par courrier électronique les réponses aux questions suivantes Question n°2.4.1. A quoi correspond D5, le 5e décile ?
Question n°2.4.2. Quelle est la station mauritanienne qui connaît l'écart interdécile le plus important (Tab. 2) ?
Question n°2.4.3. environ 80 % des unités urbaines du tableau 2a (onglet Tab1 et 2 de la feuille de calcul ta1fm24s.xls) ont moins de combien de résidences secondaires ?
|
NB : les mots suivis de "*" font partie du vocabulaire statistique, donc leur définition doit être connue. Faites-vous un glossaire.