Vincent GODARD

Département de Géographie

Université de Paris 8


V.2.5. - Dernière mise à jour : 02/05/2024

Fiche Mémo n°4.3. du cours de Télédétection niveau 2 :

Combinaisons, indices et ACP

 

Techniques d'amélioration et d'extraction de l'information contenue dans les données images

L'objectif est de :

- Réaliser des néo-canaux (canaux de synthèse)

qui maximisent l'information recherchée

- Étudier la corrélation entre les canaux

- Sélectionner les plus pertinents (compression de l'information) pour réaliser

- des classifications ;

- des typologies.

 

1. Les combinaisons

La combinaison, ou transformation, d'images :

- implique la manipulation de plusieurs canaux, pour transformer :

- une image provenant d'un capteur multispectral ;

- plusieurs images de la même région prises à des moments différents (données multitemporelles).

- génère une "nouvelle" image qui combine les différentes sources d'information pour rehausser :

- certaines caractéristiques invisible sur l'image originale.

C'est, en général, la fonction OVERLAY qui est utilisée dans IDRISI.

 

L'objectif est de :

- réduire le nombre des canaux initiaux sans perdre d'information

les 7 canaux de TM sont trop "lourds"

- mettre en avant certains aspects thématiques

végétation, sols nus, bâti

 

1.1 Combinaisons arithmétiques simples

Note, ce développement est valable pour des fichiers :

- dans la même géométrie ;

- corrigés radiométriquement.

- les soustractions d'image à image

=> pour identifier les changements intervenus entre deux dates

fig. 1 - Soustraction d'images


Source : Tutoriel du Centre Canadien de Télédétection

Avec l'image T et l'image T+1, si :

T - (T+1) <> 0

=> indice de changement

T - (T+1) = 0

=> pas de changement

Note, en général, on ajoute la valeur 127 aux comptes numériques obtenus pour ne pas avoir de valeurs négatives et avoir des données en octals (codées entre 0 et 255).

 

- les divisions, ou ratios ou indices, d'une image par une autre

=> pour rehausser les petites variations de réponses spectrales masquées par les variations d'intensité

Comme l'Indice foliaire (If), encore appelé Ratio Vegetation Index (RVI) :

équation n°1 - fm43

qui va mettre en avant les régions où la végétation subit un stress, ou n'est pas saine, car :

- elle a une réflectance plus basse dans le proche infrarouge,

- donc le rapport spectral y est plus faible que celui des régions où la végétation est en bonne santé.

Rappel : la végétation

- réfléchit fortement dans le proche infrarouge (PIR) lorsqu'elle est en bonne santé

- absorbe fortement dans le rouge.

Mais en fait, ce sont des indices un peu plus complexes qui sont utilisés.

 

1.2 Combinaisons arithmétiques plus complexes

On va voir plus particulièrement deux recombinaisons des canaux centrés sur le Rouge et le PIR

- l'IVN indicateur de l'activité biologique

- l'IB indicateur de la teinte des sols nus et des roches

 

1.2.1. Les indices de végétation

De très nombreuses possibilités.

En général, ce sont :

- des différences

comme le Difference Vegetation Index (DVI)

DVI = PIR - R

- des ratios

comme le Ratio Vegetation Index (RVI), (cf. supra Indice foliaire)

RVI = PIR / R

- des ratios de différences

comme l'indice de végétation normalisé (IVN), Normalized Difference Vegetation Index (NDVI)

équation n°2 - fm43

et d'autres plus complexes.

Mais la complexité n'est pas toujours gage de succès.

Nous allons détailler le NDVI ou IVN (différence normalisée)

L'indice le plus fréquemment utilisé.

Formulation dérivée du rapport PIR / R

Cet IVN est utilisé pour "imager" l'activité chlorophyllienne.

fig. 2 - IVN obtenues par combinaison des données AVHRR


Source : Tutoriel du Centre Canadien de Télédétection

- Indice normé qui va de -1 à +1

- de [0 ; +1] => c'est une végétation de + en + couvrante et active

- de [-1 ; 0] => ce sont les eaux et les zones humides

- autour de 0 => ce sont les sols nus

IVN = 0 => valeur pivot

- Le comportement de l'IVN vis-à-vis des cultures

L'IVN

- augmente avec le verdissement des pousses

(période de tallage et de montaison)

- diminue à la maturation

- Avantage de cet indice :

- fournit des données synthétiques pour la prévision des récoltes et la quantité de biomasse

mais :

- le taux de couverture doit être > 40%

- le taux de matière sèche < 50%

- limite les problèmes d'éclairement (entre autre les effets d'ombre)

une cible à le même ratio quelle que soit son illumination

- aide à caractériser les types et le taux d'urbanisation

La densité et la qualité du bâti sont corrélées à la verdeur

- Inconvénient de cet indice :

- sature lorsque l'Indice foliaire* > 4 (assez bonne couverture)

Les cultures très couvrantes montent à 7-8 (cf. BONN92 p.71)

- masque la topographie (limite l'effet d'ombre dû au relief)

- discrimine mal les différences hydriques

surtout si fort taux de couvert

- serait sensible :

- aux effets angulaires pour évaluer les couvertures à taux variables

- aux phénomènes de diffusion

Le Centre Canadien de Télédétection indique pour sa part dans son tutoriel :

Un autre avantage de l'utilisation des rapports spectraux est la réduction de l'effet de variation de l'illumination solaire causé par la topographie. Le simple fait de calculer des valeurs relatives (des rapports) plutôt que des valeurs absolues d'intensité produit cette réduction des effets topographiques. Par exemple, la réflectance absolue d'une forêt couvrant une montagne dépend de son orientation par rapport à l'illumination du Soleil. Cependant, le rapport entre la réflexivité provenant des deux bandes spectrales est sensiblement le même. Des rapports plus complexes entre des sommes et des différences de bandes spectrales ont été développés pour différents capteurs afin de surveiller les conditions de la végétation. Une transformation très utilisée pour surveiller l'état de la végétation à l'échelle continentale et à l'échelle du globe est l'indice de végétation par différence normalisée (NDVI). Cette transformation utilise les données des radiomètres avancés à haute résolution (AVHRR) à bord des satellites NOAA.

- La formule de l'IVN est la suivante pour SPOT :

équation n°3 - fm43

- Quelle est la valeur de l'IVN pour les différents thèmes suivants ?

(rappel des bandes SPOT XS)

fig. 3 - Signatures spectrales de quelques objets


Source : Site du www.educnet.education.fr

 

- En pratique, dans IDRISI, c'est la fonction OVERLAY qui contient la formule du NDVI

- Choisir Normalized Ratio (5)

- Nommer l'image de sortie avec un suffixe du type IVN

- L'affichage sera effectué avec la palette NDVI256

- Pour des questions d'encombrement (surtout pour les gros fichiers, voir en Annexe n°2)

Passez des réels aux octals.

- Vous ferez un recodage entre 0 et 255

- La valeur pivot passe de 0 à 128

- Utilisez SCALAR deux fois de suite

Sommez avec + 1 pour passer en positif ;

puis

Multipliez avec 128 (en toute logique 127,5 !) pour occuper l'intervalle [0 ; 255]

- Enfin, utilisez CONVERT pour passer des réels aux octals.

Choisissez Byte - Binary

On peut gagner du temps, pour l'IVN, en utilisant VEGINDEX, qui regroupe plusieurs indices pré-programmés.

 

1.2.2 L'indice de brillance

Complète l'information de l'IVN pour les sols nus ou minéralisés

L'IB met en évidence :

- l'humidité des sols

- les rugosités de surface

- la couleur des sols (2 notions liées à la composition granulométrique)

Permet également de cartographier les quantités de végétation si :

- le taux de couverture < 40%

- le taux de matières sèches > 50%

La précision est moins bonne que pour l'IVN

Indice également intéressant pour caractériser le taux d'urbanisation

La formule de l'IB est la suivante :

équation n°4 - fm43

Donc pour SPOT :

équation n°5 - fm43

- Quelle est la valeur de l'IB pour les différents thèmes de la figure n°3 ?

(rappel des bandes SPOT XS)

- En pratique, dans IDRISI, c'est la fonction SCALAR qui est utilisée

- Élever chaque image au carré, les sommer, puis en prendre la racine carré

- Les sommer ;

- Nommer l'image de sortie avec un suffixe du type IB ;

- L'affichage sera effectué avec la palette Grey256

- Pour des questions d'encombrement (surtout pour les gros fichiers, voir en Annexe n°2)

Passez des réels aux octals.

- Vous ferez un recodage entre 0 et 255

- Utilisez SCALAR puis CONVERT pour passer des réels aux octals.

Choisissez Byte - Binary

 

2. Corrélation et choix des canaux

Dans le cas du TM de Landsat,

il est impossible de voir + de 3 canaux à la fois (sous forme de synthèse colorée)

Lesquels retenir pour faire :

- une composition colorée ;

- une classification, ...

La gestion simultanée des 7 canaux est très lourde.

On a donc intérêt à :

- éliminer les canaux redondants ;

- concentrer l'information.

 

- Comment connaître les liens entre canaux ?

 

2.1 Notion de corrélation

Lorsque l'on étudie 2 variables en même temps, soit elles varient :

- dans le même sens ;

- en sens opposé ;

- ne varient pas en même temps.

Dans les deux 1er cas, on peut modéliser leur liaison à l'aide d'1 droite (si la relation est linéaire)

et déduire les variations de l'une part rapport à l'autre

En télédétection,

on préfère le cas où les 2 variables (canaux) sont le + indépendantes possibles

car chacune apporte une part d'information qui n'est pas dans l'autre

 

- Comment sélectionner les canaux les plus décorrélés ?

On peut utiliser un coefficient comme le r de Bravais-Pearson, ou coef. de corrélation

équation n°6 - fm43

Rappelons que le coefficient r :

- est un nombre sans dimension

- son signe est celui de la covariance

CàD qu'il est compris entre [-1 ; +1]

- il varie comme le cosinus de l'angle formée par les deux droites de régression

Quand :

= 1 les droites sont confondues

il y a liaison mathématique entre X et Y

r = 0 les droites sont orthogonales

il y a indépendance mathématique entre X et Y

Plus est proche de 1 plus la liaison est forte

Plus r est proche de 0 plus la liaison est faible (si linéaire)

- Comme c'est un indice normé qui va de -1 à +1

- de [0 ; +1] => c'est une relation de + en + positive et intense

- de [-1 ; 0] => c'est une relation de + en + négative et intense (vers - 1)

- autour de 0 => il y a indépendance entre les variables (les canaux)

r = 0 => valeur pivot

 

- Comment visualiser cette relation ?

- En pratique dans IDRISI, c'est la fonction REGRESS qui permet d'effectuer une régression linéaire entre 2 images (ou fichiers attributs)

- Choisir le nom de la variable

- indépendante => canal du rouge

- dépendante => canal du PIR

éventuellement une image masque

Ceci est particulièrement utile lorsque l'on a un fichier masque échantillon. Comme les données satelitalles sont très autocorrélées*, un échantillon qui s'affranchit de cette dépendance spatiale* permet de tester la régression et d'exploiter les paramètres fournis (degrés de liberté, t de Student, ...). Cette autocorrélation se teste avec la fonction AUTOCORR.

On obtient un graphique bivarié avec la droite de régression et ses paramètres r, degrés de liberté, t de Student

Ce graphique bivarié est proche (mais plus complet, grâce aux paramètres) de celui obtenu par SCATTER.

Exercice :

- Rechercher dans l'espace à 2 dimensions du nuage quelques éléments :

- eau

- végétation

- sols nus (calcaire, route goudronnée...)

- Sont-ils facilement identifiables ?

- S'individualisent-ils facilement ?

- Refaire l'essai avec l'IVN et le canal du rouge

- Quelle est la forme du nuage ?

- La discrimination est-elle plus facile ?

- A-t-on intérêt à passer en revue toutes les combinaisons ?

- Rechercher les canaux dont les coefficients de corrélation pris 2 à 2 sont les plus faibles

 

2.2. La matrice de corrélation

Analyse utile lorsque l'on passe :

- d'un nuage à 2 dimensions (cf. histobidim)

appelé espace à 2 dimensions et représenté par une ellipse

- aux nuages à n dimensions (SPOT mais surtout TM)

appelé hyperespace et représenté par un ellipsoïde

En télédétection, les bandes spectrales sont fréquemment et fortement corrélées

Cela signifie que, si un pixel à 1 luminance élevée dans 1 bande

elle le sera aussi dans d'autres

A l'extrême, 2 bandes fortement corrélées

contiennent la même information (redondance)

Donc, la connaissance de la corrélation est indispensable pour sélectionner l'information pertinente.

Exercice :

- Afficher les 4 bandes de la Mauritanie 1980 (qui sont dans le répertoire Advanced IP)

- Indiquer quelles sont celles qui se ressemblent (approche visuelle de la corrélation !)

Dans IDRISI, la matrice de corrélation s'obtient dans le module d'ACP.

 

3. Analyse en composante Principale

- L'ACP projette l'information (variance totale du nuage initial)

sur de nouvelles variables appelées composantes principales (CP)

Ces composantes principales sont des variables (ou axes) non-corrélées et hiérarchisées

L'ACP concentre l'information sur les 1er axes

après rotation et combinaison linéaire des canaux d'entrée

fig. 4 - Concentration de l'information dans une ACP


Source : Tutoriel du Centre Canadien de Télédétection

L'expression des composantes est la suivante :

CP1 = a1 * XS1 + b1 * XS2 + c1 * XS3

CP2 = a2 * XS1 + b2 * XS2 + c2 * XS3

etc...

Il faut noter la correspondance entre les équations :

- d'une droite de régression (cf. REGRESS)

- d'une ACP

Intérêt mathématique de l'ACP :

- conserve la variance totale de l'image

- condense l'information sur les 1ères composantes

Intérêt thématique de l'ACP :

- minimise l'influence de la topographie

- accroît les contrastes (intérêt éventuel pour les compositions colorées)

- diminue les effets d'ombres portées

- En pratique dans IDRISI, c'est la fonction PCA qui permet d'obtenir la matrice des corrélations entre n images

- Faire deux Layer group

- 1er => maur80-band 1 à 4

- 2ème => maur90-band 1 à 4

- Lancer PCA

- Choisir Forward T-mode comme type d'analyse (la fonction Inverse permet de revenir aux bandes d'origine)

- Choisir Covariance matrix (Unstandardized) comme type de matrice pour calculer des Covariances non standardisées

Objectif => réduire les données

On donne plus de poids aux bandes qui ont la plus forte variance (en général le PIR)

Avec les variables standardisées, toutes les bandes origines ont le même poids (car on divise la luminance de chaque pixel par la variance de la bande)

- Insérer le Layer group de maur80-band

- Extraire 4 composantes

- Indiquer M80 comme Prefix


PCA fait le calcul des équations de transformation et crée les nouvelles composantes avec des nom suivants M80CMP1 jusqu'à M80CMP4. Des résumés statistiques sont affichés.

tab. 1 - Matrice des covariances

VAR/COVAR
m80-band1
m80-band2
m80-band3
m80-band4
m80-band1
15.41
29.14
22.08
12.24
m80-band2
29.14
73.12
51.91
30.98
m80-band3
22.08
51.91
47.66
29.69
m80-band4
12.24
30.98
29.69
27.3

- Regardez la matrice des corrélations.

tab. 2 - Matrice des corrélations

COR MATRX
m80-band1
m80-band2
m80-band3
m80-band4
m80-band1
100%
87%
81%
60%
m80-band2
87%
100%
88%
69%
m80-band3
81%
88%
100%
82%
m80-band4
60%
69%
82%
100%

- Y a-t-il des corrélations importantes entre bandes ?

- Quelles sont les bandes les plus corrélées

- avec la bande 1 (Maur80-band1) ?

- avec la bande 4 (Maur80-band4) ?

- Comment se calcule 1 coeff de corrélation à partir de la matrice de covariance ?

r(1 ; 2) = 29.14 / [15,41^(1/2) * 73,12^(1/2)] = 0,87 ou 87 %

- Faites défiler les résumés contenant les :

- valeurs propres* (eigenvalues)

tab. 3 - Matrice des valeurs propres et vecteurs propres

COMPONENT
C1
C2
C3
C4
% var.
87.46
8.11
2.68
1.76
eigenval.
142.97
13.26
4.38
2.88
eigvec.1
0.288707
-0.256256
0.335907
0.859155
eigvec.2
0.692342
-0.516379
-0.459525
-0.207007
eigvec.3
0.555636
0.281534
0.688288
-0.371843
eigvec.4
0.358581
0.767088
-0.449737
0.284135

- vecteurs propres* (eigenvectors) de chaque composantes (en colonnes).

Les valeurs propres expriment la part de variance* contenue dans chaque composante tandis que les vecteurs propres sont les coefficients des équations de transformations des bandes originelles vers les composantes.

- Comment retrouver la valeur d'un pixel dans une bande d'origine ?

m80-band1 = 0.288707 * C1 - 0.256256 * C2 + 0.335907 * C3 + 0.859155 * C4

(on ne le fait plus jamais à la main depuis l'invention du PC pour tous !)

Les valeurs propres, au sommet de chaque colonne, sont exprimées en pourcentage de la variance totale (% var.).

- Quelle quantité de variance est prise en compte par les composantes

- 1, 2 et 3, séparément ?

- 1 et 2 ensembles (additionnez les parts individuelles de variance) ?

- 1, 2 et 3 ensembles ?

- Maintenant, faites défiler les résumés contenant les :

- coordonnées*, parfois appelées poids (loadings).

tab. 4 - Matrice des coordonnées des anciennes bandes sur les composantes

LOADING
C1
C2
C3
C4
m80-band1
0,880
-0,238
0,179
0,371
m80-band2
0,968
-0,220
-0,112
-0,041
m80-band3
0,962
0,148
0,209
-0,091
m80-band4
0,821
0,535
-0,180
0,092

Les coordonnées informent sur le degré de corrélation entre les composantes (en colonnes) et les bandes originelles (en lignes). Pour en savoir plus sur ce point, on se reportera à la fiche mémo du cours de Master2 sur les ACP (mem02mas.htm#coordonnées)

- Quelle bande a la plus forte corrélation avec la composante 1 ?

- Est-ce la plus forte corrélation ?

- Quelle bande a la plus forte corrélation avec la composante 2 ?

- Visualiser la dernière composante

- Quelle-est la bande la plus corrélée avec elle ?

- A-t-elle un coefficient de corrélation élevé ?

- Que contient cette bande ?

- Quel % d'information originelle serait perdu si on rejetait cette composante ?

- Quelle bande devrait-on retenir si on n'en gardait qu'une ?

Remarques :

- Les résultats ne sont affirmés que pour les valeurs ayant les plus fortes coordonnées

Plus on est proche du barycentre :

- plus les bandes sont étrangères à la définition de la composante ;

ou

- moins la qualité de leur représentation est bonne (ils sont loin du facteur)

Par convention, on peut superposer sur les nuages de points, tracées sur les cartes factorielles, des flèches représentant chaque vecteur-variable.

Chaque flèche d'une longueur quelconque passe par le barycentre* (0;0) et les coordonnées du vecteur-variable.

Additionner le carré de sa coordonnée pour deux axes, c'est obtenir la part de la variable expliquée sur ce plan factoriel.

 

- Relancer PCA

- Insérer les Layer group de maur80-band et maur90-band

- Extraire 8 composantes

- Indiquer M89 comme Prefix

- Calculer des Covariances non standardisées

- Qu'est ce qu'on obtient ?

- Quel est l'intérêt du multidate ?

 

En général,

- la 1ère composante => brillance globale de la scène (proche de l'IV pour SPOT)

- la 2ème composante => différences spectrales majeures (proche IB pour SPOT)

- la dernière CP => différences de teintes et de structures dans le visible mais concentre aussi les bruits résiduels

 

Conclusion, l'ACP

- concentre l'information

- permet de choisir les canaux origines les plus pertinents

Mais, elle est plus complexe à interpréter que les canaux bruts

On perd facilement ses repères !

 

 

4. Test de compréhension

Communiquez-moi sur la plateforme Moodle, à la rubrique "Questions de cours", les réponses aux questions suivantes :

Question n°4.3.1. Avec un taux de matière sèche proche de 40%, vaut-il mieux évaluer la biomasse avec :

a) l'ACP

c) l'IB

b) le RVI

d) l'IVN

Question n°4.3.2. Avec un coefficient de corrélation "r" égal à 0,7, peut-on dire que la liaison entre les canaux est :

a) linéaire

c) de sens opposé

b) de même sens

d) moyennement significative

Question n°4.3.3. Quelle ACP permet de donner un poids égal à tous les canaux (ce qui est peu utilisé en télédétection) :

a) ACP décorrélée

c) ACP non normée

b) ACP standardisée

d) ACP corrélée

 

 

Retour au début de la fiche Mémo
 
Fiche Mémo suivante

 

NB : les mots suivis de "*" font partie du vocabulaire géographique, donc leur définition doit être connue. Faites-vous un glossaire.