Analyse en Coordonnées Principales

Principe de l'Analyse en Coordonnées Principales

L'analyse en coordonnees principales (en anglais, Principal Coordinate Analysis ou PCoA) a pour but de representer graphiquement une matrice de ressemblance entre p éléments (individus, variables, objets, etc.).

Si la matrice en entree est une matrice de similarite, XLSTAT la transformera en une matrice de dissimilarite avant de faire les calculs proposés par Gower (1966) avec d'eventuelles modifications proposées par divers auteurs dont on trouve la synthèse dans le livre Numerical Ecology de Legendre et Legendre (1998).

Principe de l'Analyse en Coordonnées Principales

Soit D la matrice p x p symétrique contenant les distances entre p éléments : on calcule alors une matrice A dont les éléments a_(ij)correspondant à la i_eme ligne et a la j_emecolonne sont définis par :

a_(ij) = d²_(ij) / 2

On centre alors la matrice A par ligne et par colonne pour obtenir la matrice ∆1 dont les éléments ∂1_(ij) sont donnes par :

∂1_(ij) = a_(ij)- ā_(i) - ā_(j) - ā

où ā_(i) est la moyenne des a_(ij) pour la ligne i, ā_(j) est la moyenne des a_(ij) pour la colonne j et ā est la moyenne de tous les elements.

On calcule alors la décomposition en valeurs propres de la matrice ∆1.

Les vecteurs propres sont triés par ordre décroissant de valeurs propres, et transformés de telle sorte que, si u(k) est le vecteur propre associe a la valeur propre λ(k), on a :

u'(k)u(k) = λ(k)

Les vecteurs propres ainsi transformés sont les coordonnées principales, qui peuvent alors être directement utilisées pour représenter les p objets dans un espace à 1, 2, ... p-1 dimensions.

Comme avec l'ACP (Analyse en Composantes Principales) les valeurs propres peuvent etre interprétées en termes de pourcentage de variabilité représenté.

Remarque : parce que la matrice ∆1 est centrée, on obtient au plus p-1 valeurs propres non nulles. Dans le cas où la matrice de départ D est une matrice euclidienne, on comprend aisément que p-1 axes suffiront toujours à décrire p objets (par deux points passe une ligne, trois points sont toujours contenus dans un plan, etc.). Dans le cas ou des points sont confondus dans un sous-espace, on peut obtenir plusieurs valeurs propres nulles (par exemple, trois points peuvent être alignés sur une même ligne).

Cas de valeurs propres négatives

Lorsque la matrice D n'est pas une matrice de distances métriques (cas de distances semi-métriques ou non métriques par exemple), ou si des valeurs manquantes étaient présentes dans les données ayant été utilisées pour calculer les distances, la décomposition en valeurs propres peut engendrer les valeurs propres négatives. Ce problème est décrit en détail dans l'article de Gower et Legendre (1986).

XLSTAT propose deux transformations pour remédier au problème des valeurs propres. La première consiste simplement à prendre la racine carrée des éléments de la matrice D. La seconde, inspirée de Lingoes (1971), consiste à ajouter une constante a la matrice D (sauf la diagonale qui reste nulle), telle qu'il n'y ait plus de valeurs propres négatives. Cette constante est égale à la valeur propre négative la plus élevée en valeur absolue.

Lorsqu'il y a des valeurs propres négatives, la représentativité des axes est calculée en appliquant la modification proposée par Caillez et Pages (1976).

Analyse en Composantes Principales, Multidimensional scaling et Analyse en Coordonnées Principales

L'ACP et la PCoA sont assez proches en ce sens que l'ACP permet aussi de représenter des individus dans un espace de faible dimension avec des axes optimaux en termes de variabilité représentée. La PCoA appliquée à la matrice des distances euclidiennes entre les individus

(calculée après normalisation des colonnes avec l'écart-type non biaisé) aboutit au même résultat que l'ACP normée appliquée aux données brutes. Les valeurs propres issues de la PCoA sont egales à (p-1) fois celles obtenues à partir de l'ACP.

La PCoA est une méthode dont le but est identique à celui du MDS (Multidimensional Scaling), à savoir représenter des objets pour lesquels on dispose d'une matrice de proximité.

Le MDS présente deux désavantages par rapport à la PCoA :

l'algorithme est beaucoup plus complexe et plus lent ;
les axes issus du MDS ne sont pas interprétables en termes de variabilité portée.

Le MDS présente deux avantages par rapport à la PCoA :

l'algorithme s'accommode de données manquantes dans la matrice de proximité.
la version non-métrique du MDS permet de traiter, sans que cela ne pose de problème théorique, des cas de matrices de proximité ou seul l'ordre compte.

Voir tous les tutoriels