XLSTAT Zoom : Devenez un gourou de l'ACP dans XLSTAT
Saviez-vous que l'Analyse en Composantes Principales (ACP) est l'une des fonctionnalités de XLSTAT les plus utilisées ?
Cette méthode de data mining est utilisée en marketing, biostatistique, sociologie, et dans de nombreux autres domaines. Grâce aux puissants algorithmes de XLSTAT, vous aurez plus de 15 tableaux et graphiques de sortie, tandis que plus de 20 options sont disponibles pour personnaliser votre ACP. Et en plus, c'est très facile à maîtriser !
Commençons par un exemple simple et facile !
Vous disposez des données démographiques de toutes les régions de France provenant de l'INSEE. Avec l’ACP, vous pouvez analyser les liens entre les caractéristiques démographiques et identifier des états se différenciant fortement des autres.
Prêt pour un rappel théorique ?
Souvent les données portent une quantité d’information intéressante à exploiter qui est à priori répartie de manière homogène. L’ACP transforma le jeu de données initial à un jeu de données artificiel comprenant le même nombre de colonnes. Le but de ce processus est qu’elle maximise la quantité d’information sur les quelques premières colonnes du jeu de données artificiel généré.
Dans le jargon de l’ACP, les colonnes créées par l’ACP sont les dimensions de l’ACP, ou facteurs, ou axes. L’information est appelée inertie ou variabilité.
Pour plus de théorie, regardez notre vidéo :
Comment construire une ACP dans XLSTAT ?
Trois étapes simples : lancez la boîte de dialogue, sélectionnez vos données, configurez les options de l’ACP. Pas sûr de quelles options choisir pour adapter l’ACP à vos besoins ? La suite ci-dessous !
Quelles options XLSTAT à utiliser pour personnaliser votre ACP ?
- Types de données : choisissez l'option qui correspond au format de vos données, puis sélectionnez les données. Dans le cas de l'option Tableau observations/variables sélectionnez un tableau comprenant q observations décrites par p variables quantitatives. Dans le cas d'une matrice de corrélation ou de covariance, sélectionnez une matrice carrée.
- Type d’ACP : Si le format observations/variables est sélectionné, vous avez le choix entre corrélation (ACP normée), covariance (ACP non normée) et Spearman pour effectuer l'ACP sur une matrice de corrélation de Spearman. Si le format des données est matrice de covariance, vous avez le choix entre corrélation (la matrice de covariance sélectionnée sera transformée en matrice de corrélation et on effectue une ACP normée) ou covariance dans ce cas l'ACP sera réalisée sur la matrice de covariance sélectionnée et l'ACP ne sera pas normée.
- Normalisation : si le format des données est observations variables, vous pouvez choisir comment sont calculées les corrélations (ou covariance) : dénominateur (n) ou (n - 1).
- Filtrer les facteurs : vous pouvez fixer le nombre maximum de facteurs à prendre en compte ou saisir le pourcentage minimum de la variabilité totale que doivent représenter les facteurs retenus.
- Rotation (Varimax, Promax,etc): vous pouvez appliquer une rotation à la matrice des coordonnées factorielles.
- Données supplémentaires : vous pouvez calculer les coordonnées et représenter des individus et/ou de variables supplémentaires. Ces individus/variables ne sont pas pris en compte pour le calcul des axes factoriels.
- Suppression des données manquantes : vous avez le choix entre supprimer les observations comportant des données manquantesou les remplacer (moyenne, mode, plus proche voisin)
- Analyse par groupe : activez cette option puis sélectionnez les données d'appartenance à des groupes si vous souhaitez que les ACP soient effectués sur chaque groupe séparément.
- Classification Ascendante Hiérarchique : lancez la boîte de dialogue pré-remplie de la CAH afin d'effectuer une classification sur les coordonnées factorielles des observations.
- Sorties : statistiques descriptives, matrice de corrélation/covariance, test de sphéricité de Bartlett, mesure KMO, valeurs propres, contributions, cosinus carrés, scores factoriels,
- Graphiques : carte de corrélation, biplot (corrélation, distance, asymétrique), graphique d'observations, graphiques bootstrap.
Derniers tweets
Pas de tweet à afficher