CLUSCATA

Utilisez CLUSCATA pour constituer des classes homogènes de sujets en fonction de leur perception des produits. Disponible dans Excel avec le logiciel XLSTAT.

Les épreuves CATA sont très utilisées de nos jours. Cependant, il arrive fréquemment que les perceptions des produits soient différentes entre les sujets. Une classification de ces derniers peut ainsi s'avérer nécessaire. La méthode CLUSCATA s'inscrit dans ce contexte. De plus, cette stratégie permet de mettre de côté les sujets qui ne se conforment à aucune des classes construites. CLUSCATA peut être vue comme une adaptation de CLUSTATIS au cas des données CATA.

Principe de CLUSCATA

L'objectif de CLUSCATA est de constituer des classes de sujets les plus homogènes possible, chaque groupe de sujets étant représenté par un tableau latent (nommée consensus) déterminé par CATATIS. Il est donc naturel que chaque classe soit finalement analysée par CATATIS, afin de déterminer les différences entre les classes constituées. CLUSCATA consiste en un algorithme hiérarchique pouvant être « consolidé » par un algorithme de partitionnement (c'est à dire que l'algorithme de partitionnement est initialisé par la coupe du dendrogramme). Une option intéressante est la création d'une classe « K+1 » (correspondant à une classe supplémentaire) afin de mettre de côté les sujets ne se conformant à aucune classe. Un sujet sera placé dans cette classe si les similarités (coefficents d'Ochiai) entre le consensus de chaque classe et ce sujet sont tous considérés comme faibles.

Options de la fontionnalité CLUSCATA dans XLSTAT

Structure des données

Il existe deux formats différents :

  1. Toutes les données sont concaténées horizontalement (format horizontal).

  2. Toutes les données sont concaténées verticalement (format vertical).

Pour la saisie des données, XLSTAT vous demande de sélectionner l'ensemble des données, et de donner le type de format. Dans le cas du format vertical, les produits et les sujets sont demandés.

Interprétation des résultats

La représentation des produits et attributs dans l'espace des k facteurs permet d'interpréter visuellement les proximités entre les produits et les attributs, moyennant certaines précautions.

On peut considérer que la projection d'un produit ou d'un attribut sur un plan est fiable si elle est éloignée du centre du graphique.

Nombre de facteurs

Deux méthodes sont communément utilisées pour déterminer le nombre de facteurs à retenir pour l'interprétation des résultats :

  • Regarder la courbe décroissante des valeurs propres. Le nombre de facteurs à retenir correspond au premier point d'inflexion sur la courbe.

  • On peut aussi se baser sur le pourcentage cumulé de variabilité représenté par les axes factoriels et décider de se contenter d'un certain pourcentage.

Représentations graphiques

Les représentations graphiques ne sont fiables que si la somme des pourcentages de variabilité associé aux axes de l'espace de représentation est suffisamment élevée. Si ce pourcentage est élevé (par exemple 80%), on peut considérer que la représentation est fiable. Si le pourcentage est faible, il est conseillé de faire des représentations sur plusieurs paires d'axes afin de valider l'interprétation faite sur les deux premiers axes factoriels.

Qualité de la classification

Afin de déterminer la qualité d'une classification hiérarchique, on peut s'aider de l'augmentation de la variance intra-classes (erreur du critère CLUSCATA) provoquée par la fusion de deux classes. Cette augmentation est égale à la hauteur du dendrogramme à laquelle les deux classes de sujets se retrouvent rassemblées dans la même classe.

L'homogénéité de chaque classe et l'homogénéité globale sont également des indices très importants (entre 1/m et 1, m étant le nombre de sujets) qui permettent de juger de la qualité de la classification. Il est à noter que la consolidation et l'ajout d'une classe « K+1 » peuvent augmenter les homogénéités.

Sorties de la fontionnalité CLUSCATA dans XLSTAT

Statistiques descriptives : le nombre de cochages par sujet est affiché.

Matrice de similarité (S) : la matrice des coefficients de similarité entre tous les sujets est affichée. Le coefficient de similarité utilisé est celui d'Ochiai. il est compris entre 0 et 1. Plus il est proche de 1, plus la similarité est forte. Cet indice est le coefficient d'Ochiai.

Statistiques des nœuds : dans ce tableau sont affichées les informations concernant les nœuds successifs du dendrogramme. Le premier nœud a pour indice le nombre de sujets augmenté de 1. Ainsi, il est aisé de repérer à quel moment un sujet ou un groupe de sujets est regroupé avec un autre groupe de sujets dans le dendrogramme.

Diagramme des niveaux : dans ce graphique sont affichés les niveaux des nœuds du dendrogramme, qui correspondent à l'augmentation du critère de minimisation de CLUSCATA (équivalent à l'augmentation de la variance intra-classes) lors de la fusion de deux classes.

Dendrogrammes : le dendrogramme complet permet de visualiser le regroupement progressif des sujets. Si une troncature a été demandée, un trait en pointillé marque le niveau auquel est effectuée la troncature. Le dendrogramme tronqué permet de visualiser les classes après la troncature.

Compositions des classes :

Résultats par sujet : dans ce tableau est indiquée pour chaque sujet sa classe d'affectation dans l'ordre initial des sujets. Si une consolidation est demandée, les résultats sont donnés avant et après la consolidation. Dans le cas où vous avez coché classe « K+1 », il est possible que certains sujets aient une valeur manquante après la consolidation. Ceci signifie qu'ils ne sont placés dans aucune des classes principales (ils sont placés dans la classe « K+1 »).

Résultats par classe : Les résultats sont donnés par classe. Ainsi, une liste de sujets est affichée pour chacune des classes.

Nombre de sujets par classe : Le nombre de sujets dans chaque classe est indiqué.

Paramètre rho calculé : Résultat affiché uniquement si vous avez choisi d'ajouter une classe « K+1 ». Le paramètre rho représente la similarité minimale que doit avoir un sujet avec le consensus d'une classe pour lui appartenir. Si cette condition n'est repectée pour aucune des classes, le sujet est placé dans la classe « K+1 ». Ce paramètre est calculé en fonction de la proximité de chaque sujet avec sa classe ainsi qu'avec la classe voisine.

Analyse de la classe k : 

Dans cette section est affichée l'analyse de chacune des classes par la méthode CATATIS. Chaque classe est analysée tour à tour.

Valeurs propres de l'AFC : les valeurs propres de l'AFC et le graphique (scree plot ) correspondant sont affichés.

Coordonnées des produits : les coordonnées des produits du consensus dans l'espace des facteurs sont affichées, ainsi que les graphiques correspondants (en fonction du nombre de facteurs choisi).

Coordonnées des attributs : les coordonnées des attributs du consensus dans l'espace des facteurs sont affichées, ainsi que les graphiques correspondants (en fonction du nombre de facteurs choisi).

Configuration consensus : la configuration consensus créée par CATATIS est affichée. Elle correspond à la moyenne des sujets pondérée par les poids de CATATIS.

Similarité entre chaque sujet et le consensus : les coefficients de similarité entre les sujets et le consensus sont affichés, ainsi que le diagramme en bâtons associé. Tout comme les poids de CATATIS, ces coefficients permettent de détecter des sujets atypiques. L'avantage de ces coefficients est qu'ils sont compris entre 0 et 1, donc plus faciles à interpréter que les poids.

Poids de chaque sujet : les poids calculés par CATATIS sont affichés, ainsi que le diagramme en bâtons associé. Plus un poids est grand, plus le sujet a contribué à l'élaboration du consensus. Sachant que CATATIS donne du poids aux sujets les plus proches du point de vue global, un poids beaucoup plus faible que les autres signifiera que le sujet est atypique.

Indices :

Homogénéités : l'homogénéité de chaque classe est affichée. C'est une valeur comprise entre 1/m (m étant le nombre de sujets de la classe) et 1, qui croît avec l'homogénéité des sujets. Dans un second temps, l'homogénéité globale, qui est une moyenne pondérée des homogénéités de chaque classe, est affichée.

Erreur globale/Variance intra-classes : l'erreur du critère CLUSCATA est affichée. Elle correspond à la variance intra-classes.

ternary diagramneural network diagram

analysez vos données avec xlstat

essayez gratuitement pendant 14 jours