Análisis de Componentes Principales (ACP)

El análisis de componentes principales (ACP) es uno de los métodos estadísticos de minería de datos más populares. Ejecute su PCA en Excel utilizando el software estadístico XLSTAT.

principal-component-analysis-correlation-loadings-factors.png

El análisis de componentes principales (ACP) es uno de los métodos estadísticos de minería de datos más populares. Ejecute su ACPen Excel utilizando el software estadístico XLSTAT.

¿Qué es el análisis de componentes principales?

Definición de un análisis de componentes principales

El análisis de componentes principales es uno de los métodos de análisis de datos multivariantes más utilizados que permite investigar conjuntos de datos multidimensionales con variables cuantitativas. Se utiliza ampliamente en bioestadística, marketing, sociología y muchos otros campos.

Es un método de proyección, ya que proyecta las observaciones de un espacio p-dimensional con p variables a un espacio k-dimensional (donde k < p) para conservar la máxima cantidad de información (la información se mide aquí a través de la varianza total del conjunto de datos) de las dimensiones iniciales. Las dimensiones del ACP también se denominan ejes o factores. Si la información asociada a los 2 o 3 primeros ejes representa un porcentaje suficiente de la variabilidad total del diagrama de dispersión, las observaciones podrían representarse en un gráfico de 2 o 3 dimensiones, facilitando así su interpretación.

Por tanto, el ACP puede considerarse un método de minería de datos, ya que permite extraer fácilmente información de grandes conjuntos de datos. Tiene varios usos, entre ellos:

  • El estudio y visualización de las correlaciones entre variables para poder limitar el número de variables a medir posteriormente;
  • La obtención de factores no correlacionados que son combinaciones lineales de las variables iniciales para poder utilizar estos factores en métodos de modelización como la regresión lineal, la regresión logística o el análisis discriminante.
  • Visualizar las observaciones en un espacio bidimensional o tridimensional para identificar grupos uniformes o atípicos de observaciones.
  • XLSTAT ofrece una función ACP completa y flexible para explorar sus datos directamente en Excel. XLSTAT propone varias opciones estándar y avanzadas que le permitirán obtener una visión profunda de sus datos.

¿Cómo configurar un análisis de componentes principales en XLSTAT?

ACP sobre Pearson o Covarianza

El ACP se utiliza para calcular matrices para proyectar las variables en un nuevo espacio utilizando una nueva matriz que muestra el grado de similitud entre las variables. Es habitual utilizar el coeficiente de correlación de Pearson o la covarianza como índice de similitud, la correlación de Pearson y la covarianza tienen la ventaja de dar matrices positivas semidefinidas cuyas propiedades se utilizan en ACP. Sin embargo, pueden utilizarse otros índices.

XLSTAT ofrece varios tratamientos de datos para ser utilizados en los datos de entrada antes de los cálculos del Análisis de Componentes Principales:

  • Pearson, el clásico ACP, que estandariza o normaliza automáticamente los datos antes de los cálculos para evitar inflar el impacto de las variables con altas varianzas en el resultado.
  • Covarianza, que trabaja con varianzas y covarianzas no estandarizadas (las variables con varianzas altas tendrán un papel más importante en los resultados).
  • Spearman, totalmente equivalente a un ACP clásico (basado en la correlación de Pearson) realizado sobre la matriz de rangos.

Tradicionalmente, se utiliza un coeficiente de correlación en lugar de la covarianza, ya que el uso de un coeficiente de correlación elimina el efecto de la escala: así, una variable que varía entre 0 y 1 no pesa más en la proyección que una variable que varía entre 0 y 1000. Sin embargo, en ciertos ámbitos, cuando se supone que las variables están en una escala idéntica o queremos que la varianza de las variables influya en la construcción del factor, se utiliza la covarianza.

Cuando sólo se dispone de una matriz de similitud en lugar de una tabla de observaciones/variables, o cuando se desea utilizar otro índice de similitud, se puede realizar un ACP partiendo de la matriz de similitud (correlación o covarianza).

ACP con variables y observaciones suplementarias

XLSTAT le permite añadir variables (cualitativas o cuantitativas) u observaciones al ACP después de haberlo calculado. Estas variables u observaciones se denominan suplementarias. Esto puede utilizarse en varios contextos. He aquí dos ejemplos:

Si el usuario quiere investigar a grandes rasgos cómo se relaciona un conjunto de variables dependientes con las demás. En este caso, el conjunto de variables dependientes debería utilizarse como un conjunto de variables suplementarias y las otras (es decir, las variables independientes) deberían utilizarse para construir el ACP. Si el usuario simplemente quiere ver cómo se comportan las diferentes categorías de observaciones en el espacio del ACP (Hombres vs Mujeres por ejemplo). En este caso, se puede utilizar una variable complementaria cualitativa (sexo) para colorear las observaciones según el sexo al que pertenecen. También es posible mostrar los centroides de las categorías, así como las elipses de confianza alrededor de las mismas.

ACP con rotaciones: Varimax y otras

Se pueden aplicar rotaciones a los factores. Hay varios métodos disponibles, como Varimax, Quartimax, Equamax, Parsimax, Quartimin y Oblimin y Promax.

¿Cuáles son los resultados del Análisis de Componentes Principales en XLSTAT?

La función ACP de XLSTAT proporciona resultados relativos a las variables y a las observaciones.

Estadísticas descriptivas: La tabla de estadísticas descriptivas muestra las estadísticas simples para todas las variables seleccionadas. Esto incluye el número de observaciones, el número de valores perdidos, el número de valores no perdidos, la media y la desviación estándar (insesgada).

Matriz de correlación/covarianza: Esta tabla muestra los datos que se utilizarán posteriormente en los cálculos. El tipo de correlación depende de la opción elegida en la pestaña "General" del cuadro de diálogo. En el caso de las correlaciones, las correlaciones significativas se muestran en negrita.

Prueba de esfericidad de Bartlett: Se muestran los resultados de la prueba de esfericidad de Bartlett. Sirven para confirmar o rechazar la hipótesis según la cual las variables no tienen una correlación significativa.

Medida de adecuación de la muestra de Kaiser-Meyer-Olkin: Esta tabla ofrece el valor de la medida KMO para cada variable individual y la medida KMO global. La medida KMO oscila entre 0 y 1. Un valor bajo corresponde al caso en que no es posible extraer factores sintéticos (o variables latentes). En otras palabras, las observaciones no ponen de manifiesto el modelo que se podría imaginar (la muestra es "inadecuada"). Kaiser (1974) recomienda no aceptar un modelo factorial si el KMO es inferior a 0,5. Si el KMO está entre 0,5 y 0,7, la calidad de la muestra es mediocre, es buena para un KMO entre 0,7 y 0,8, muy buena entre 0,8 y 0,9 y excelente más allá.

Valores propios: Se muestran los valores propios y el gráfico correspondiente (scree plot ). El número de valores propios es igual al número de valores propios no nulos.

Si se han activado las opciones de salida correspondientes, XLSTAT muestra después las cargas factoriales en el nuevo espacio, y luego las correlaciones entre las variables iniciales y los componentes en el nuevo espacio. Las correlaciones son iguales a las cargas factoriales en un ACP normalizado (en la matriz de correlación).

Si se han seleccionado variables suplementarias, las coordenadas y correlaciones correspondientes aparecen al final de la tabla.

A continuación se muestran las puntuaciones de los factores en el nuevo espacio. Si se han seleccionado datos suplementarios, éstos se muestran al final de la tabla.

Contribuciones: Esta tabla muestra las contribuciones de las observaciones en la construcción de los componentes principales.

Cosenos al cuadrado: Esta tabla muestra los cosenos al cuadrado entre los vectores de observación y los ejes de los factores.

Cuando se ha solicitado una rotación, los resultados de la misma se muestran con la matriz de rotación aplicada primero a las cargas de los factores. A continuación, se muestran los porcentajes de variabilidad modificados asociados a cada uno de los ejes implicados en la rotación. Las coordenadas, las contribuciones y los cosenos de las variables y las observaciones después de la rotación se muestran en las siguientes tablas.

¿Qué gráficos se muestran para el Análisis de Componentes Principales en XLSTAT?

Una de las ventajas del Análisis de Componentes Principales es que proporciona tanto una visualización óptima de las variables y los datos, como biplots que mezclan ambos (véase más abajo). Sin embargo, estas representaciones sólo son fiables si la suma de los porcentajes de variabilidad asociados a los ejes del espacio de representación es lo suficientemente alta. Si este porcentaje es alto (por ejemplo, el 80%), se puede considerar que la representación es fiable. Si el porcentaje es bajo, es aconsejable realizar representaciones en varios pares de ejes para validar la interpretación realizada en los dos primeros ejes factoriales.

El círculo de correlación o gráfico de variables del ACP

El círculo de correlación (o gráfico de variables) muestra las correlaciones entre los componentes y las variables iniciales. Las variables suplementarias también pueden mostrarse en forma de vectores.

Los gráficos de observaciones del ACP

Los gráficos de observaciones representan las observaciones en el espacio del ACP.

Los biplots de ACP

Los biplots representan las observaciones y las variables simultáneamente en el nuevo espacio. Aquí también se pueden trazar las variables suplementarias en forma de vectores. Hay diferentes tipos de biplots:

Biplot de correlación: este tipo de biplot permite interpretar los ángulos entre las variables porque están directamente relacionados con las correlaciones entre las variables. La posición de dos observaciones proyectadas sobre un vector de variables permite concluir sobre su nivel relativo en esta misma variable. La distancia entre dos observaciones es una aproximación de la distancia de Mahalanobis en el espacio de k factores. Por último, la proyección de un vector variable en el espacio de representación es una aproximación de la desviación estándar de la variable (la longitud del vector en el espacio de k factores es igual a la desviación estándar de la variable).

Biplot de distancia: un biplot de distancia permite interpretar las distancias entre las observaciones porque son una aproximación de su distancia euclidiana en el espacio de p variables. La posición de dos observaciones proyectadas sobre un vector de variables permite concluir sobre su nivel relativo en esta misma variable. Por último, la longitud de un vector variable en el espacio de representación es representativa del nivel de contribución de la variable a la construcción de este espacio (la longitud del vector es la raíz cuadrada de la suma de las contribuciones).

Biplot simétrico: este biplot propuesto por Jobson (1992) es intermedio entre los dos biplots anteriores. Si no se pueden interpretar ni los ángulos ni las distancias, se puede elegir esta representación porque es un compromiso entre las dos.

XLSTAT permite elegir el coeficiente cuya raíz cuadrada debe multiplicarse por las coordenadas de las variables. Este coeficiente permite ajustar la posición de los puntos de las variables en el biplot para hacerlo más legible. Si se ajusta a un valor distinto de 1, la longitud de los vectores de las variables ya no puede interpretarse como desviación estándar (biplot de correlación) o contribución (biplot de distancia).

Tutoriales sobre cómo ejecutar ACP en Excel utilizando XLSTAT

En nuestra página web están disponibles varios ejemplos y aplicaciones que le ayudarán a configurar e interpretar un análisis ACP según sus necesidades.

ternary diagramneural network diagram

analice sus datos con xlstat

prueba gratuita de 14 días