Capítulo 7 Análisis Factorial Exploratorio (AFE)4
[Capítulo en construcción.]
7.1 Sobre el Análisis Factorial
El análisis factorial (AF) es una de las técnicas estadísticas más usadas en psicología. En términos amplios, se suele clasificar el AF en análisis factorial exploratorio (AFE) y análisis factorial confirmatorio (AFC). Sin embargo, uno de los problemas prácticos que muchos psicólogos y psicólogas enfrentan es que los programas como SPSS no entregan muchas funcionalidades para obtener el mayor grado de información para tomar decisiones, por ejemplo, en la construcción o validación de escalas. La herramienta de reducción de datos en SPSS solo permite llevar a cabo análisis factoriales exploratorios sin poder implementar análisis factoriales confirmatorios. El objetivo de este capítulo es describir cómo realizar análisis factoriales exploratorios en R, mientras que el próximo capítulo resume cómo ejecutar análisis factoriales confirmatorios, interpretando la salida que entregan las librerías o paquetes específicos para cada caso. Si bien el presente capítulo se explica, de forma muy general, qué es un análisis factorial exploratorio y otros elementos importantes asociados a esta técnica, este capítulo no reemplaza, de ningún modo, textos teóricos avanzados sobre el tema. De esta manera, se recomienda que las personas interesadas en indagar en los aspectos más conceptuales de estas técnicas profundicen en dichos textos5.
El AF puede ser clasificado dentro de las aproximaciones de modelamiento de variables latentes, cuyo uso es ampliamente requerido para estudiar constructos tales como inteligencia, personalidad, logro académico, enfermedades mentales, entre muchas otras. El AF busca identificar un conjunto de variables observadas (llamados indicadores) de una variable latente. Desde esta perspectiva, el principal interés del analista es estudiar una variable latente (por ejemplo, personalidad), pero que no puede ser observada directamente. A pesar de este problema epistemológico, se asume que la variable latente tiene una influencia directa en los indicadores observados (por ejemplo, los ítems de una escala, o subescalas en una batería de medidas), las cuales se pueden utilizar para entender la variable latente de interés.
Volviendo a lo descrito en el primer párrafo, los dos tipos de AF (AFE y AFC) se distinguen por el grado de una estructura previa que se asume para los constructos que se estudia y que luego son especificados por el analista. En el caso del AFE, el analista no impone una estructura específica latente en los indicadores observados, sino más bien permite que el número óptimo de factores sean determinados tomando en cuenta diferentes estadísticos y criterios de interpretación. Esto no significa que el investigador no tenga ninguna preconcepción sobre cuantos factores pueda haber en un instrumento dado, o sobre la naturaleza de ellos, o de la estructura latente subyacente. De hecho, lo que suele suceder en términos prácticos es que, efectivamente, el analista tiene ciertas nociones de la estructura interna de un instrumento, lo cual es bastante útil para lograr una interpretación adecuada de éste. En el AFE, el o la analista no relaciona directamente un indicador observado con alguna variable latente o factor, sino más bien confía en el algoritmo factorial, estableciendo ciertos criterios para lograr la estructura factorial óptima. A diferencia del AFE, en el AFC el o la investigadora explícitamente conecta los indicadores con los factores a los cuales ellos se corresponden teóricamente. Esta especificación del modelo o modelo propuesto es, posteriormente, examinado en el ajuste de modelo en los datos. Como se recomienda, es bastante útil comparar múltiples modelos (los cuales deben basarse en teorías sustantivas) en función de una variedad de estadísticos y criterios teóricos. El modelo que satisfaga ambos elementos es seleccionado como el modelo óptimo. La presente guía solo se refiere a los elementos estadísticos debido a que los criterios teóricos corresponden a los problemas particulares de cada analista.
Otro elemento relevante para el uso de ambas técnicas estadísticas tiene que ver con cuándo es más apropiado su uso. En el caso de que la analista tenga una teoría sólida sobre las variables latentes y sus relaciones con los indicadores observados (ojalá corroborada en la literatura), entonces en tal situación se aconseja la utilización del AFC. Así, se permite que múltiples modelos sean comparados entre sí, y se acomode la definición de una estructura específica a los datos. En el caso que no haya una teoría solida sobre una estructura factorial determinada o haya muy poca evidencia empírica al respecto, el AFE podría ser la técnica más convenientemente a usar. Esta última técnica impone muy pocas limitantes al analista con respecto a la naturaleza esperada de los constructos latentes y de sus relaciones con los indicadores. En principio, no es necesaria ninguna determinación a priori de estas relaciones en la estructura factorial latente.
7.2 Presentando el Caso de Estudio de este Capítulo
Para desarrollar e implementar un AFE, utilizaremos una base de datos que reside en la web sobre orientación al logro académico, la que tiene 12 ítems en formato Likert y que se llama “escala de orientación al logro” o en inglés achievement goal scale (AGS). Cada uno de los ítems posee siete opciones de respuestas, cuyos rangos van desde “en lo absoluto para mi” a “muy cierto para mi”.
Código | Item | Subdimensión |
---|---|---|
AGS1 | Mi objetivo es dominar completamente el material presentado en mi clase. | MAP |
AGS2 | Me gusta evitar aprender menos de lo que es posible aprender. | MAV |
AGS3 | Es importante para mi hacerlo mejor que otros estudiantes. | PAP |
AGS4 | Quiero evitar rendir pobremente comparado a otros. | PAV |
AGS5 | Quiero aprender tanto como sea posible. | MAP |
AGS6 | Es importante para mi evitar comprender de forma incompleta el material del curso. | MAV |
AGS7 | Es importante para mi entender el material del curso de manera completa tanto como sea posible. | MAP |
AGS8 | Mi objetivo es evitar rendir de peor manera en comparación a otros estudiantes. | PAV |
AGS9 | Me gusta rendir bien comparado a otros estudiantes. | PAP |
AGS10 | Es importante para mi evitar rendir pobremente comparado a otros estudiantes. | PAV |
AGS11 | Mi objetivo es rendir mejor que otros estudiantes. | PAP |
AGS12 | Mi objetivo es evitar aprender menos de lo que posiblemente podría. | MAV |
Para este caso particular, la o el investigador desea investigar la estructura latente de la escala de orientación al logro (AGS), usando las respuestas entregadas por 430 estudiantes universitarios a los 12 ítems. Como ya hemos mencionado más arriba, el analista siempre tiene alguna idea de la posible estructura factorial de sus instrumentos. No es diferente para este caso. La teoría subyacente a AGS nos dice que hay cuatro rasgos latentes distintivos: orientación al logro de dominio (MAP), dominio evitativo (MAV), aproximación de rendimiento (PAP), y rendimiento evitativo (PAV). De manera muy general, procederemos a definir cada una de estas subdimensiones: la orientación al logro de dominio (MAP) significa que un individuo está interesado en aprender nuevo material por el nuevo material en sí mismo, mientras que el dominio evitativo (MAV) se centra en que un individuo está interesado en aprender el nuevo material basado en cómo su aprendizaje lo hará aparecer a otros y, muy marcadamente, en no perder ninguna oportunidad de aprendizaje. Por otro lado, los estudiantes con puntajes altos en PAP desearán aprender nuevo material para parecer inteligentes a sus padres, amigos, y profesores, en cambio aquellos con puntajes altos en PAV desearán aprender nuevo material para evitar parecer menos inteligentes que personas significativas en sus vidas.
Desde la perspectiva de los creadores de la escala (AGS), éstos asumieron que la estructura factorial de cuatro dimensiones era apropiada, sin embargo, hay datos inconsistentes al respecto. De hecho, otros investigadores han propuesto que en realidad la orientación al logro consiste de tres variables latentes: dominio (MAV y MAP combinadas en una sola subdimensión), PAP y PAV. Mientras que otros sugieren que quizás solo hayan dos dimensiones: dominio (MAV y MAP) y rendimiento (PAP y PAV juntas). Hay poca evidencia empírica en está área que claramente esté apoyando una teoría sobre las otras. En este caso, el o la analista podría elegir analizar los datos seleccionando un EFA (y descartar un AFC por el momento), lo cual le ayudaría a empezar a entender la estructura latente subyacente.
7.3 Extracción de Factores
Retomando la descripción del AFE, esta técnica posee dos pasos primarios: la extracción de factores, y la rotación de factores que es necesario entender teóricamente porque muchas veces el analista puede perderlos de vista, ya que R lo implementa simultáneamente, pero el investigador debe tomar decisiones con respecto a los métodos a usar en el AFE. La extracción de factores involucra la estimación inicial de los parámetros del modelo, en particular los cargas, dado los datos disponibles. Hay potencialmente tantos factores como indicadores observados en los datos. De este modo, en principio, podríamos extraer 12 factores para los 12 ítems. Sin embargo, dado que el objetivo del AFE es identificar la estructura latente presente en los datos donde un pequeño número de variables latentes explicaría los valores de los indicadores observados, es decir, en la práctica solo un pequeño número de factores realmente serán retenidos en la solución final.
Hay diferentes métodos de extracción de factores, pero probablemente los más populares son los métodos de máxima similitud (máximum likelihood, ML) y factorización de ejes principales (principal axis factoring, PAF). Otros métodos de extracción, aunque menos utilizados, son los métodos de mínimos cuadrados generalizados (generalized least squares, GLS), mínimos cuadrados no ponderados (unweighted least squares, ULS), mínimos cuadrados ponderados (weighted least squares, WLS), entre otros. Independientemente del método que sea usado, el algoritmo busca estimaciones de cargas factoriales que arrojen la matriz de correlaciones del modelo predictivo tan cerca como sea posible de la matriz de correlación observada entre los indicadores. De hecho, la extracción de máxima similitud usa la proximidad entre la matriz de correlaciones del modelo predictivo y la matriz de correlación observada entre los indicadores para formar un test estadístico que evalúe la calidad de una solución factorial. Aunque el método de ML tiene la ventaja de proporcionar una evaluación directa del ajuste del modelo, también descansa en una asunción de normalidad multivariada de los indicadores observados. Cuando esta asunción es violada, la estimación de los parámetros del modelo puede no ser precisa, y en algunos casos, el algoritmo no encontrará una solución. El método PAF no depende de las asunciones de distribución de los indicadores, y de esta manera, puede ser particularmente atractivo de usar cuando los datos no están distribuidos de manera normal. No obstante, a diferencia de ML, no proporciona una prueba estadística de ajuste del modelo.
7.4 Rotación de Factores
Un aspecto importante del AFE es que cuando existe más de un factor, el modelo identificado en el paso de extracción es indeterminado en naturaleza. Esto quiere decir que existe un número infinito de combinaciones de las cargas factoriales que arrojarán el mismo ajuste matemático con los datos, es decir, la misma matriz de correlación. Este punto naturalmente nos hace desembocar en la pregunta de ¿cómo determinar la solución óptima de cargas factoriales para nuestros objetivos? Esta determinación se hace utilizando la rotación de factores, la cual se refiere a la transformación del set inicial de cargas factoriales a una interpretación simplificada de los resultados en la búsqueda de una solución de estructura simple. Thurstone (1947) definió una estructura simple cuando dos condiciones son satisfechas. Primero, cada variable latente o factor se ha asociado con un subconjunto de los indicadores, con los cuales están altamente vinculados (es decir, tienen cargas factoriales grandes). Segundo, cada indicador está altamente asociado con solo un factor y tiene cargas factoriales cercanas a cero en los otros factores. La rotación simplemente ajusta todas las cargas para aproximarse al objetivo de una estructura simple. La rotación no altera el ajuste subyacente del modelo, por lo que los valores de la matriz de correlación, tanto para las soluciones rotadas como no rotadas, son exactamente las mismas. En otras palabras, la varianza de los indicadores observados que es explicada por el modelo factorial no cambia. Solo los valores de las cargas son modificados en un intento de alcanzar la estructura simple propuesta por Thurstone para que sea más fácil interpretar los resultados.
Los métodos de rotación pertenecen a dos familias: ortogonal y oblicua. Las rotaciones ortogonales restringen las correlaciones entre factores a cero, mientras que las rotaciones oblicuas permiten que los factores estén correlacionados. En ambas familias de rotaciones existen muchas variedades, diferenciándose sobre el criterio usado para transformar los datos. Al igual que con los métodos de estimación, ninguna aproximación es siempre óptima, pero quizás el método de rotación ortogonal más popular es VARIMAX, mientras que entre los métodos de rotaciones oblicuos los más frecuentemente utilizados son PROMAX y OBLIMIN. Cuando usar una rotación de tipo ortogonal u oblicua, es una materia que se basa tanto en términos teóricos como empíricos. Si se anticipa que los factores estarán correlacionados, entonces se debería usar un método de rotación oblicua. En caso contrario, si anticipa que no deberían están correlacionados, se debería utilizar un método ortogonal. Sin embargo, si los factores de hecho están correlacionados, pero se decidió usar una rotación ortogonal, las cargas factoriales resultantes pueden ser afectadas de manera adversa, produciéndose un número de cargas cruzadas (variables teniendo cargas factoriales relativamente grandes con más de un factor).
7.5 Métodos Estadísticos para Determinar el Número Óptimo de Factores
Como ya se adelantaba más arriba, el analista debe contrastar diferentes soluciones factoriales para identificar el número óptimo de factores para explicar sus ítems. Pero ¿Cómo el analista toma esta decisión? Tradicionalmente, se han utilizado dos aproximaciones: evaluar los eigenvalues y generar un scree plot. Con respecto a la primera aproximación, para determinar el número de factores se contemplan todos los eigevalues más grandes que 1, reteniéndose todos los factores que tengan dichos valores. La idea es que este método se basa en el hecho que un eigenvalue refleja la varianza asociada con un factor. Cuando la variable observada es estandarizada, ellos tienen una varianza de 1. De esta manera, factores con eigenvalues más grandes que 1 explican más varianza en los datos que cualquier variable observada. Sin embargo, este método debe ser ponderado en conjunto con más información debido a que si solo consideramos éste, las soluciones obtenidas pueden ser muy complejas de interpretar.
7.6 Análisis Factorial Exploratorio a través de R
Instalacion de paquete para poder leer el archivo del segundo pedazo de codigo mas abajo.
#install.packages("readr")
Cargando la libreria y abriendo el archivo csv desde la web.
#library(readr)
<- read.csv("https://raw.githubusercontent.com/chrischizinski/SNR_R_Group/master/data/goal_scale.csv")
goal_scale<-factanal(~ags1+ags2+ags3+ags4+ags5+ags6+ags7+ags8+ags9+ags10+ags11+ags12, factors=4,rotation="promax",data = goal_scale)
agoal.efa agoal.efa
##
## Call:
## factanal(x = ~ags1 + ags2 + ags3 + ags4 + ags5 + ags6 + ags7 + ags8 + ags9 + ags10 + ags11 + ags12, factors = 4, data = goal_scale, rotation = "promax")
##
## Uniquenesses:
## ags1 ags2 ags3 ags4 ags5 ags6 ags7 ags8 ags9 ags10 ags11 ags12
## 0.487 0.335 0.279 0.342 0.557 0.388 0.104 0.005 0.231 0.201 0.300 0.306
##
## Loadings:
## Factor1 Factor2 Factor3 Factor4
## ags1 0.667
## ags2 0.844
## ags3 0.864
## ags4 0.793 0.104 -0.116
## ags5 0.565 0.123
## ags6 0.764
## ags7 1.023 -0.120
## ags8 0.756 0.583
## ags9 0.884
## ags10 0.866 0.143
## ags11 0.799 0.195
## ags12 0.833
##
## Factor1 Factor2 Factor3 Factor4
## SS loadings 4.122 2.404 1.461 0.426
## Proportion Var 0.344 0.200 0.122 0.036
## Cumulative Var 0.344 0.544 0.666 0.701
##
## Factor Correlations:
## Factor1 Factor2 Factor3 Factor4
## Factor1 1.0000 0.0919 -0.08477 0.20174
## Factor2 0.0919 1.0000 0.18936 0.66077
## Factor3 -0.0848 0.1894 1.00000 -0.00277
## Factor4 0.2017 0.6608 -0.00277 1.00000
##
## Test of the hypothesis that 4 factors are sufficient.
## The chi square statistic is 77.4 on 24 degrees of freedom.
## The p-value is 1.57e-07
Para estructurar los contenidos de este capítulo, me he basado en el libro Latent Variable Modeling with R escrito por Holmes Finch and Brian French.↩︎
Dos muy buenos textos para profundizar en las bases teóricas del análisis factorial son “Principle and Practice of Structural Equation Modeling” de Kline (2015) y “Confirmatory Factor Analysis for Applied Research” de Brown (2015).↩︎