ФА́КТОРНЫЙ АНА́ЛИЗ
-
Рубрика: Математика
-
-
Скопировать библиографическую ссылку:
ФА́КТОРНЫЙ АНА́ЛИЗ, раздел многомерного статистич. анализа, объединяющий методы оценки размерности множества наблюдаемых переменных посредством исследования структуры ковариационных или корреляционных матриц. Осн. предположение Ф. а. заключается в том, что корреляционные связи между большим числом наблюдаемых переменных определяются существованием меньшего числа гипотетич. ненаблюдаемых переменных, или факторов. В терминах случайных величин – результатов наблюдений $X_1$, $...$, $X_n$ общей моделью Ф. а. служит линейная модель $$X_i=\sum_{j=1}^k a_{ij}f_j+b_iU_i+ε_i,\,i=1,...n,\tag{*}$$ где случайные величины $f_j$ – общие факторы, случайные величины $U_i$ – факторы, специфические для величин $X_i$ и не коррелированные с $f_j$, а $ε_i$ – случайные ошибки. Предполагается, что $k < n$ задано, случайные величины $ε_i$ независимы между собой и с величинами $f_j$ и $U_i$, $\sf{E}ε_i=0$, $\sf{D}ε_i=σ_i^2$. Постоянные коэффициенты $a_{ij}$ называются факторными нагрузками (нагрузка $i$-й переменной на $j$-й фактор). Значения $a+{ij}$, $b_i$, считаются неизвестными параметрами, подлежащими оценке. В указанной форме модель Ф. а. отличается некоторой неопределённостью, т. к. $n$ переменных выражаются здесь через $n+k$ других переменных. Однако уравнения (*) заключают в себе гипотезу о ковариационной матрице, которую можно проверить. Напр., если факторы $f_j$ некоррелированы и $c_{ij}$ – элементы матрицы ковариаций между величинами $X_i$, то из уравнений (*) следует выражение для $c_{ij}$ через факторные нагрузки и дисперсии ошибок:$$c_{ij}=\sum_{l=1}^k a_{il} a_{jl},\,\,c_{ii}=\sum_{l=1}^k a^2_{il}+σ_i^2.$$ Т. о., общая модель Ф. а. равносильна гипотезе о том, что ковариационная матрица представляется в виде суммы матрицы $A=||a_{ij}||$ и диагональной матрицы $Λ$ с элементами $σ_i^2$.
Процедура оценивания в Ф. а. состоит из двух этапов: оценки факторной структуры – числа факторов, необходимого для объяснения корреляционной связи между величинами $X_i$ и факторной нагрузки, а затем оценивания самих факторов по результатам наблюдений. Принципиальные трудности при интерпретации набора факторов состоят в том, что при $k > 1$ ни факторные нагрузки, ни сами факторы не определяются однозначно, т. к. в уравнениях (*) факторы $f_j$ могут быть заменены с помощью любого ортогонального преобразования (вращения). Это свойство модели используется для преобразования факторов, которое выбирается так, чтобы наблюдаемые величины имели максимально возможные нагрузки на один фактор и миним. нагрузки на др. факторы. Существуют разл. практич. способы оценки факторных нагрузок в предположении, что $X_1$, $...$, $X_n$ имеют многомерное нормальное распределение с ковариационной матрицей $C=||c_{ij}||$. В частности, метод максимального правдоподобия приводит к единственным оценкам для $C$, но для оценок $a_{ij}$ даёт уравнения, которым удовлетворяет бесконечное число решений, одинаково хороших по статистич. свойствам.