【Coursera】因子分析模型

时间：2024-01-21 20:51:09

一、协方差矩阵

协方差矩阵为对称矩阵。

在高斯分布中，方差越大，数据分布越分散，方差越小发，数据分布越集中。

在协方差矩阵中，假设矩阵为二维，若第二维的方差大于第一维的方差，则在图像上的体现就是：高斯分布呈现一个椭圆形，且主轴对应的就是方差大的第二维度。简而言之，若对角线元素相等，则高斯分布的图形是圆形，反之则分布图形为椭圆形。

若协方差矩阵的非对角元素为0，则高斯分布图形平行于坐标轴，反之则不平行。

为什么当样本数量远小于特征向量的维数n时，协方差逆矩阵不存在（矩阵不满秩）？
- 在多变量高斯分布中，协方差矩阵和均值刻画了每个维度的特征，n维可以理解为有n个未知量，每一个样本可以构造一个等式，如果样本数量小于未知量n,那么这个n元方程组将无法求解。
- 此外，在多变量高斯分布中，公式里包含了协方差矩阵的行列式和逆矩阵，如果不满秩，则公式无法表达。
为什么限制了协方差矩阵为对角矩阵，那么高斯分布的形状就会和坐标轴平行？
- 限制协方差矩阵为对角矩阵，意味着不同维度之间的协方差为0，则会使得模型丢失了不同维度之间的相关性。

二、因子分析模型

为什么因子分析模型可以解决样本数量少于特征维度n的问题？
- 假设对于某个问题，有m个n维的样本数据，若m小于n,则协方差矩阵就不可逆，高斯分布的公式也无法得解，而在因子分析模型中，将n维的数据视为由d维（d < n）的变量经过一定的变换得到的，从而降低了问题的维度，使得m > n。（个人理解，不一定对）
- 假设可以解释为：每个点x都是由d维正态随机变量z生成。

相关文章

