降维方法总结

时间:2024-03-23 14:28:39

降维方法总结

对降维效果的评价:

比较降维前后学习器的性能

低维可以通过可视化技术来判断降维的效果

 

分类

一、低维嵌入

代表:MDS算法

基本思想:降维的一个基本思想是,降维前后 保证样本点的距离相等,即:原始空间中的距离在低维空间得以保持

MDS算法

1)通过距离不变的原理,推导出由高维空间距离矩阵D计算低维空间样本的内积矩阵B,

2)对B做特征值分解

3)根据特征值分解的结果,计算出样本的低维空间坐标

——可以理解为,这种算法,对高维和低维空间的映射关系没有关注,只是关注了样本点的距离;新的样本点和高维样本点没有关系,只是计算的距离是相等的

——现实中,一般只要求降维后的距离尽可能的接近,不必严格相等

另外

这种算法要求先计算原始空间中所有样本间的距离,获得距离矩阵,如果样本很多,是不是就不适用了?

另外的方法:

一般来说,欲获得低维子空间,最简单的方法是对原始空间做线性变换(矩阵变换的本质就是空间变换)

Z=W*X    W是变换矩阵

——线性降维方法

 

二、主成分分析(PCA)

如何用一个超平面对所有样本进行恰当的表达?两种思路:

最近重构性

——样本点到这个超平面的距离都足够近

转换矩阵是w,由标准正交基构成,构建一个距离公式,做优化,求w

最大可分性

——样本点到这个超平面上的投影尽可能分开

方法:——方差最大化

二者最后得到的优化方程是等价的

PCA算法流程:

输入:样本集D,低维空间维度d

1)对所有样本中心化

2)计算协方差矩阵

3)对协方差矩阵做特征值分解

4)取最大的d个特征值所对应的特征向量

输出:投影矩阵

理解:

最近重构性:可以理解为去除平面上小维度的抖动,保留大的变化维度的一种方式,比如一条直线,我们加上了微小的抖动,变成了曲线;再将其映射到最近的低维的超平面上,那肯定是会去除抖动,映射到了直线上,所以最近重构性也是一个理解思路

最大可分性:映射到尽可能分开的超平面,主要成分的含义

 

PCA就是按照最近重构性和最大可分性,求出的优化公式,按照拉格朗日乘子法进行推到,得到的解,然后进行矩阵变换

参考

简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法

 

三、核化线性降维

处理非线性映射的问题——核主成分分析

使用核技巧,思路与PCA一样,只是引入了核函数

参考之前对核函数的学习,关键还是在选择合适的核函数

 

四、流形学习

1)等度量映射—Isomap

借鉴拓扑流形的概念

数据在高维空间的分布虽然极为复杂,但是在局部上,仍然具有欧式空间的性质

——理解参考书中的例子,在一个三维空间计算距离虽然和二维空间相差很大,但是在三维空间中,计算距离很近的两点的距离,就和在二维空间中很相似

等度量映射——Isomap思想:

——高维空间中的距离是不可达的——所以在高维空间中计算的距离是不恰当的

高维空间的距离可以使用近邻连接的方式来计算

距离则转换为计算近邻连接图中两点之间的最短路径的问题(参考Dijkstra算法和Floyd算法)

然后求出距离后,就可以用这个新的距离使用MDS算法来降维

 

Isomap算法过程:

输入:样本D,近邻参数K,低维空间维度d

过程:

1)确定x的k近邻,x与k个近邻的距离设置为欧氏距离,其他点的距离设置为无穷大

2)用最短路径算法计算任意两点样本之前的距离

3)将距离作为MDS算法的输入

4)输出MDS算法的结果

 

问题:

对于新的样本,无法再通过训练集的近邻法计算邻域距离,如何将其映射到低维空间?

方法:训练一个回归学习器对新样本的低维空间坐标进行预测——权宜之计

——这应该是这个方法的主要缺点,导致新样本的巨大差距

 

近邻的计算有两种方式

k近邻,指定距离最近的k个点作为近邻——问题:出现短路,即距离很远的点也是近邻

e邻域近邻,指定距离在e范围内的点做近邻——问题:出现断路,很多点会没有近邻

 降维方法总结

 

 

2)局部线性嵌入—LLE

思想:保持邻域内,样本之间的线性关系(等度量映射保持的是局部的距离关系)

(关系只限定在邻域内)

 

计算思路:

1)确定x的邻域

2)确定x用其邻域的下标表示W(使w的和为1,且每个分量上最小化)

3)根据W,计算地位空间的坐标Z(通过中间矩阵M,M前d个特征向量组成的矩阵及为Z)

 

五、度量学习

思想

降维的目的是在一个低维的空间,寻找到一个合适的距离度量

寻找合适的空间维度,就是在寻找合适的度量

——直接寻找度量,不寻找空间——度量学习

 

马氏距离

构造一个加权的距离函数,不同的维度上的距离权重不同

合理设定一个目标函数,通过优化得到这些权重,即得到了目标度量,可以取前d维权重高的维度作为降维的维度

 

六、线性判别分析——LDA

LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

降维方法总结

 

参考:

MDS较于PCA和聚类的特点

     PCA主要是找到最能体现数据特点的特征,而MDS更看重的是原始数据之间的相对关系,通过可视化的方式将他们之间的相对关系尽可能准确的展现出来。

       MDS和聚类都可以检验样品之间的近似性或距离,但聚类分析中样品通常是按质分组的,MDS并不是把分组作为最终结果,而是以样品集的空间构图作为最终结果。