维度规约
维度规约,又叫降维,用于提取数据特征,将高维数据转换为低维数据。一方面方便对数据进行可视化和分析;另一方面对数据进行预处理可以加速后续训练,并且减少噪声,使得所训练模型更加简单。如果说密度估计和降维是在数据集样本轴上进行压缩,那么降维就是在数据集特征轴上进行压缩。
降维和聚类可以同时使用,且应该先降维后聚类,因为当数据维度
直觉(Intuition)
降维任务的目标即要构造映射
有三种常见的指标用于衡量这种信息损失,他们各自可以推导出不同的目标函数:
最大惯性 (Large Inertia)
最大惯性方法认为降维后的数据之间距离应该最大化,即
事实上该目标等价于
其中
以下给出证明:
证毕。
此外,值得注意的是,在一维情况下,最大化的惯性实质上就是方差。
最小重建误差 (Small reconstruct error)
考虑另一个映射
保持原关系 (Relation Preservation)
考虑某种向量间的关系
主成分分析 (Principal Component Analysis, PCA)
在本节中,我们会先从最大惯性的角度进行求取最大主成分的推导;然后我们会证明 PCA 同样也是一种最小重建损失算法,并给出 PCA 的完整形式;最后我们会从多维标度 (Multidimensional scaling, MDS) 的角度证明 PCA 同样是一种保持原关系的算法,并在此基础上推导出非线性 PCA 。
最大惯性
正如前文所述,我们的目标是要找到这样一个映射函数
一个简单的想法是使用线性映射
其中
不失一般性,我们先令
其中
使用拉格朗日乘子法求解
即
代入求导求解可得
因此
要使
从而我们得到了一维情形下的 PCA 的解,类似地,我们可以推广到
可得
最小重建误差
考虑协方差矩阵的特征值分解
其中
我们首先给出完整的 PCA 算法如下
- INPUT: 数据集
, 保留成分数 - 计算样本均值和协方差矩阵
- 对
做特征值分解 - 记录前
大特征值 对应的特征向量 - 进行映射
我们首先证明 PCA 算法最小化了重建误差,考虑
有重建误差
因此最小化重建误差等价于最大化惯性。因为在上一节中我们从最大惯性推出了 PCA 算法,从而我们可以证明 PCA 同样也是一种最小重建误差算法。
是
保持原关系
考虑 Relation Preservation 的定义,有
从 MDS (Multidimensional scaling) 的角度看,选择
上述项即最大惯性,由此我们得到了和 PCA 一样的解。
在更广义的情形下,因为 MDS 只考虑点积,改写
此外,从 MDS 的视角重新审视 PCA 。
考虑
即
有
其中
可以看出,MDS 从样本距离矩阵