首页 理论教育数据降维与主成分分析

数据降维与主成分分析

【摘要】:为了说明什么是数据的主成分,先从数据降维说起。一般来讲,n维空间中的n个点一定能在一个n-1维子空间中分析。在上一段中,我们可以认为数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度的分量都为0。主成分分析的思想:将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

为了说明什么是数据的主成分,先从数据降维说起。假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果用自然坐标系xyz的三个轴表示这组数据,需要使用三个维度。事实上,这些点的分布仅仅是在一个二维的平面上。如果把x,y,z坐标系旋转一下,就能使数据所在平面与xOy平面重合。如果把旋转后的坐标系记为x′y′z′那么这组数据只用x′和y′两个维度表示即可,这样就能把数据维度降下来了。当然,如果想恢复原来的表示方式,就需要知道两组坐标之间的变换矩阵。但是要看到这个过程的本质,如果把这些数据按行或者按列排成一个矩阵,那么这个矩阵的秩就是2。这些数据之间是有相关性的,这些数据构成的过原点的向量的最大线性无关组包含两个向量,这就是为什么一开始就假设平面过原点的原因。那么如果平面不过原点呢?这时就需要将数据中心化。将坐标原点平移到数据中心,这样原本不相关的数据在这个新坐标系中就有相关性了。有趣的是,三点一定共面,也就是说三维空间中任意三点中心化后都是线性相关的。一般来讲,n维空间中的n个点一定能在一个n-1维子空间中分析。

在上一段中,我们可以认为数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度的分量都为0。现在假设这些数据在z′轴有一个很小的抖动,那么仍然可以用上述的二维表示这些数据,理由是我们可以认为这两个轴的信息是数据的主成分,而这些信息对于我们的分析已经足够了,z′轴上的抖动很有可能是噪声,也就是说本来这组数据是有相关性的,由于噪声的引入导致了数据不完全相关。

主成分分析的思想:将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。