PCA算法

假设有m条n维数据。

1. 将原始数据按列组成n行m列矩阵X

2. 将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值

3. 求出协方差矩阵C=1/mXXT

4. 求出协方差矩阵的特征值以及对应的特征向量

5. 将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P

6. Y=PX即为降维到k维后的数据

1. 数据压缩

1.1 数据压缩或者数据降维首先能够减少内存或者硬盘的使用，如果内存不足或者计算的时候出现内存溢出等问题，就需要使用PCA获取低维度的样本特征。

1.2 其次，数据降维能够加快机器学习的速度。

2. 数据可视化

在很多情况下，可能我们需要查看样本特征，但是高维度的特征根本无法观察，这个时候我们可以将样本的特征降维到2D或者3D，也就是将样本的特征维数降到2个特征或者3个特征，这样我们就可以采用可视化观察数据。

导航菜单