“PCA算法”的版本间的差异
来自CloudWiki
第1行: | 第1行: | ||
− | pca算法步骤: | + | **pca算法步骤: |
假设有m条n维数据。 | 假设有m条n维数据。 | ||
第14行: | 第14行: | ||
6. Y=PX即为降维到k维后的数据 | 6. Y=PX即为降维到k维后的数据 | ||
+ | |||
+ | **PCA的应用范围 | ||
+ | |||
+ | 1. 数据压缩 | ||
+ | |||
+ | 1.1 数据压缩或者数据降维首先能够减少内存或者硬盘的使用,如果内存不足或者计算的时候出现内存溢出等问题,就需要使用PCA获取低维度的样本特征。 | ||
+ | |||
+ | 1.2 其次,数据降维能够加快机器学习的速度。 | ||
+ | |||
+ | 2. 数据可视化 | ||
+ | |||
+ | 在很多情况下,可能我们需要查看样本特征,但是高维度的特征根本无法观察,这个时候我们可以将样本的特征降维到2D或者3D,也就是将样本的特征维数降到2个特征或者3个特征,这样我们就可以采用可视化观察数据。 |
2018年6月27日 (三) 06:15的版本
- pca算法步骤:
假设有m条n维数据。
1. 将原始数据按列组成n行m列矩阵X
2. 将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3. 求出协方差矩阵C=1/mXXT
4. 求出协方差矩阵的特征值以及对应的特征向量
5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6. Y=PX即为降维到k维后的数据
- PCA的应用范围
1. 数据压缩
1.1 数据压缩或者数据降维首先能够减少内存或者硬盘的使用,如果内存不足或者计算的时候出现内存溢出等问题,就需要使用PCA获取低维度的样本特征。
1.2 其次,数据降维能够加快机器学习的速度。
2. 数据可视化
在很多情况下,可能我们需要查看样本特征,但是高维度的特征根本无法观察,这个时候我们可以将样本的特征降维到2D或者3D,也就是将样本的特征维数降到2个特征或者3个特征,这样我们就可以采用可视化观察数据。