“11.3使用k-均值对文档进行聚类分析”的版本间的差异

2018年5月29日 (二) 13:15的最新版本

实例采用：https://wenku.baidu.com/view/776af850ccbff121dc368345.html（来源：网络）

摘要：传统的K-均值算法(K-means clustering)是一种得到最广泛使用的聚类算法。其应用领域非常广泛,包括文本聚类、图像及语音数据压缩,使用径向基函数网络进行系统建模的数据预处理,以及异构神经网络结构中的任务分解。而且对大型数据集而言,K-均值算法是具有相对可伸缩的和高效的性能。由于K-均值算法聚类效果依赖于数值K的确定、聚类中心的初始位置和相似度量的计算等的选取,并且K-均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小值,该局部最小值与全局部最优解往往有很大的偏差。针对K-均值算法中的不足,从几个方面对传统的K-均值算法进行改进,首先提出了一种间接的学习权值算法可以得到一个好的距离度量,即如何学习加权距离式中的特征权值,以改进K-均值算法的聚类性能。该算法主要是构造一个评价函数,采用梯度下降技术极小化评价函数来降低相似矩阵的模糊性。通过评价函数求权值偏导数逐次调整权值,每次计算偏导,应用公式更新权值。如果评价函数的值低于或等于一个最小阈值或者迭代次数超过某一次数阈值时结束学习。当一组向量相似性较大时,可以通过学习特征权值改变它们属于同一类的程度,使其相似性变大。当一组向量相似性较小时,可以通过学习特征权值减少它们的相似性。因此这样通过极小化评价函数学习到的即为特征向量的权值,改善了聚类性能。其次提出针对参数K值的学习算法,初步使用了遗传算法选择较优的K值。虽然还没有提出寻找K值的方法,仍然是可以通过对不同值的实验决定具体取值。最后,基于传统K-均值算法实施的各个环节,提出几种不同的K-均值改进算法,对K-均值聚类算法进行一些有益的改进。本文使用改进后的算法,对一些数据库进行聚类实验,实验结果表明,在所用的算法达到了预期的效果,提高了算法的聚类效果。

“11.3使用k-均值对文档进行聚类分析”的版本间的差异

2018年5月29日 (二) 13:15的最新版本

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具

2018年5月28日 (一) 13:54的版本（查看源代码） 112.38.217.43（讨论） ←上一编辑		2018年5月29日 (二) 13:15的最新版本（查看源代码） 112.38.217.43（讨论）
第1行：		第1行：
	实例采用：https://wenku.baidu.com/view/776af850ccbff121dc368345.html（来源：网络）		实例采用：https://wenku.baidu.com/view/776af850ccbff121dc368345.html（来源：网络）
		+
	摘要：传统的K-均值算法(K-means clustering)是一种得到最广泛使用的聚类算法。其应用领域非常广泛,包括文本聚类、图像及语音数据压缩,使用径向基函数网络进行系统建模的数据预处理,以及异构神经网络结构中的任务分解。而且对大型数据集而言,K-均值算法是具有相对可伸缩的和高效的性能。由于K-均值算法聚类效果依赖于数值K的确定、聚类中心的初始位置和相似度量的计算等的选取,并且K-均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小值,该局部最小值与全局部最优解往往有很大的偏差。针对K-均值算法中的不足,从几个方面对传统的K-均值算法进行改进,首先提出了一种间接的学习权值算法可以得到一个好的距离度量,即如何学习加权距离式中的特征权值,以改进K-均值算法的聚类性能。该算法主要是构造一个评价函数,采用梯度下降技术极小化评价函数来降低相似矩阵的模糊性。通过评价函数求权值偏导数逐次调整权值,每次计算偏导,应用公式更新权值。如果评价函数的值低于或等于一个最小阈值或者迭代次数超过某一次数阈值时结束学习。当一组向量相似性较大时,可以通过学习特征权值改变它们属于同一类的程度,使其相似性变大。当一组向量相似性较小时,可以通过学习特征权值减少它们的相似性。因此这样通过极小化评价函数学习到的即为特征向量的权值,改善了聚类性能。其次提出针对参数K值的学习算法,初步使用了遗传算法选择较优的K值。虽然还没有提出寻找K值的方法,仍然是可以通过对不同值的实验决定具体取值。最后,基于传统K-均值算法实施的各个环节,提出几种不同的K-均值改进算法,对K-均值聚类算法进行一些有益的改进。本文使用改进后的算法,对一些数据库进行聚类实验,实验结果表明,在所用的算法达到了预期的效果,提高了算法的聚类效果。		摘要：传统的K-均值算法(K-means clustering)是一种得到最广泛使用的聚类算法。其应用领域非常广泛,包括文本聚类、图像及语音数据压缩,使用径向基函数网络进行系统建模的数据预处理,以及异构神经网络结构中的任务分解。而且对大型数据集而言,K-均值算法是具有相对可伸缩的和高效的性能。由于K-均值算法聚类效果依赖于数值K的确定、聚类中心的初始位置和相似度量的计算等的选取,并且K-均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小值,该局部最小值与全局部最优解往往有很大的偏差。针对K-均值算法中的不足,从几个方面对传统的K-均值算法进行改进,首先提出了一种间接的学习权值算法可以得到一个好的距离度量,即如何学习加权距离式中的特征权值,以改进K-均值算法的聚类性能。该算法主要是构造一个评价函数,采用梯度下降技术极小化评价函数来降低相似矩阵的模糊性。通过评价函数求权值偏导数逐次调整权值,每次计算偏导,应用公式更新权值。如果评价函数的值低于或等于一个最小阈值或者迭代次数超过某一次数阈值时结束学习。当一组向量相似性较大时,可以通过学习特征权值改变它们属于同一类的程度,使其相似性变大。当一组向量相似性较小时,可以通过学习特征权值减少它们的相似性。因此这样通过极小化评价函数学习到的即为特征向量的权值,改善了聚类性能。其次提出针对参数K值的学习算法,初步使用了遗传算法选择较优的K值。虽然还没有提出寻找K值的方法,仍然是可以通过对不同值的实验决定具体取值。最后,基于传统K-均值算法实施的各个环节,提出几种不同的K-均值改进算法,对K-均值聚类算法进行一些有益的改进。本文使用改进后的算法,对一些数据库进行聚类实验,实验结果表明,在所用的算法达到了预期的效果,提高了算法的聚类效果。