什么是数据聚类 数据聚类的原理

2017-03-13

数据聚类是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。那么你对数据聚类了解多少呢?以下是由小编整理关于什么是数据聚类的内容,希望大家喜欢!

数据聚类的基本原理

聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。

数据聚类的类型

数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上之下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上之下算法则是把所有对象作为一个整体分类,然后逐渐分小。

结构性

距离测量

在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。

创建聚类

在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,然后对该结构进行修剪。

分散性

K-均值法及衍生算法

K-均值法聚类 K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。

例如: 数据集合为三维,聚类以两点: X = (x1, x2, x3) and Y = (y1, y2, y3). 中心点Z 变为 Z = (z1, z2, z3), where z1 = (x1 + y1)/2 and z2 = (x2 + y2)/2 and z3 = (x3 + y3)/2. 算法归纳为 (J. MacQueen, 1967):

选择聚类的个数k. 任意产生k个聚类,然后确定聚类中心,或者直接生成k个中心。 对每个点确定其聚类中心点。 再计算其聚类新中心. 重复以上步骤直到满足收敛要求。(通常就是确定的中心点不再改变). 该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。

更多相关阅读

最新发布的文章