type
status
date
slug
summary
tags
category
icon
password
Email
落絮无声春堕泪,行云有影月含羞。——吴文英《浣溪沙》
聚类分析
样本间的相似度量 - 距离
设有 个样本, 个指标的数据组成一个 的矩阵。
首先计算两两样本之间的距离。其中最常用的距离计算方式使用 欧氏距离。
欧式距离:
pdist(x)
指标间的相似度量 - 相关系数
对于同样的数据,如果需要得到不同指标之间的相似程度,我们可以计算它们两两之间的相似系数
对于 和 两个指标,定义它们两个之间的相似系数为 ,相似系数的取值在 之间,越靠近1 表示相关性越大,如果是负数则表示负相关。
如果为 0,则表示他们两个没有相关性。
计算公式如下:
类间距离
如果我们需要计算两个不同类别之间的距离,则可以使用如下的方法:
- 最短距离(最长距离):两个样本之间的最短距离即为两类之间的最短(最长)距离。
- 重心距离。
- 类平均距离。
- 离差平方和距离。
谱系聚类法
步骤:
matlab代码实现
K-means 聚类分析
使用方法:
- Idx=Kmeans(X,K)
- [Idx,C]=Kmeans(X,K)
- [Idx,C,sumD]=Kmeans(X,K)
- [Idx,C,sumD,D]=Kmeans(X,K)
- […]=Kmeans(…,’Param1’,Val1,’Param2’,Val2,…)
各输入输出参数介绍:
- X :NP的数据矩阵
- K: 表示将X划分为几类,为整数
- Idx :N1的向量,存储的是每个点的聚类标号
- C: KP的矩阵,存储的是K个聚类质心位置
- sumD 1K的和向量,存储的是类间所有点与该类质心点距离之和
- D NK的矩阵,存储的是每个点与所有质心的距离
matlab代码实现
- 二维数据的聚类分析及其可视化,即每个样本有两个特征:
- 如果你的数据是多维的,即每个样本有多个特征,你可以使用降维技术(如主成分分析 PCA)将数据降低到二维或三维,然后使用散点图进行可视化。
- 作者:Yuleo
- 链接:https://www.helloylh.com/article/julei
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。