当前课程知识点：管理定量方法 > 第五章多变量定量研究 > 第十八节聚类分析（二） > 第十八节聚类分析（二）

返回《管理定量方法》慕课在线视频课程列表

第十八节聚类分析（二）在线视频

下一节:第十九节相关和回归分析（一）

返回《管理定量方法》慕课在线视频列表

第十八节聚类分析（二）课程教案、知识点、字幕

同学们大家好

欢迎来到管理定量方法课程

我是今天的主讲老师杨老师

第十八节我们讨论聚类分析的

第二个部分

上节课我们讲到了层次聚类

层次聚类

如何确定聚类的个数

我们讨论了伪F统计量

伪F统计量用来评价分层聚类

分成了K类的效果

如果K类是合理的

则类内的方差比较小

组间的方差比较大

所以我们应取F值大

而K较小的聚类水平

同样分层聚类会产生一个典型的

树状谱系图

来帮助我们判断分类的类数多少

我们可以看到树状图的根部的

距离比较近的样本是可以分成一组的样本

当然决定分几类

可以由研究者自行来确定

所以生成树状图的分层聚类方法

是一种探索性的方法

而且这种探索性的方法

可以由我们自主来确定很个性化的

聚类个数

但层次聚类需要我们自行确定组内的距离

和组间距离

第二类聚类的方法是

快速聚类fast cluster

或者叫做k-means聚类法

快速聚类的特点是数据点

一旦被归到某个类别就不再变了

这就要求分类方法比较准确

同时IBM SPSS软件会询问我们

希望把样本分成几类

所以快速聚类属于验证性的一种方法

快速聚类的方法

也叫动态聚类

快速聚类的基本原理和基本的算法是什么

我们给大家画了一张图来进行模拟

首先我们看到样本的一个分布

根据样本的分布规律

IBM SPSS软件会询问我们

希望能够分成几类

如果我们选择分三类

那么软件就会通过计算重心法

来确定组间距离

来对初始的样本点进行一个聚类分析

第二步寻找三类分类的重心

第三步寻找到重心之后

以重心为数据点

就可以就近入学

来对样本重新进行三类的划分

重新划分为三类之后

其三类的重心又会发生一定的变化

重新调整重心

不断地进行以上的4步

直到收敛

收敛的含义就是没有任何一个样本点出来

也没有任何一个样本点可以分出去

这时候整个模型就达到了收敛

这就是快速聚类的一个基本的过程

我们可以看到快速聚类是验证性的

而且快速聚类已经帮助我们指定了

组间的距离的算法

就是重心法

我们在进行聚类分析的时候

需要大家注意以下的几点

也是我们给大家的一些建议

首先在选择定义聚类分析的

变量的时候

需要遵循以下的四个原则

第一变量的选择应该与研究的目的

紧密地相关

第二这些变量的选择能够充分地反映

分类对象的基本特征

第三这些变量的选择

在不同的研究对象之间有足够的差异性

第四变量之间不能够高度地相关

我们可以进行一个简单的变量之间的一个

相关性的分析

第二需要评估聚类分析的信度和效度

首先我们可以比较不同的距离定义

之后的聚类的研究效果如何

第二比较不同的聚类的方法的

研究的结果如何

第三我们可以将数据一分为二

当样本量比较大的时候

可以分别进行聚类分析来比较研究的结果

第四可以随机地删除某些变量

来观测其研究的结果

给大家一个聚类分析的实例

我们可以在后面用 IBM SPSS软件

来给大家操作整个聚类分析的基本过程

有一组数据

这个数据来自于国家统计局

表示我国各个地区的小康实现的程度

这里构建了一个小康指数

小康指数的意义

是1表示达到或者超过小康水平

0表示没有达到小康水平

我们先做一个层次聚类

层次聚类组内的距离我们采取欧式距离

组间距离我们采用最长距离法

统计结果会显示出一张表

这张表的具体含义是

第一列表示聚类的顺序

第二列和第三列表示每一步将哪两个类

进行了合并

新合并的类的序号

取两类中的最小值

第四列为合并两类的距离

第五第六列表示的是被合并的两类

上一次合并分别是哪一步形成的

最后一列是每一步形成的新的分类

将在哪一步参与下一次的合并

这里给大家展示的是分层聚类的一个

聚类树状图

一会在IBM SPSS软件中

我们会生成这张聚类树状图

最后一张表是快速聚类的一个分类结果

快速聚类我们会给大家每一个样本点上

打一个标签

标签会告诉研究者

样本具体被划分到哪一类去了

并且展示两类之间的一个重心距离

这就是快速聚类的一个基本过程

下面我们用IBM SPSS软件

来给大家模拟

层次聚类和快速聚类的研究过程

我们打开一组数据

这个数据来自于国家统计局

利用我国各地区某年度四个质量指数

来评估不同地区的小康水平

第一列是经济生活质量指数

第二列是教育生活质量指数

第三列是健康生活质量指数

第四列是居住生活质量指数

每一个指数越趋近于1

说明达到小康水平的程度越高

这是不同地区的名字

样本一共有30个

现在我们先做一个层次聚类

它是一个探索性的过程

首先我们点分析

分析之后我们有一个功能叫做分类

分类里边有很多具体的方法

我们选择系统聚类hierarchical cluster

这就是我们所讲到的层次聚类

我们打开系统聚类之后

需要把经济生活质量指数

教育生活质量指数

健康生活质量指数

和居住生活质量指数点入变量池

另外需要把不同样本的名字

点入个案标注依据

给每个样本打上一个标签

我们进行的是个案的聚类

所以所谓的样本聚类

而不是进行变量的聚类

好我们选择完之后需要点图

里面会给大家生成一个谱系的树状图

谱系树状图

其他的图我们就不生成了

我们就只生成谱系树状图看一看就可以

点继续

然后在方法里边

我们选择组内的距离和组间距

首先区间表示的是组内距离

组内距离我们就采用一个最常见的

组间距在聚类方法这个选项里边

我们打开之后

就选一个最远距离法

也叫最远邻元素

选择好之后

其实就可以得到一个最基本的聚类

层次聚类的结果了

我们就点确定就可以

整个层次聚类的过程

会生成一张表

这张表在上课的过程中我们给大家介绍了

第一列就是表示的聚类的顺序

第二列和第三列表示每一步将在

哪两个类里进行合并

第四列就是合并两类的距离

第五列和第六列表示的是被合并的两类

上一次合并分别是哪一步进行的

最后一列是每一步形成的新的分类

将在哪一步参与下次的合并

这就是分类的整个过程

下面展示出的是一张完整的谱系树状图

谱系树状图可以观测根部距离的大小

表示的是两个样本之间的一个

组内距离的大小

我们可以看到吉林黑龙江辽宁和天津

他们的小康水平是比较接近的

可以分成一组

河北山西海南江苏距离比较近

可以划分为一组

上海北京可以划分为一组比较特殊

江西四川湖南可以划分为一组

小康水平比较接近

湖北陕西内蒙古宁夏和广西

是比较接近的

福建安徽和甘肃比较接近

山东河南比较接近

广东浙江比较接近可以划分为一组

青海云南划分一组

然后贵州西藏和新疆

小康水平比较接近

可以划分为一组

这就是使用了层次聚类

来进行聚类的一个基本过程

我们可以看到基本上

样本可以分为七八类

这是一个探索的过程

七类或者八类或者九类都可以

大家可以根据谱系树状图来进行划分

好现在我们再用一个快速聚类

来进行一个简单的验证

快速聚类如何来做

我们还是点分析

分类里边我们选择K均值聚类

这就是我们所说的快速聚类

点好之后

我们仍然是把经济生活质量指数

教育生活质量指数

健康生活质量指数

和居住生活质量指数

点入之后

我们把地区的名字点入个案标注依据

这里边有一个聚类数的选项

简单地就划分了两类

实际上我们可以根据需要

来指定划分为几类

所以这是一个验证的过程

比如说我们划分为九类

快速聚类我们不需要选择聚类的距离

因为快速聚类默认的就是重心法

来计算距离

但是大家一定要注意

我们这里边有一个选项

这个选项里面打开之后

一定要在这点一下每个个案的信息

每个个案的信息

也就是给每一个 case样本

打上一个标签

来告诉我们样本被划分到哪一类去了

这一步是必须要做的

我们点continue继续

就可以进行快速聚类了

我们点确定来看看研究的结果

这就是快速聚类的一个迭代的过程

我们简单地看一下研究的结果就可以了

这里展示了很多距离过程中的距离算法

那么可以看到最后聚类的结果

聚类成员表告诉我们

每一个样本被划分到哪一类去了

我们给每一类打上一个标签或者说序号

比如说上海北京辽宁天津

被划分成一类

广东山东和河南被划分到第二类

我们可以看到好像聚类的过程

不尽如人意

我们可以根据聚类的结果

来调整分类的数量

试错分类的类别数量来得到

比较满意的聚类结果

以上是快速聚类的方法

我们也需要注意到课堂上我们讲到的

如何使我们的聚类的研究的结果的

信度和效度得以提升的方法

我们在课堂中也给大家

逐一做了简单的介绍

好这节课就讲到这里

同学们再见

管理定量方法课程列表：

第一章管理定量研究概述

-第一节管理学研究概述

--第一节管理学研究概述

-第二节研究的有效性

--第二节研究的有效性

-第一章习题

--第一章习题

第二章定量数据的采集

-第三节数据的采集（一）

--第三节数据的采集（一）

-第四节数据的采集（二）

--第四节数据的采集（二）

-第五节问卷与访谈

--第五节问卷与访谈

-第二章习题

--第二章习题

第三章测量与尺度设计

-第六节变量的测量（一）

--第六节变量的测量（一）

-第七节变量的测量（二）

--第七节变量的测量（二）

-第三章习题

--第三章习题

第四章数据的描述与统计推断

-第八节数据的描述

--第八节数据的描述

-第九节概率与随机变量（一）

--第九节概率与随机变量（一）

-第十节概率与随机变量（二）

--第十节概率与随机变量（二）

-第十一节抽样分布

--第十一节抽样分布

-第十二节参数估计

--第十二节参数估计

-第十三节假设检验（一）

--第十三节假设检验（一）

-第十四节假设检验（二）

--第十四节假设检验（二）

-第四章习题

--第四章习题

第五章多变量定量研究

-第十五节问卷的结构效度——探索性因子分析（一）

--第十五节问卷的结构效度——探索性因子分析（一）

-第十六节问卷的结构效度——探索性因子分析（二）

--第十六节问卷的结构效度——探索性因子分析（二）

-第十七节聚类分析（一）

--第十七节聚类分析（一）

-第十八节聚类分析（二）

--第十八节聚类分析（二）

-第五章习题

--第五章习题

第六章相关与回归模型

-第十九节相关和回归分析（一）

--第十九节相关和回归分析（一）

-第二十节相关和回归分析（二）

--第二十节相关和回归分析（二）

-第二十一节相关和回归分析（三）

--第二十一节相关和回归分析（三）

-第二十二节相关和回归分析（四）

--第二十二节相关和回归分析（四）

-第二十三节相关和回归分析（五）

--第二十三节相关和回归分析（五）

-第二十四节违背基本假设的回归（一）

--第二十四节违背基本假设的回归（一）

-第二十五节违背基本假设的回归（二）

--第二十五节违背基本假设的回归（二）

-第二十六节违背基本假设的回归（三）

--第二十六节违背基本假设的回归（三）

-第二十七节多重共线性的诊断和修正（一）

--第二十七节多重共线性的诊断和修正（一）

-第二十八节多重共线性的诊断和修正（二）

--第二十八节多重共线性的诊断和修正（二）

-第六章习题

--第六章习题

第七章定量方法总结与管理类硕士毕业论文指导

-第二十九节硕士学位毕业论文指导（一）

--第二十九节硕士学位毕业论文指导（一）

-第三十节硕士学位毕业论文指导（二）

--第三十节硕士学位毕业论文指导（二）

-第七章习题

--第七章习题

第十八节聚类分析（二）笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。