当前课程知识点:管理定量方法 >  第五章 多变量定量研究 >  第十八节 聚类分析(二) >  第十八节 聚类分析(二)

返回《管理定量方法》慕课在线视频课程列表

第十八节 聚类分析(二)在线视频

下一节:第十九节 相关和回归分析(一)

返回《管理定量方法》慕课在线视频列表

第十八节 聚类分析(二)课程教案、知识点、字幕

同学们大家好

欢迎来到管理定量方法课程

我是今天的主讲老师杨老师

第十八节 我们讨论聚类分析的

第二个部分

上节课我们讲到了层次聚类

层次聚类

如何确定聚类的个数

我们讨论了伪F统计量

伪F统计量用来评价分层聚类

分成了K类的效果

如果K类是合理的

则类内的方差比较小

组间的方差比较大

所以我们应取F值大

而K较小的聚类水平

同样 分层聚类会产生一个典型的

树状谱系图

来帮助我们判断分类的类数多少

我们可以看到树状图的根部的

距离比较近的样本是可以分成一组的样本

当然决定分几类

可以由研究者自行来确定

所以 生成树状图的分层聚类方法

是一种探索性的方法

而且这种探索性的方法

可以由我们自主来确定很个性化的

聚类个数

但层次聚类需要我们自行确定组内的距离

和组间距离

第二类 聚类的方法是

快速聚类fast cluster

或者叫做k-means聚类法

快速聚类的特点是数据点

一旦被归到某个类别就不再变了

这就要求分类方法比较准确

同时IBM SPSS软件会询问我们

希望把样本分成几类

所以快速聚类属于验证性的一种方法

快速聚类的方法

也叫动态聚类

快速聚类的基本原理和基本的算法是什么

我们给大家画了一张图来进行模拟

首先 我们看到样本的一个分布

根据样本的分布规律

IBM SPSS软件会询问我们

希望能够分成几类

如果我们选择分三类

那么软件就会通过计算重心法

来确定组间距离

来对初始的样本点进行一个聚类分析

第二步寻找三类分类的重心

第三步 寻找到重心之后

以重心为数据点

就可以就近入学

来对样本重新进行三类的划分

重新划分为三类之后

其三类的重心又会发生一定的变化

重新调整重心

不断地进行以上的4步

直到收敛

收敛的含义就是没有任何一个样本点出来

也没有任何一个样本点可以分出去

这时候整个模型就达到了收敛

这就是快速聚类的一个基本的过程

我们可以看到快速聚类是验证性的

而且快速聚类已经帮助我们指定了

组间的距离的算法

就是重心法

我们在进行聚类分析的时候

需要大家注意以下的几点

也是我们给大家的一些建议

首先 在选择定义聚类分析的

变量的时候

需要遵循以下的四个原则

第一 变量的选择应该与研究的目的

紧密地相关

第二 这些变量的选择能够充分地反映

分类对象的基本特征

第三 这些变量的选择

在不同的研究对象之间有足够的差异性

第四 变量之间不能够高度地相关

我们可以进行一个简单的变量之间的一个

相关性的分析

第二 需要评估聚类分析的信度和效度

首先 我们可以比较不同的距离定义

之后的聚类的研究效果如何

第二 比较不同的聚类的方法的

研究的结果如何

第三 我们可以将数据一分为二

当样本量比较大的时候

可以分别进行聚类分析来比较研究的结果

第四 可以随机地删除某些变量

来观测其研究的结果

给大家一个聚类分析的实例

我们可以在后面用 IBM SPSS软件

来给大家操作整个聚类分析的基本过程

有一组数据

这个数据来自于国家统计局

表示我国各个地区的小康实现的程度

这里构建了一个小康指数

小康指数的意义

是1表示达到或者超过小康水平

0表示没有达到小康水平

我们先做一个层次聚类

层次聚类组内的距离我们采取欧式距离

组间距离我们采用最长距离法

统计结果会显示出一张表

这张表的具体含义是

第一列表示聚类的顺序

第二列和第三列表示每一步将哪两个类

进行了合并

新合并的类的序号

取两类中的最小值

第四列为合并两类的距离

第五第六列表示的是被合并的两类

上一次合并分别是哪一步形成的

最后一列是每一步形成的新的分类

将在哪一步参与下一次的合并

这里给大家展示的是分层聚类的一个

聚类树状图

一会在IBM SPSS软件中

我们会生成这张聚类树状图

最后一张表是快速聚类的一个分类结果

快速聚类我们会给大家每一个样本点上

打一个标签

标签会告诉研究者

样本具体被划分到哪一类去了

并且展示两类之间的一个重心距离

这就是快速聚类的一个基本过程

下面我们用IBM SPSS软件

来给大家模拟

层次聚类和快速聚类的研究过程

我们打开一组数据

这个数据来自于国家统计局

利用我国各地区某年度四个质量指数

来评估不同地区的小康水平

第一列是经济生活质量指数

第二列是教育生活质量指数

第三列是健康生活质量指数

第四列是居住生活质量指数

每一个指数越趋近于1

说明达到小康水平的程度越高

这是不同地区的名字

样本一共有30个

现在我们先做一个层次聚类

它是一个探索性的过程

首先我们点分析

分析之后我们有一个功能叫做分类

分类里边有很多具体的方法

我们选择系统聚类hierarchical cluster

这就是我们所讲到的层次聚类

我们打开系统聚类之后

需要把经济生活质量指数

教育生活质量指数

健康生活质量指数

和居住生活质量指数点入变量池

另外 需要把不同样本的名字

点入个案标注依据

给每个样本打上一个标签

我们进行的是个案的聚类

所以所谓的样本聚类

而不是进行变量的聚类

好 我们选择完之后需要点图

里面会给大家生成一个谱系的树状图

谱系树状图

其他的图我们就不生成了

我们就只生成谱系树状图看一看就可以

点继续

然后在方法里边

我们选择组内的距离和组间距

首先区间表示的是组内距离

组内距离我们就采用一个最常见的

组间距在聚类方法这个选项里边

我们打开之后

就选一个最远距离法

也叫最远邻元素

选择好之后

其实就可以得到一个最基本的聚类

层次聚类的结果了

我们就点确定就可以

整个层次聚类的过程

会生成一张表

这张表在上课的过程中我们给大家介绍了

第一列就是表示的聚类的顺序

第二列和第三列表示每一步将在

哪两个类里进行合并

第四列就是合并两类的距离

第五列和第六列表示的是被合并的两类

上一次合并分别是哪一步进行的

最后一列是每一步形成的新的分类

将在哪一步参与下次的合并

这就是分类的整个过程

下面展示出的是一张完整的谱系树状图

谱系树状图 可以观测根部距离的大小

表示的是两个样本之间的一个

组内距离的大小

我们可以看到吉林 黑龙江 辽宁和天津

他们的小康水平是比较接近的

可以分成一组

河北 山西 海南 江苏距离比较近

可以划分为一组

上海 北京可以划分为一组 比较特殊

江西 四川 湖南可以划分为一组

小康水平比较接近

湖北 陕西 内蒙古 宁夏和广西

是比较接近的

福建 安徽和甘肃比较接近

山东 河南比较接近

广东 浙江比较接近 可以划分为一组

青海 云南划分一组

然后贵州 西藏和新疆

小康水平比较接近

可以划分为一组

这就是使用了层次聚类

来进行聚类的一个基本过程

我们可以看到基本上

样本可以分为七 八类

这是一个探索的过程

七类或者八类或者九类都可以

大家可以根据谱系树状图来进行划分

好现在我们再用一个快速聚类

来进行一个简单的验证

快速聚类如何来做

我们还是点分析

分类里边我们选择K均值聚类

这就是我们所说的快速聚类

点好之后

我们仍然是把经济生活质量指数

教育生活质量指数

健康生活质量指数

和居住生活质量指数

点入之后

我们把地区的名字点入个案标注依据

这里边有一个聚类数的选项

简单地就划分了两类

实际上我们可以根据需要

来指定划分为几类

所以这是一个验证的过程

比如说我们划分为九类

快速聚类我们不需要选择聚类的距离

因为快速聚类默认的就是重心法

来计算距离

但是大家一定要注意

我们这里边有一个选项

这个选项里面打开之后

一定要在这点一下每个个案的信息

每个个案的信息

也就是给每一个 case样本

打上一个标签

来告诉我们样本被划分到哪一类去了

这一步是必须要做的

我们点continue继续

就可以进行快速聚类了

我们点确定来看看研究的结果

这就是快速聚类的一个迭代的过程

我们简单地看一下研究的结果就可以了

这里展示了很多距离过程中的距离算法

那么可以看到最后聚类的结果

聚类成员表告诉我们

每一个样本被划分到哪一类去了

我们给每一类打上一个标签或者说序号

比如说上海 北京 辽宁 天津

被划分成一类

广东 山东和河南被划分到第二类

我们可以看到好像聚类的过程

不尽如人意

我们可以根据聚类的结果

来调整分类的数量

试错分类的类别数量来得到

比较满意的聚类结果

以上是快速聚类的方法

我们也需要注意到课堂上我们讲到的

如何使我们的聚类的研究的结果的

信度和效度得以提升的方法

我们在课堂中也给大家

逐一做了简单的介绍

好 这节课就讲到这里

同学们再见

管理定量方法课程列表:

第一章 管理定量研究概述

-第一节 管理学研究概述

--第一节 管理学研究概述

-第二节 研究的有效性

--第二节 研究的有效性

-第一章 习题

--第一章 习题

第二章 定量数据的采集

-第三节 数据的采集(一)

--第三节 数据的采集(一)

-第四节 数据的采集(二)

--第四节 数据的采集(二)

-第五节 问卷与访谈

--第五节 问卷与访谈

-第二章 习题

--第二章 习题

第三章 测量与尺度设计

-第六节 变量的测量(一)

--第六节 变量的测量(一)

-第七节 变量的测量(二)

--第七节 变量的测量(二)

-第三章 习题

--第三章 习题

第四章 数据的描述与统计推断

-第八节 数据的描述

--第八节 数据的描述

-第九节 概率与随机变量(一)

--第九节 概率与随机变量(一)

-第十节 概率与随机变量(二)

--第十节 概率与随机变量(二)

-第十一节 抽样分布

--第十一节 抽样分布

-第十二节 参数估计

--第十二节 参数估计

-第十三节 假设检验(一)

--第十三节 假设检验(一)

-第十四节 假设检验(二)

--第十四节 假设检验(二)

-第四章 习题

--第四章 习题

第五章 多变量定量研究

-第十五节 问卷的结构效度——探索性因子分析(一)

--第十五节 问卷的结构效度——探索性因子分析(一)

-第十六节 问卷的结构效度——探索性因子分析(二)

--第十六节 问卷的结构效度——探索性因子分析(二)

-第十七节 聚类分析(一)

--第十七节 聚类分析(一)

-第十八节 聚类分析(二)

--第十八节 聚类分析(二)

-第五章 习题

--第五章 习题

第六章 相关与回归模型

-第十九节 相关和回归分析(一)

--第十九节 相关和回归分析(一)

-第二十节 相关和回归分析(二)

--第二十节 相关和回归分析(二)

-第二十一节 相关和回归分析(三)

--第二十一节 相关和回归分析(三)

-第二十二节 相关和回归分析(四)

--第二十二节 相关和回归分析(四)

-第二十三节 相关和回归分析(五)

--第二十三节 相关和回归分析(五)

-第二十四节 违背基本假设的回归(一)

--第二十四节 违背基本假设的回归(一)

-第二十五节 违背基本假设的回归(二)

--第二十五节 违背基本假设的回归(二)

-第二十六节 违背基本假设的回归(三)

--第二十六节 违背基本假设的回归(三)

-第二十七节 多重共线性的诊断和修正(一)

--第二十七节 多重共线性的诊断和修正(一)

-第二十八节 多重共线性的诊断和修正(二)

--第二十八节 多重共线性的诊断和修正(二)

-第六章 习题

--第六章 习题

第七章 定量方法总结与管理类硕士毕业论文指导

-第二十九节 硕士学位毕业论文指导(一)

--第二十九节 硕士学位毕业论文指导(一)

-第三十节 硕士学位毕业论文指导(二)

--第三十节 硕士学位毕业论文指导(二)

-第七章 习题

--第七章 习题

第十八节 聚类分析(二)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。