当前课程知识点:管理定量方法 > 第五章 多变量定量研究 > 第十八节 聚类分析(二) > 第十八节 聚类分析(二)
同学们大家好
欢迎来到管理定量方法课程
我是今天的主讲老师杨老师
第十八节 我们讨论聚类分析的
第二个部分
上节课我们讲到了层次聚类
层次聚类
如何确定聚类的个数
我们讨论了伪F统计量
伪F统计量用来评价分层聚类
分成了K类的效果
如果K类是合理的
则类内的方差比较小
组间的方差比较大
所以我们应取F值大
而K较小的聚类水平
同样 分层聚类会产生一个典型的
树状谱系图
来帮助我们判断分类的类数多少
我们可以看到树状图的根部的
距离比较近的样本是可以分成一组的样本
当然决定分几类
可以由研究者自行来确定
所以 生成树状图的分层聚类方法
是一种探索性的方法
而且这种探索性的方法
可以由我们自主来确定很个性化的
聚类个数
但层次聚类需要我们自行确定组内的距离
和组间距离
第二类 聚类的方法是
快速聚类fast cluster
或者叫做k-means聚类法
快速聚类的特点是数据点
一旦被归到某个类别就不再变了
这就要求分类方法比较准确
同时IBM SPSS软件会询问我们
希望把样本分成几类
所以快速聚类属于验证性的一种方法
快速聚类的方法
也叫动态聚类
快速聚类的基本原理和基本的算法是什么
我们给大家画了一张图来进行模拟
首先 我们看到样本的一个分布
根据样本的分布规律
IBM SPSS软件会询问我们
希望能够分成几类
如果我们选择分三类
那么软件就会通过计算重心法
来确定组间距离
来对初始的样本点进行一个聚类分析
第二步寻找三类分类的重心
第三步 寻找到重心之后
以重心为数据点
就可以就近入学
来对样本重新进行三类的划分
重新划分为三类之后
其三类的重心又会发生一定的变化
重新调整重心
不断地进行以上的4步
直到收敛
收敛的含义就是没有任何一个样本点出来
也没有任何一个样本点可以分出去
这时候整个模型就达到了收敛
这就是快速聚类的一个基本的过程
我们可以看到快速聚类是验证性的
而且快速聚类已经帮助我们指定了
组间的距离的算法
就是重心法
我们在进行聚类分析的时候
需要大家注意以下的几点
也是我们给大家的一些建议
首先 在选择定义聚类分析的
变量的时候
需要遵循以下的四个原则
第一 变量的选择应该与研究的目的
紧密地相关
第二 这些变量的选择能够充分地反映
分类对象的基本特征
第三 这些变量的选择
在不同的研究对象之间有足够的差异性
第四 变量之间不能够高度地相关
我们可以进行一个简单的变量之间的一个
相关性的分析
第二 需要评估聚类分析的信度和效度
首先 我们可以比较不同的距离定义
之后的聚类的研究效果如何
第二 比较不同的聚类的方法的
研究的结果如何
第三 我们可以将数据一分为二
当样本量比较大的时候
可以分别进行聚类分析来比较研究的结果
第四 可以随机地删除某些变量
来观测其研究的结果
给大家一个聚类分析的实例
我们可以在后面用 IBM SPSS软件
来给大家操作整个聚类分析的基本过程
有一组数据
这个数据来自于国家统计局
表示我国各个地区的小康实现的程度
这里构建了一个小康指数
小康指数的意义
是1表示达到或者超过小康水平
0表示没有达到小康水平
我们先做一个层次聚类
层次聚类组内的距离我们采取欧式距离
组间距离我们采用最长距离法
统计结果会显示出一张表
这张表的具体含义是
第一列表示聚类的顺序
第二列和第三列表示每一步将哪两个类
进行了合并
新合并的类的序号
取两类中的最小值
第四列为合并两类的距离
第五第六列表示的是被合并的两类
上一次合并分别是哪一步形成的
最后一列是每一步形成的新的分类
将在哪一步参与下一次的合并
这里给大家展示的是分层聚类的一个
聚类树状图
一会在IBM SPSS软件中
我们会生成这张聚类树状图
最后一张表是快速聚类的一个分类结果
快速聚类我们会给大家每一个样本点上
打一个标签
标签会告诉研究者
样本具体被划分到哪一类去了
并且展示两类之间的一个重心距离
这就是快速聚类的一个基本过程
下面我们用IBM SPSS软件
来给大家模拟
层次聚类和快速聚类的研究过程
我们打开一组数据
这个数据来自于国家统计局
利用我国各地区某年度四个质量指数
来评估不同地区的小康水平
第一列是经济生活质量指数
第二列是教育生活质量指数
第三列是健康生活质量指数
第四列是居住生活质量指数
每一个指数越趋近于1
说明达到小康水平的程度越高
这是不同地区的名字
样本一共有30个
现在我们先做一个层次聚类
它是一个探索性的过程
首先我们点分析
分析之后我们有一个功能叫做分类
分类里边有很多具体的方法
我们选择系统聚类hierarchical cluster
这就是我们所讲到的层次聚类
我们打开系统聚类之后
需要把经济生活质量指数
教育生活质量指数
健康生活质量指数
和居住生活质量指数点入变量池
另外 需要把不同样本的名字
点入个案标注依据
给每个样本打上一个标签
我们进行的是个案的聚类
所以所谓的样本聚类
而不是进行变量的聚类
好 我们选择完之后需要点图
里面会给大家生成一个谱系的树状图
谱系树状图
其他的图我们就不生成了
我们就只生成谱系树状图看一看就可以
点继续
然后在方法里边
我们选择组内的距离和组间距
首先区间表示的是组内距离
组内距离我们就采用一个最常见的
组间距在聚类方法这个选项里边
我们打开之后
就选一个最远距离法
也叫最远邻元素
选择好之后
其实就可以得到一个最基本的聚类
层次聚类的结果了
我们就点确定就可以
整个层次聚类的过程
会生成一张表
这张表在上课的过程中我们给大家介绍了
第一列就是表示的聚类的顺序
第二列和第三列表示每一步将在
哪两个类里进行合并
第四列就是合并两类的距离
第五列和第六列表示的是被合并的两类
上一次合并分别是哪一步进行的
最后一列是每一步形成的新的分类
将在哪一步参与下次的合并
这就是分类的整个过程
下面展示出的是一张完整的谱系树状图
谱系树状图 可以观测根部距离的大小
表示的是两个样本之间的一个
组内距离的大小
我们可以看到吉林 黑龙江 辽宁和天津
他们的小康水平是比较接近的
可以分成一组
河北 山西 海南 江苏距离比较近
可以划分为一组
上海 北京可以划分为一组 比较特殊
江西 四川 湖南可以划分为一组
小康水平比较接近
湖北 陕西 内蒙古 宁夏和广西
是比较接近的
福建 安徽和甘肃比较接近
山东 河南比较接近
广东 浙江比较接近 可以划分为一组
青海 云南划分一组
然后贵州 西藏和新疆
小康水平比较接近
可以划分为一组
这就是使用了层次聚类
来进行聚类的一个基本过程
我们可以看到基本上
样本可以分为七 八类
这是一个探索的过程
七类或者八类或者九类都可以
大家可以根据谱系树状图来进行划分
好现在我们再用一个快速聚类
来进行一个简单的验证
快速聚类如何来做
我们还是点分析
分类里边我们选择K均值聚类
这就是我们所说的快速聚类
点好之后
我们仍然是把经济生活质量指数
教育生活质量指数
健康生活质量指数
和居住生活质量指数
点入之后
我们把地区的名字点入个案标注依据
这里边有一个聚类数的选项
简单地就划分了两类
实际上我们可以根据需要
来指定划分为几类
所以这是一个验证的过程
比如说我们划分为九类
快速聚类我们不需要选择聚类的距离
因为快速聚类默认的就是重心法
来计算距离
但是大家一定要注意
我们这里边有一个选项
这个选项里面打开之后
一定要在这点一下每个个案的信息
每个个案的信息
也就是给每一个 case样本
打上一个标签
来告诉我们样本被划分到哪一类去了
这一步是必须要做的
我们点continue继续
就可以进行快速聚类了
我们点确定来看看研究的结果
这就是快速聚类的一个迭代的过程
我们简单地看一下研究的结果就可以了
这里展示了很多距离过程中的距离算法
那么可以看到最后聚类的结果
聚类成员表告诉我们
每一个样本被划分到哪一类去了
我们给每一类打上一个标签或者说序号
比如说上海 北京 辽宁 天津
被划分成一类
广东 山东和河南被划分到第二类
我们可以看到好像聚类的过程
不尽如人意
我们可以根据聚类的结果
来调整分类的数量
试错分类的类别数量来得到
比较满意的聚类结果
以上是快速聚类的方法
我们也需要注意到课堂上我们讲到的
如何使我们的聚类的研究的结果的
信度和效度得以提升的方法
我们在课堂中也给大家
逐一做了简单的介绍
好 这节课就讲到这里
同学们再见
-第一节 管理学研究概述
-第二节 研究的有效性
-第一章 习题
--第一章 习题
-第三节 数据的采集(一)
-第四节 数据的采集(二)
-第五节 问卷与访谈
-第二章 习题
--第二章 习题
-第六节 变量的测量(一)
-第七节 变量的测量(二)
-第三章 习题
--第三章 习题
-第八节 数据的描述
-第九节 概率与随机变量(一)
-第十节 概率与随机变量(二)
-第十一节 抽样分布
-第十二节 参数估计
-第十三节 假设检验(一)
-第十四节 假设检验(二)
-第四章 习题
--第四章 习题
-第十五节 问卷的结构效度——探索性因子分析(一)
-第十六节 问卷的结构效度——探索性因子分析(二)
-第十七节 聚类分析(一)
-第十八节 聚类分析(二)
-第五章 习题
--第五章 习题
-第十九节 相关和回归分析(一)
-第二十节 相关和回归分析(二)
-第二十一节 相关和回归分析(三)
-第二十二节 相关和回归分析(四)
-第二十三节 相关和回归分析(五)
-第二十四节 违背基本假设的回归(一)
-第二十五节 违背基本假设的回归(二)
-第二十六节 违背基本假设的回归(三)
-第二十七节 多重共线性的诊断和修正(一)
-第二十八节 多重共线性的诊断和修正(二)
-第六章 习题
--第六章 习题
-第二十九节 硕士学位毕业论文指导(一)
-第三十节 硕士学位毕业论文指导(二)
-第七章 习题
--第七章 习题