当前课程知识点：管理定量方法 > 第五章多变量定量研究 > 第十七节聚类分析（一） > 第十七节聚类分析（一）

返回《管理定量方法》慕课在线视频课程列表

第十七节聚类分析（一）在线视频

下一节:第十八节聚类分析（二）

返回《管理定量方法》慕课在线视频列表

第十七节聚类分析（一）课程教案、知识点、字幕

同学们大家好

欢迎来到管理定量方法课程

我是今天的主讲老师杨老师

第十七讲

我们给大家介绍聚类分析的第一个部分

聚类分析是管理学研究

常用的一种定量研究方法

什么是聚类分析

我们先通过一个例子

帮助大家来理解

先问大家一个个性的问题

一条狗一匹马和一片绿草地

把它分成两组

应该怎么来分

可能A同学会说

把狗和马分成一组

绿草地是一组

B同学会说

把马和绿草地分成一组

狗单独一组

当然还有C同学也会说

我们应该把狗和绿草地分成一组

把马单独分成一组

我们试着猜一下同学们划分这三类事物的

主要原因

把狗和马分成一组的同学

可能基于把动物分成一组

绿草地是植物分成一组

把马和绿草地分成一组的同学

可能是基于马要吃草对不对

那么把狗单独分成一组

当然把狗和绿草地分成一组的同学

可能认为我们要遛狗

狗需要在绿草地上奔跑

然后把马单独分成一组

好无论如何来划分

我们可以看到这样的分组

属于一个个性的问题

实际上聚类分析也是一个个性化的问题

根据聚类分析的结果

我们可以很个性化地来得到

不同类的分类结论

聚类分析在管理学中有何应用

这里给大家举了一个例子

牙膏经销商想对消费者做一个划分

收集了消费者的年龄

教育程度

收入水平

婚姻状况

小孩的个数

和年龄等等信息

经销商经常能够对分群后的小组

有针对性地推销产品

比如说成年人男性大家庭

青少年儿童就可以划分成一类

在分析变量y的时候

甚至不知道y可以分成几类的时候

我们可以应用聚类分析来做研究

1968年

Haley在Journal of Marketing的杂志上

发表了关于牙膏（市场）细分的

学术文章

这篇文章就利用了聚类分析

聚类分析的结果如下

牙膏市场具体细分为追求利益者

消费者人群的划分

行为特征的划分

心理特征

和首选品牌的划分

比如追求利益的消费群体

就可以看出来有以下的几类消费者

比如说有的消费者追求价格低廉

有的消费者在买牙膏的时候

注重的是防护牙齿

有的消费者注重洁齿

有的消费者偏好口味

在消费人群的类型里

可能有成年男性

大家庭

青少年

儿童牙膏这一类细分的基本标准

根据消费者的行为特征

可以把消费者区分为经常使用牙膏的

不经常使用牙膏的

吸烟者

和喜欢薄荷口味的

在心理特征的划分组里

消费者可以具体划分为

独立追求物有所值的消费者

忧虑和保守的消费者

好社交的消费者

自我参与与享乐主义的消费者

当然在首选品牌的时候

一些消费者会选择减价品

有的消费者会选择联合利华的产品

有的消费者会选择高露洁

这样的品牌等等

举了这些研究的例子之后

我们给大家聚类分析的定义

聚类分析 Cluster Analysis

是物以类聚的一种统计分析方法

用于对事物类别的面貌尚不清楚的时候

甚至在事物连总的有几类

都不太确定的情况之下

进行的分类的统计方法

这一类方法分成两类

对变量进行聚类的R型聚类

和对样本进行聚类的Q型聚类

管理学的定量分析方法中

应用样本聚类的Q型聚类更多

所以我们给大家主要介绍的是

样本的Q型聚类

那么聚类分析的基本思想和原理是什么

请看这张图

我们希望把样本点分成几组

如何进行划分

可能我们一眼望过去就会分成两组

为什么我们会把这些样本分成这两组

实际上我们用肉眼

在观察这些样本的时候

在样本和数据点之间定义了一个

不相似的程度

不相似的程度也可以理解为一种距离

聚类的目的

就是把这些样本分成几个类别的组

组内两点之间的距离比较近

而组间的样本的距离比较远

这样我们就定义了组内距离和组间距离

以下我们简单谈一谈距离的计算方法

首先我们谈一谈组内距离

也就是数据点之间的距离

组内距离

最早的研究来自于欧式距离

欧式距离是如何定义的

这里我们给了公式

公式可以看到的就是求解两点之间的

差值的一个平方

加总在一起再开平方

因为牵扯到各种各样的点和点之间的

距离的相加

那么xi应该是描述同量纲的变量

比如说 x₁是某省人均粮食的支出

x₂人均副食的支出

x₇ 是人均燃料的支出

x₈是人均非商品的支出

用欧式距离就比较合适

因为这些量纲都是相同的

支出1元

无论是在粮食上还是燃料上

都是1块钱上的支出

所以欧式距离会比较合适

那么如果点和点之间的量纲是不同的

我们可以采用第二种数据（点）之间的

距离的计算方法

标准化之后的欧式距离

我们利用xi*等于xi减去u再除以σ

这里的谬是所有数据点的均值

通过标准化处理

不同量纲的数据点

也可以有具体意义的距离了

比如说消费者的特征收入

年龄性别上班的距离

这样的数据点在求其数据点之间的

距离的时候

我们可以采用标准化之后的

欧式距离来计算

这样的计算方法更合适

第三种数据点之间的组内距离是马氏距离

设S是样本x y 一直到z

产生的一个斜方差矩阵

我们通过计算一个有方向

有大小的矢量距离

来表示样本点之间的距离

那么x和y之间的距离

d (x, y)就等于√下

x减去y的一个转置

再乘以s^-1

再乘以x-y来构造一个

点和点之间的距离

第四种距离是明科夫斯基距离

我们把x y之间的距离

做了一个绝对值

取m次加总在一起再开m次方

至于m次是多少

模型赋予了研究者更加主动的方式

来由研究者自己来确定

当然还有生物学上应用的匹配距离

匹配距离实际上是基因研究中

会应用更多一些

我们在这里就不再强调了

组间距离

它的定义是设A和B是两个组

内含nA和nB的元素

计算两类之间的距离

也有如下的几个计算方法

比如说类平均法

重心法

最长距离法

和最短距离法等等

第一种是类平均法

类平均法测量了两类每对观测点间

一个平均的距离

相对来说非常简单

如果A区域有三个点

B区域有两个点

那么我们计算出A和B两个区间里

所有点和点之间的距离

计算一个平均值来代表

两类点之间的一个平均距离

这就是类平均法

重心法是计算两类之间的一个重心

把重心点连接在一起来测度

类之间的距离

这也是非常好理解的

重心法的重心在寻找的实际上

是比较复杂的

那么重心的取值

实际上和点的分布密度有关

有点类似于我们在初高中

所学到的物理学中的重心的概念

第三种是最长距离法

最长距离法就是计算两类数据点之间

最远的一个距离来作为类间距的计算方法

也是比较容易理解的

最短距离法是计算两类数据点之间

最近的一段距离

来作为两类之间的一个距离

如果我们不看算法

我们把聚类过程中类间距的算法

通过图形的方式

帮助大家来更好地做一个理解

第一张图是所谓的最近距离法

第二张图就是最远距离法

第三张图是我们计算了点和点之间

所有的距离的一个均值

实际上就是类平均法average

最后一类寻找到两类之间的

点和点之间的一个重心的一个距离

来代表类间距

这是我们给大家介绍的重心法

那么很好地理解了距离的算法之后

实际聚类的方法有两大类

一大类是分层聚类

一类是快速聚类

分层聚类它具备如下的特点

分层聚类可以产生一个谱系树状图

而且分层聚类是根据植物分类学上的思想

对研究对象进行一个分类的方法

把样本点分成门纲目科属种

分类单位越来越细

所含的植物越来越少

共性就越多

其想法和思路基本的算法是

对n个数据点

把离得最近的两类进行归类

这样就剩下了n减1类

不断地重复以上的过程

直到只剩下两类

记下每一类分类时最小的类间距之后

做谱系树状图

这就是分层聚类的基本原理

分层聚类如何去确定类数的最佳值

通常最佳分类的数目不会是2

具体的数目是个比较个性的事情

比如说一副扑克牌

我们既可能按照花色来进行分类

也可能按照扑克牌的点来进行分类

甚至按照颜色进行分类

都有道理

决定类数的方法有很多

比如说IBM SPSS软件中

生成一个伪F统计量

公式如下

伪F统计量来评价分类K类的一个效果

如果K类合理

则组内的方差较小

组间的方差较大

我们应取伪F统计量大

而K较小的分类水平

好这节课就讲到这里

同学们再见

管理定量方法课程列表：

第一章管理定量研究概述

-第一节管理学研究概述

--第一节管理学研究概述

-第二节研究的有效性

--第二节研究的有效性

-第一章习题

--第一章习题

第二章定量数据的采集

-第三节数据的采集（一）

--第三节数据的采集（一）

-第四节数据的采集（二）

--第四节数据的采集（二）

-第五节问卷与访谈

--第五节问卷与访谈

-第二章习题

--第二章习题

第三章测量与尺度设计

-第六节变量的测量（一）

--第六节变量的测量（一）

-第七节变量的测量（二）

--第七节变量的测量（二）

-第三章习题

--第三章习题

第四章数据的描述与统计推断

-第八节数据的描述

--第八节数据的描述

-第九节概率与随机变量（一）

--第九节概率与随机变量（一）

-第十节概率与随机变量（二）

--第十节概率与随机变量（二）

-第十一节抽样分布

--第十一节抽样分布

-第十二节参数估计

--第十二节参数估计

-第十三节假设检验（一）

--第十三节假设检验（一）

-第十四节假设检验（二）

--第十四节假设检验（二）

-第四章习题

--第四章习题

第五章多变量定量研究

-第十五节问卷的结构效度——探索性因子分析（一）

--第十五节问卷的结构效度——探索性因子分析（一）

-第十六节问卷的结构效度——探索性因子分析（二）

--第十六节问卷的结构效度——探索性因子分析（二）

-第十七节聚类分析（一）

--第十七节聚类分析（一）

-第十八节聚类分析（二）

--第十八节聚类分析（二）

-第五章习题

--第五章习题

第六章相关与回归模型

-第十九节相关和回归分析（一）

--第十九节相关和回归分析（一）

-第二十节相关和回归分析（二）

--第二十节相关和回归分析（二）

-第二十一节相关和回归分析（三）

--第二十一节相关和回归分析（三）

-第二十二节相关和回归分析（四）

--第二十二节相关和回归分析（四）

-第二十三节相关和回归分析（五）

--第二十三节相关和回归分析（五）

-第二十四节违背基本假设的回归（一）

--第二十四节违背基本假设的回归（一）

-第二十五节违背基本假设的回归（二）

--第二十五节违背基本假设的回归（二）

-第二十六节违背基本假设的回归（三）

--第二十六节违背基本假设的回归（三）

-第二十七节多重共线性的诊断和修正（一）

--第二十七节多重共线性的诊断和修正（一）

-第二十八节多重共线性的诊断和修正（二）

--第二十八节多重共线性的诊断和修正（二）

-第六章习题

--第六章习题

第七章定量方法总结与管理类硕士毕业论文指导

-第二十九节硕士学位毕业论文指导（一）

--第二十九节硕士学位毕业论文指导（一）

-第三十节硕士学位毕业论文指导（二）

--第三十节硕士学位毕业论文指导（二）

-第七章习题

--第七章习题

第十七节聚类分析（一）笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。