当前课程知识点:管理定量方法 > 第五章 多变量定量研究 > 第十七节 聚类分析(一) > 第十七节 聚类分析(一)
同学们大家好
欢迎来到管理定量方法课程
我是今天的主讲老师杨老师
第十七讲
我们给大家介绍聚类分析的第一个部分
聚类分析是管理学研究
常用的一种定量研究方法
什么是聚类分析
我们先通过一个例子
帮助大家来理解
先问大家一个个性的问题
一条狗 一匹马和一片绿草地
把它分成两组
应该怎么来分
可能A同学会说
把狗和马分成一组
绿草地是一组
B同学会说
把马和绿草地分成一组
狗单独一组
当然还有C同学也会说
我们应该把狗和绿草地分成一组
把马单独分成一组
我们试着猜一下同学们划分这三类事物的
主要原因
把狗和马分成一组的同学
可能基于把动物分成一组
绿草地是植物分成一组
把马和绿草地分成一组的同学
可能是基于马要吃草 对不对
那么把狗单独分成一组
当然把狗和绿草地分成一组的同学
可能认为我们要遛狗
狗需要在绿草地上奔跑
然后把马单独分成一组
好 无论如何来划分
我们可以看到这样的分组
属于一个个性的问题
实际上聚类分析也是一个个性化的问题
根据聚类分析的结果
我们可以很个性化地来得到
不同类的分类结论
聚类分析在管理学中有何应用
这里给大家举了一个例子
牙膏经销商想对消费者做一个划分
收集了消费者的年龄
教育程度
收入水平
婚姻状况
小孩的个数
和年龄等等信息
经销商经常能够对分群后的小组
有针对性地推销产品
比如说成年人 男性 大家庭
青少年 儿童 就可以划分成一类
在分析变量y的时候
甚至不知道y可以分成几类的时候
我们可以应用聚类分析来做研究
1968年
Haley在Journal of Marketing的杂志上
发表了关于牙膏(市场)细分的
学术文章
这篇文章就利用了聚类分析
聚类分析的结果如下
牙膏市场具体细分为追求利益者
消费者人群的划分
行为特征的划分
心理特征
和首选品牌的划分
比如追求利益的消费群体
就可以看出来有以下的几类消费者
比如说有的消费者追求价格低廉
有的消费者在买牙膏的时候
注重的是防护牙齿
有的消费者注重洁齿
有的消费者偏好口味
在消费人群的类型里
可能有成年男性
大家庭
青少年
儿童牙膏这一类细分的基本标准
根据消费者的行为特征
可以把消费者区分为经常使用牙膏的
不经常使用牙膏的
吸烟者
和喜欢薄荷口味的
在心理特征的划分组里
消费者可以具体划分为
独立追求物有所值的消费者
忧虑和保守的消费者
好社交的消费者
自我参与与享乐主义的消费者
当然在首选品牌的时候
一些消费者会选择减价品
有的消费者会选择联合利华的产品
有的消费者会选择高露洁
这样的品牌等等
举了这些研究的例子之后
我们给大家聚类分析的定义
聚类分析 Cluster Analysis
是物以类聚的一种统计分析方法
用于对事物类别的面貌尚不清楚的时候
甚至在事物连总的有几类
都不太确定的情况之下
进行的分类的统计方法
这一类方法分成两类
对变量进行聚类的R型聚类
和对样本进行聚类的Q型聚类
管理学的定量分析方法中
应用样本聚类的Q型聚类更多
所以我们给大家主要介绍的是
样本的Q型聚类
那么聚类分析的基本思想和原理是什么
请看这张图
我们希望把样本点分成几组
如何进行划分
可能我们一眼望过去就会分成两组
为什么我们会把这些样本分成这两组
实际上我们用肉眼
在观察这些样本的时候
在样本和数据点之间定义了一个
不相似的程度
不相似的程度也可以理解为一种距离
聚类的目的
就是把这些样本分成几个类别的组
组内两点之间的距离比较近
而组间的样本的距离比较远
这样我们就定义了组内距离和组间距离
以下我们简单谈一谈距离的计算方法
首先我们谈一谈组内距离
也就是数据点之间的距离
组内距离
最早的研究来自于欧式距离
欧式距离是如何定义的
这里我们给了公式
公式可以看到的就是求解两点之间的
差值的一个平方
加总在一起再开平方
因为牵扯到各种各样的点和点之间的
距离的相加
那么xi应该是描述同量纲的变量
比如说 x₁是某省人均粮食的支出
x₂人均副食的支出
x₇ 是人均燃料的支出
x₈是人均非商品的支出
用欧式距离就比较合适
因为这些量纲都是相同的
支出1元
无论是在粮食上还是燃料上
都是1块钱上的支出
所以欧式距离会比较合适
那么如果点和点之间的量纲是不同的
我们可以采用第二种数据(点)之间的
距离的计算方法
标准化之后的欧式距离
我们利用xi*等于xi减去u再除以σ
这里的谬是所有数据点的均值
通过标准化处理
不同量纲的数据点
也可以有具体意义的距离了
比如说消费者的特征 收入
年龄 性别 上班的距离
这样的数据点在求其数据点之间的
距离的时候
我们可以采用标准化之后的
欧式距离来计算
这样的计算方法更合适
第三种数据点之间的组内距离是马氏距离
设S是样本x y 一直到z
产生的一个斜方差矩阵
我们通过计算一个有方向
有大小的矢量距离
来表示样本点之间的距离
那么x和y之间的距离
d (x, y)就等于√下
x减去y的一个转置
再乘以s^-1
再乘以x-y来构造一个
点和点之间的距离
第四种距离是明科夫斯基距离
我们把x y之间的距离
做了一个绝对值
取m次加总在一起再开m次方
至于m次是多少
模型赋予了研究者更加主动的方式
来由研究者自己来确定
当然还有生物学上应用的匹配距离
匹配距离实际上是基因研究中
会应用更多一些
我们在这里就不再强调了
组间距离
它的定义是设A和B是两个组
内含nA和nB的元素
计算两类之间的距离
也有如下的几个计算方法
比如说类平均法
重心法
最长距离法
和最短距离法等等
第一种是类平均法
类平均法测量了两类每对观测点间
一个平均的距离
相对来说非常简单
如果A区域有三个点
B区域有两个点
那么我们计算出A和B两个区间里
所有点和点之间的距离
计算一个平均值来代表
两类点之间的一个平均距离
这就是类平均法
重心法是计算两类之间的一个重心
把重心点连接在一起来测度
类之间的距离
这也是非常好理解的
重心法的重心在寻找的实际上
是比较复杂的
那么重心的取值
实际上和点的分布密度有关
有点类似于我们在初高中
所学到的物理学中的重心的概念
第三种是最长距离法
最长距离法就是计算两类数据点之间
最远的一个距离来作为类间距的计算方法
也是比较容易理解的
最短距离法是计算两类数据点之间
最近的一段距离
来作为两类之间的一个距离
如果我们不看算法
我们把聚类过程中类间距的算法
通过图形的方式
帮助大家来更好地做一个理解
第一张图 是所谓的最近距离法
第二张图就是最远距离法
第三张图是我们计算了点和点之间
所有的距离的一个均值
实际上就是类平均法average
最后一类 寻找到两类之间的
点和点之间的一个重心的一个距离
来代表类间距
这是我们给大家介绍的重心法
那么很好地理解了距离的算法之后
实际聚类的方法有两大类
一大类是分层聚类
一类是快速聚类
分层聚类它具备如下的特点
分层聚类可以产生一个谱系树状图
而且分层聚类是根据植物分类学上的思想
对研究对象进行一个分类的方法
把样本点分成门 纲 目 科 属 种
分类单位越来越细
所含的植物越来越少
共性就越多
其想法和思路基本的算法是
对n个数据点
把离得最近的两类进行归类
这样就剩下了n减1类
不断地重复以上的过程
直到只剩下两类
记下每一类分类时最小的类间距之后
做谱系树状图
这就是分层聚类的基本原理
分层聚类如何去确定类数的最佳值
通常最佳分类的数目不会是2
具体的数目是个比较个性的事情
比如说一副扑克牌
我们既可能按照花色来进行分类
也可能按照扑克牌的点来进行分类
甚至按照颜色进行分类
都有道理
决定类数的方法有很多
比如说IBM SPSS软件中
生成一个伪F统计量
公式如下
伪F统计量来评价分类K类的一个效果
如果K类合理
则组内的方差较小
组间的方差较大
我们应取伪F统计量大
而K较小的分类水平
好 这节课就讲到这里
同学们再见
-第一节 管理学研究概述
-第二节 研究的有效性
-第一章 习题
--第一章 习题
-第三节 数据的采集(一)
-第四节 数据的采集(二)
-第五节 问卷与访谈
-第二章 习题
--第二章 习题
-第六节 变量的测量(一)
-第七节 变量的测量(二)
-第三章 习题
--第三章 习题
-第八节 数据的描述
-第九节 概率与随机变量(一)
-第十节 概率与随机变量(二)
-第十一节 抽样分布
-第十二节 参数估计
-第十三节 假设检验(一)
-第十四节 假设检验(二)
-第四章 习题
--第四章 习题
-第十五节 问卷的结构效度——探索性因子分析(一)
-第十六节 问卷的结构效度——探索性因子分析(二)
-第十七节 聚类分析(一)
-第十八节 聚类分析(二)
-第五章 习题
--第五章 习题
-第十九节 相关和回归分析(一)
-第二十节 相关和回归分析(二)
-第二十一节 相关和回归分析(三)
-第二十二节 相关和回归分析(四)
-第二十三节 相关和回归分析(五)
-第二十四节 违背基本假设的回归(一)
-第二十五节 违背基本假设的回归(二)
-第二十六节 违背基本假设的回归(三)
-第二十七节 多重共线性的诊断和修正(一)
-第二十八节 多重共线性的诊断和修正(二)
-第六章 习题
--第六章 习题
-第二十九节 硕士学位毕业论文指导(一)
-第三十节 硕士学位毕业论文指导(二)
-第七章 习题
--第七章 习题