当前课程知识点:大数据管理与挖掘 > 第8章 分类方法 > 8.6 判别分析 > 8.6 判别分析
大家好
我是西安工程大学
管理学院的邵景峰教授
欢迎回来
本节呢我们主要讲
判别分析
而判别分析基本原理
在这里面
我主要从以下几个步骤
可以介绍
第一个就是我们判别分析
在这里面
判别分析
是根据观察或测量到的
若干变量值
来判断研究对象
进行如何分类的基本方法
具体来讲
就是己知一定数量案例的一个分组变量
在这里面
这些案例的一些特征变量
来确定分组变量
和特征变量之间的数量关系
建立判别函数
然后呢
可以利用这一组数量关系
对其他己知的特征变量信息
但未知分组分类的信息
所属的案例进行判别分组
比如医学实践当中
我们可以根据各种化验结果
疾病症状
体征来判定患者患的是什么疾病
在比如体育选材当中
我们可以根据运动员的体型
运动成绩
生理指标
心理素质指标
遗传因素
判断是否入选运动员来进行培养
这也是我们一些
判别分析的一些应用过程
在这里面我们可以再举一些例子
比如动物
植物的分类
儿童心理的测验
地理区域的经济指标的划分和差异性
还有呢
决策行为预测等等
具体的判别分析的基本条件
我们可以从以下呢
展示出来
第一个就是说
分类变量的水平必须大于或等于2
每组案例的规模必须在至少一个以上
第二个就是说
各判别变量的测度水平
必须在间距测度等级以上
即各种判别变量的数量
必须以等距或等比例的数据
第三个
各分组的案例在各种判别基础上
进行能够体现它们的差别性
这个就是说
我们在这个基础上
对我们的判别变量进行三个基本的假设
第一个
每一个判别变量
不能是其他判别变量的线性组合
否则呢
将无法估计我们的判别函数
或者虽然能够求解
但参数估计的标准误比较大
以至于参数估计的统计结果并不显著
在此基础上我们进行第二个假设
各组案例的协方差矩阵相等
在此条件下
可以使用很简单的公式来计算
判别函数进行显著性检验
第三个假设呢
就是我们各判别变量之间
具有多元正态分布
即每个变量
对于其他所有变量的固定值
有正态分布性
在此基础上
我们进行判别分析
首先在判别分析中
我们把这种分子变量称为因变量
而用于分组的其他变量
我们称为判别变量中自变量
或者叫做判别变量
而判别分析的基本模型
就是我们的判别函数
它主要表示为分组变量
与我们满足假设的条件的判别变量的
线性函数关系
具体的数学形式
我们可以从如下所示的
公式里面展示出来
在这里面
y是判别函数值
又称为判别值
xi表示各判别变量
bi表示相应的判别系数
表示各判别变量对于判别函数值间的影响
其中bi是我们的常数项
在此基础上呢
我们对各种变量
来代表了各种k维空间
每个案例按其判别变量的值
称为k维空间中的一个点
如果各组案例就其判别变量值有明显变化
在这里面就意味着
每一组将会对每一空间的某一个部分
形成明显的焦点
或者说我们的集群点
由此呢
我们可以根据计算此领域的中心
以概括这个组的位置
而中心的位置
可以用这个判别组中的
各组案例对每个变量上的组的平均值
将其作为一个坐标值
原因就在于
每个中心代表了所在组的基本位置
我们可以通过研究它们来取得
对于这些分组之间的差别的理解
我们整个判别模型的估计过程
可以分为以下几步
第一个就是
在k维空间中
寻找某个角度
使各组平均值的误差接近可能大
将其作为判别的第一维度
对于函数作为第一判别函数
第二个呢
对这一维度可以表示
或解释原始变量各组之间方差的最大部分
然后呢
依照同样原则建立第二判别函数
第三个呢
就是我们建立后续判别函数的条件
那基本的条件是
后一个函数必须与前面所有函数之间
相互正交
即判别函数之间完全独立
由此呢可以建立
判别函数的最小数目
而每一个函数
都反映判别变量之间的这种方差的一部分
这个比例之和已经达到100%
在此基础上呢
我们给大家介绍一下
我们如何
建立判别函数
基本的方法
在这里面包括以下几个方法
第一个叫全模型方法
第二个向前选择方法
第三个向后选择方法
第四个叫逐步选择方法
通过这个方法
我们给大家解释一下
我们判别分析的一些特点
首先呢
判别分析的特点是根据己掌握的
历史上每个类别的
若干对象的一些数据信息
总结出客观事物分类的规律性
建立判别公式和判别准则
第二个
当遇到新的样本点时
只要根据总结出来的判别公式
和判别准则
就能够判别该样本点所属的类别
第三个
判别分析
按照判别的组来进行区分
可以分为两组判别分析
和多组判别分析
这是我们第六节内容
判别分析呢
我讲到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论