当前课程知识点：大数据管理与挖掘 > 第7章数据回归方法 > 7.4 Logistic回归 > 7.4 Logistic回归

返回《大数据管理与挖掘》慕课在线视频课程列表

7.4 Logistic回归在线视频

下一节:7.5 应用实例-多因子选股模型的实现

返回《大数据管理与挖掘》慕课在线视频列表

7.4 Logistic回归课程教案、知识点、字幕

欢迎回来

我们这节课呢

继续讲我们本章第四节内容

Logistic回归

什么是Logistic回归呢

我们可以从如下的

线性回归模型里面可以看一下

在这里面

通过这个变换呢

可以得到如下的一个计算过程

在这个过程当中

p表示我们事件发生的概率

而1减p呢表示事件不发生的概率

在这个过程当中

当我们p等于1的时候

我们这个值呢接近于无穷大

当我们的p接近于0.5的时候

我们这个p呢就等于0

而当我们的p等于0的时候

我们这个值呢接近于无穷大

由此呢

在这个过程当中

当我们的p它的取值范围

在-∞ +∞这个区间里

通过这个过程我们可以呢

构造我们的Logistic回归模型

在这里面

通过Logit变换形成

如下所示的一个计算过程

通过这个过程式我们等号右边的分数

p除以1减p

是我们流行性病学里面常用的一个

以描述统计病的一个强度的指标

在这里面

我们称为呢一个优势数据

当我们的疾病发生的概率p

与不发生的概率q相等的情况下

在这里面

都等于0.5的情况下

我们这个值呢可以得到一个最佳值

就是它们呢等于1

否则我们这个值就等于

或者说大于我们的1

在这基础上呢

我们进行构造我们的logistic回归模型

在这个过程当中

我们首先呢通过

Βi表示自变量xi

它们呢改变它们一个单位的时候

我们可以进行定义

通过这个定义呢

我们可以进行我们的改变量的定义

通过这个过程

我们可以形成如下所示的

一个基本的形式

由此呢

我们通过这个模型的构建

我们可以看到我们整个

Logistic呢它的用途呢

主要体现在以下几个方面

一个就是我们寻找

某种现象发生的概率的时候

我们可以得到他们的影响因素

在这基础上

我们进行相关的

一些计算和我们的一些检测

同时呢

我们可以校正混杂因素

也可以呢确定

不同因素对疾病发生的影响的

一些相对的重要性

也就是所谓的我们做最主要的预测功能

具体的我们logistic回归参数估计过程

如我们的下图所示

在这里面

我们呢

整个估计过程呢

通常呢我们计算呢我们的最大似然估计

当然了

在这里面最大似然估计的选择

是我们总体样本参数

在于我们的样本观测值领域里面的

概率发生

在这里面我们假设我们最大值

作为我们的参数的估计值

通过这个过程

我们对上述问题进行一个阐述和解释

而上述问题的最大似然估计函数呢

我们可以通过如下面过程呢可以得到

在这基础上

当我们取我们的对数的时候

将整个公式可以变为如下所示的计算过程

在这里面

关于我们的β0和β1的一阶偏导呢

我们可以令我们一阶偏导可以等于0

我们可以得到两个关于

β0和β1的二元一次方程

在这个过程当中

我们通过方程组的解析

可以得到回归系数

β0和β1的最大似然估计值

具体呢如下所示

接下来

我给大家解释我们logistic

它的回归分析思路

首先呢我们呢

准备一些我们的回归过程

在这里面

最主要呢我们采取以下几个措施

一个就是我们寻找某现象的危险因素

在这里面

怎么去找呢

我们怎么样去预测呢

在这基础上

我给大家解释一下

首先我们要寻找某现象的危险因素

然后呢进行预测

在预测的基础上

进行我们的第三个方面就是说因素的分析

通过这三个方面呢

我们可以构造我们的

因变量之间的类型关系

比方说这里面

我们可以采用呢

二分类或多分类方法呢可以进行计算

接着呢我们进行自变量形式的一些审查

首先对一些自变量

或是我们的因素进行二分量变换

通过这个过程当中

将整个参数呢引入到模型当中

通常赋值为

当暴露时候x就等于1

当非暴露时候我们解释为x等于0

在这个过程当中

logistic回归模型中

它们的系数是1或者说0

相对而言通过它们的优势

与对比进行得到这个对数值

在此基础上

我们进行0与1的相互的比较分析

当我们事件发生的时候

也就是说危险事件发生的时候

我们可以采用OR这个值进行计算

暴露因素 x多分类变量的时候

可以采用1 2 3到K

这种方式呢进行比较k个不同的类别

进行logistic回归分析

在这个分析过程当中

将我们的变量转换为k减1个

虚拟变量或者叫做哑变量

而每个虚拟变量都是一个二分类变量

通常用0和1来表示

而且呢对每个虚拟变量

它都有一个回归系数

其意义表示为

1或0相比的优势对比的对比系数

比方说

我们可以对我们的血型可以表示为

A B AB 或者说O这四个值

以1 2 3 4来进行表示

而每个字母它就是一个代码

并不是说一个等级量值

由此呢

在我们整个logistic回归分析过程当中

还需要将变量x转换为3个虚拟变量

在这里面

我们以A为参照值

以3个虚拟变量分别为x1 2 3

在这里面

在分析的时候

将3个虚拟变量

同时纳入logistic回归模型里面

从而得到

3个回归系数 β1 β2 β3

其中呢

B型血与A型血之间相比较

患白血病的它的优势比的对数值比较明显

在这里面AB型血与我们的A型血相比

患白血病的优势比的对数值比较明显一点

还有呢我们O型血与A型血相比

它们的优势值呢对数值比较明显

在这里面

在这基础上

我们进行多分类自变量

与虚拟变量呢进行分析

分析的时候呢

我们还需要对一些因素或变量

他们的连续变量进行分析

最好将其转化为分类测算

比方说我们上面的一个例子

大家可以看一下

我们可以采用连续变量

比方说这里面用年龄来分析

我们可以得到如下所示的一个结果

在这个结果上

我们根据年龄的我们统计进行呢

提示

这个提示呢

我们可以得到如下的结果

比如这里面

分类变量用age1来进行分析

可以得到如下结果

我们年龄

50到59之间

与我们小于50之间的相比较

具有很好的统计学意义

在这基础上

我们可以看一下二者之间的关系

我们可以发现

年龄和我们的高血压之间

是一种二次项关系

我们中间高

两头低

如果说我们直接纳入我们的模型

作为我们的线性关系

是我们整个无统计学意义呢产生

接着呢

我给大家解释一下

我们的回归分析的基本思路里面的第三点

就是我们的正式分析

在这里面

正式分析就是说单因素分析

或是说采用多因素分析

在这过程当中

必须进行单因素分析吗

并不一定

因为在这过程当中

没有一个统一的一个结论

在这里面

我们采取我们的自变量之间的关系

当他们发生作用的时候

或相互之间存在关系的时候

我们可以产生相互之间的关系

或者说自变量与因变量的关系呢

进行分析和计算

这是我们的

单因素分析里面

接着呢我给大家解释一下我们的

多因素分析里面

我们采取一些措施呢

在这过程当中

我们多个自变量之间存在关系的时候

我们可以选择最适合的一些关系进行计算

比方说我们可以采用

逐步回归分析模式呢进行计算

第四个就是我们的参数估计和我们的检验

利用我们的统计学条件

可以求出我们的参数估计值

在这里面可以采用参数估计的方法

也可以包括我们的最大似然估计

还有我们的可以采用我们的参数检验方法

这里面的似然参数

可以通过这些方法来进行检验

得到我们的检验值

也可以采用Wald χ2分布这种方式

来进行检验

当我们的参数估计值与标准误差之间

它们的比值呈平方关系的时候

我们可以用Wald χ2分布

这种方式进行检验

也可以采用我们的似然比检验这个方式

第五个就是我们建立我们的初步的

一个模型

根据我们参数估计值

建立我们初步模型

具体过程如我们下面所示

第六个就是说

对我们的模型我们可以采用

卡方这个分布呢进行检验

在这过程当中

我们通过我们的检验我们的数据之间的

显著特征

我们可以对我们的模型

或者说我们的模型拟合结果呢

进行测试或检验

由此呢得到我们的想要的一个回归模型

同时对我们整个模型进行比较

比较我们模型的可行性

或者说模型之间的差别

在这过程当中

我们可以对我们所有的变量

或者模型进行估计

或者说观测

对他们的模型的估计

与观测值完全相等的时候

可以反映出一种理想的状态

由此呢

通过这个种拟合结果呢

可以得到我们最想要的理想结果

接着呢

我们可以进行统计量计算

当我们整个统计过程

趋于我们理想结果的时候

我们的观测值与我们的预测值之间

它的误差呢

并不是很明显

由此呢

在这过程当中

我们可以用卡方分布这种形式

对我们不显著方式呢进行表示

得到我们的拟合效果

反过来说

我们这个拟合效果并不是很好

接着呢我给大家解释一下我们的

广义确定系数

在这里面

当我们的

自变量对我们的因变量的解释能力

或者说我们的解释值过大的时候

我们可以采用

我们自变量对因变量进行解释

是它们的自变量

对我们的因变量解释能力呢变得更强

当我们自变量与因变量之间无关的时候

其整个值近于0

当拟合模型能够完全表示我们的

整个预测结果的时候

我们对我们的值呢可以表示为接近于1

这个过程也是一个基本的校验过程

当然了

我们可以利用我们的sas

这个过程呢进行描述

在这过程里面

我们可以对我们的系数值呢进行校验

得到我们如下所示的一个结果

同时呢对我们的模型进行诊断

诊断的方法可以从下面可以看出来

第一个就是多重共线性

也就是说我们自变量之间

相互高度关联的时候

我们可以采用如下的方式呢可以进行计算

第一叫做什么

可以进行评价指标

在这里面我可以用

容忍度来进行计算

或者说在这里面

我们通过扩展我们的方差的这种形式

也叫做呢方差扩大因子方式呢进行计算

当我们整个值大于10的时候

可能存在一些共线性

通过这个模式呢

进行测算和计算

还有就是我们的异常点诊断

也就意味着我们在这里面

对我们一些离群点呢进行检测

也就说因变量的预测值

与我们实际值误差偏差呢比较大

由此呢

可以采用诊断指标进行呢诊断

如果说两个指标之间误差值大于2

或者说绝对值大于2的时候

说明我们相应的观测值

可能与我们的拟合值偏差比较大

这个时候呢我们把它表示为离群值

还可以采用杠杆点

这个杠杆点就是

当我们自变量偏离我们的整个均值的时候

我们通常呢把他们确定为我们的杠杆点

在这里面我们通过如下的表示方式

可以得到我们的高杠杆点

还有我们的离群点检测的诊断

在这里面

我们可以采用如下的过程呢进行描述

第一个就是我们的影响点

我们通过建立我们的影响点

对我们的模型估计值呢可以进行估计

对我们的模型的估计点的影响大的数据呢

我们可以提取

在这里面

通过采用诊断这种方式进行诊断

这个诊断过程呢

我们采用一般呢叫故障诊断

或者说误差诊断

同时呢

我们可以对一些其他一些方式呢

可以进行故障诊断

或者说离群点数据的检测

在这里面

我们可以采用空单元值

或者说我们的

过离散这种方式呢进行表示

那么过离散呢在这里边是

我们整个过程中的一个重点

在这里面呢通过测量方差

大于我们的理想值的时候

我们进行计算

因为在这里面

当我们的各种变量未纳入整个模型的时候

我们的离群值变量值呢会存在不显著变化

由此呢

在这过程当中

我们可以建立一个最终的模型

这个模型我们可以进行解释

那么解释过程呢大家可以从下面所示

在这过程当中

当βi呢表示自变量x

它们当中一个单位时logitp呢

它就是一个改变量

在这过程当中

对我们的含义呢进行解释

而这个解释过程取决于我们自变量x值

这个X值当我们获得以后

我们可以进行诊断和预测

以上是我们7.4节的内容

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

7.4 Logistic回归笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。