8.过拟合与模型选择慕课视频播放-大数据机器学习-MOOC慕课视频教程-柠檬大学

我们来讨论过拟合与模型选择的问题

我们有一个多项式去拟合一串数据

我们来讨论过拟合的问题

我们举一个多项式曲线拟合任务的例子

假设我们有训练样本集T

我们的假设空间为一个XM次多项式

我们求在经验风险最小化下

每个wj的取值

从而确定整个模型

我们可以用解析的方法直接求取

这里我们具体用sin(2Πx)

也就是绿色的曲线

并加入一定的噪声信号去产生样本点

然后分别对M次多项式取不同的M的值

分别为1 3 9

这样就得到以上红色的拟合曲线

从图中可以看出M等于9时

曲线对训练集的样本有最好的拟合

然而

当我们加入测试样本点进行测试时

我们对训练集的损失进行求取

结果是这样的

我们发现训练集的平均损失

比测试集的平均损失都要高

尤其在m为9时测试集的损失有很大的提升

虽然训练集损失为零

我们把M等于9时的现象就称为过拟合

是指学习时选择的模型

过于复杂或包含的参数过多

以至于出现这一模型对已知数据预测得很好

但是对未知数据预测得很差的这样一种现象

我们把上述图形进行一般化

得到训练误差和测试误差

随模型复杂度变化的曲线

从该图可以看出

测试误差在选取某个模型复杂度时

得到最小值

随着模型复杂度增大

虽然训练误差减小

但是测试误差会增大

那么如何解决这个问题呢

我们来看同样

我们依然采用九次多项式进行联合

左图训练样本集大小为15

而右图训练样本集大小为100

而后者获得了更好的近似效果

也就是说

当模型较复杂时

我们可以采用增加训练样本集大小的方式去减小泛化误差

针对泛化误差的另一种方法

就是采用正则化的方法

在目标函数的前一项即经验风险基础上

增加一个正则化项或罚相

一般是模型参数向量的范数

正则化的一般形式如上式

针对回归问题

正则化既可以是模型参数

向量的二范数也可以是一范数

λA大于等于0是调整二者之间关系的系数

我们看看加入正则化项后模型变化的性能

针对刚才的例子

当M等于9时

当λ取lnλ等于-18时

模型在很少训练数据集上就获得了很好的性能

拟合得更好

当λ取lnλ等于0时

模型退化为一条直线

因为λ增大

使得模型参数受到更大的抑制

从而模型变得更简单

我们看加入正则化项后模型参数取值的变化

没有加入正则化项时

M等于9 左侧图的最右边一列参数值很大

这就容易造成过拟合

当加入正则化项以后

并且λ逐渐增大时

参数值不断减小

从而抑制模型的过拟合现象

模型泛化能力是指

由该方法学习到的模型

对未知数据的预测能力

是学习方法的本质属性

对模型泛化能力的评价主要通过测试误差来推测

可是由于测试集是有限的

而且是有差异的

这样的评价就不是那么可靠

能否从理论上进行评价

大数据机器学习课程列表：

第一章概述

-1.机器学习定义和典型应用

--1.机器学习定义和典型应用

-2.机器学习和人工智能的关系

--2.机器学习和人工智能的关系

-3.深度学习方法和其它人工智能方法的共性和差异

--3.深度学习方法和其它人工智能方法的共性和差异

-4.机器学习和数据挖掘的关系

-5.机器学习和统计学习的关系

-6.机器学习的发展历程

-7.大数据机器学习的主要特点

-第一章概述--7.大数据机器学习的主要特点

-1.相关拓展资料

第二章机器学习基本概念

-1机器学习的基本术语

-2.监督学习

-3.假设空间

-4.学习方法三要素

-第二章机器学习基本概念--4.学习方法三要素

-5.奥卡姆剃刀定理

-6.没有免费的午餐定理

-7.训练误差和测试误差

-8.过拟合与模型选择

-第二章机器学习基本概念--8.过拟合与模型选择

-9.泛化能力

--9.泛化能力

-10.生成模型和判别模型

--10.生成模型和判别模型

-统计学习与监督学习拓展资料

第三章模型性能评估

-1.留出法

-2.交叉验证法

-3.自助法

-4.性能度量

-5.PR曲线

-6.ROC和AUC曲线

-第三章模型性能评估--6.ROC和AUC曲线

-7.代价敏感错误率

-8.假设检验

-9.T检验

-10.偏差和方差

第四章感知机

-1.感知机模型

--1.感知机模型

-第四章感知机--1.感知机模型

-2.感知机学习策略

--2.感知机学习策略

-3.感知机学习算法

--3.感知机学习算法

-第四章感知机--3.感知机学习算法

-感知机拓展资料

第五章聚类

-1.原型聚类描述

--1.原型聚类描述

-第五章聚类--1.原型聚类描述

-2.性能度量

--2.性能度量

-第五章聚类--2.性能度量

-3.1原型聚类 k均值算法

--3.1原型聚类 k均值算法

-3.2 原型聚类学习向量算法

--3.2 原型聚类学习向量算法

-3.3 原型聚类密度聚类

--3.3 原型聚类密度聚类

-第五章聚类--3.3 原型聚类密度聚类

-3.4原型聚类层次聚类

--3.4原型聚类层次聚类

-聚类拓展资料

第六章贝叶斯分类器及图模型

-1.综述

--1.综述

-2.概率图模型

--2.概率图模型

-第六章贝叶斯分类器及图模型--2.概率图模型

-3.贝叶斯网络

--3.贝叶斯网络

-第六章贝叶斯分类器及图模型--3.贝叶斯网络

-4.朴素贝叶斯分类器

--4.朴素贝叶斯分类器

-第六章贝叶斯分类器及图模型--4.朴素贝叶斯分类器

-5.半朴素贝叶斯分类器

--5.半朴素贝叶斯分类器v

-第六章贝叶斯分类器及图模型--5.半朴素贝叶斯分类器

-6.贝叶斯网络结构学习推断

--6.贝叶斯网络结构学习推断

-7.吉布斯采样

--7.吉布斯采样

-第六章贝叶斯分类器及图模型--7.吉布斯采样

-贝叶斯相关拓展

第七章决策树和随机森林

-开头

--开头

-1.决策树模型与学习基本概念

--1.决策树模型与学习基本概念

-2.信息量和熵

--2.信息量和熵

-第七章决策树和随机森林--2.信息量和熵

-3.决策树的生成

-4.决策树的减枝

-5.CART算法

-6.随机森林

第八章逻辑斯谛回归与最大熵模型

-简介

--简介

-1.逻辑斯谛回归模型

--1.逻辑斯谛回归模型

-第八章逻辑斯谛回归与最大熵模型--1.逻辑斯谛回归模型

-2.最大熵模型

--2.最大熵模型

-3.模型学习的最优化方法

--3.模型学习的最优化方法

-第八章逻辑斯谛回归与最大熵模型--3.模型学习的最优化方法

-logistic回归相关拓展

第九章 SVM

-1.开头

--1.开头

-2.SVM简介

--2.SVM简介

-3.线性可分支持向量机

--3.线性可分支持向量机

-第九章 SVM--3.线性可分支持向量机

-4. 凸优化问题的基本概念

--4. 凸优化问题的基本概念

-第九章 SVM--4. 凸优化问题的基本概念

-5.支持向量的确切定义

--5.支持向量的确切定义

-6.线性支持向量机

--6.线性支持向量机

-第九章 SVM--6.线性支持向量机

-svm相关拓展资料

--svm相关拓展资料

第十章核方法与非线性SVM

-开头

--开头

-第十章核方法与非线性SVM--开头

-1.泛函基础知识

--1.泛函基础知识

-第十章核方法与非线性SVM--1.泛函基础知识

-2. 核函数和非线性支持向量机

--2. 核函数和非线性支持向量机

-第十章核方法与非线性SVM--2. 核函数和非线性支持向量机

-3. 序列最小最优化算法

--3. 序列最小最优化算法

-第十章核方法与非线性SVM--3. 序列最小最优化算法

第十一章降维与度量学习

-开头

--开头

-1. k近邻学习

--1. k近邻学习

-第十一章降维与度量学习--1. k近邻学习

-2. 降维嵌入

--2.降维嵌入

-第十一章降维与度量学习--2. 降维嵌入

-3. 主成分分析

--3.主要成分分析

-第十一章降维与度量学习--3. 主成分分析

-4. 核化线性降维

--4.核化线性降维

-5. 流型学习和度量学习

--5.流型学习和度量学习

第十二章提升方法

-1. 提升方法Adaboost算法

--1. 提升方法adaboost算法

-第十二章提升方法--1. 提升方法Adaboost算法

-2. Adaboost算法的训练误差分析

--2. Adaboost算法的训练误差分析

-3. Adaboost算法的解释

--3. Adaboost算法的解释

-4. Adaboost的实现

--4. Adaboost的实现

-第十二章提升方法--4. Adaboost的实现

-adaboost拓展资料

--adaboost拓展资料

第十三章 EM算法及混合高斯模型

-开头

--开头

-1. 问题提出

--1. 问题提出

-2. EM算法的引入

--2. EM算法的引入

-3. EM算法的收敛性

--3. EM算法的收敛性

-4. EM算法在高斯混合模型学习中的应用

--4. EM算法在高斯混合模型学习中的应用

-5. EM算法的推广

--5. EM算法的推广

-第十三章 EM算法及混合高斯模型--3. EM算法的收敛性

-EM算法拓展资料

第十四章计算学习理论

-开头

--开头

-1. 计算学习理论的基础知识

--1. 计算学习理论的基础知识

-第十四章计算学习理论--1. 计算学习理论的基础知识

-2. 概率近似正确学习理论

--2. 概率近似正确学习理论

-3. 有限假设空间

--3.有限假设空间

-4. VC维

--4. VC维

-第十四章计算学习理论--4. VC维

-5. 学习稳定性

--5. 学习稳定性

-计算学习理论拓展资料

第十五章隐马尔可夫模型

-开头

--开头

-1. 隐马尔科夫模型的基本概念

--1. 隐马尔科夫模型的基本概念

-第十五章隐马尔可夫模型--1. 隐马尔科夫模型的基本概念

-2. 概率计算算法

--2. 概率计算算法

-3. 学习算法

--3.学习算法

-第十五章隐马尔可夫模型--3. 学习算法

-4预测算法

--4. 预测算法

-第十五章隐马尔可夫模型--4预测算法

-隐马尔可夫拓展资料

第十六章条件随机场

-开头

--开头

-1.概率无向图模型

--1.概率无向图模型

-第十六章条件随机场--1.概率无向图模型

-2.条件随机场的定义与形式

--2.条件随机场的定义与形式

-第十六章条件随机场--2.条件随机场的定义与形式

-3.条件随机场的计算问题

--3.条件随机场的计算问题

-4.条件随机场的学习算法

--4.条件随机场的学习算法

-5.条件随机场的预测算法

--5.条件随机场的预测算法

-第十六章条件随机场--5.条件随机场的预测算法

第十七章概率图模型的学习与推断

-开头

--开头

-1.精确推断法：变量消去法和信念传播法

--1.精确推断法：变量消去法和信念传播法

-第十七章概率图模型的学习与推断--1.精确推断法：变量消去法和信念传播法

-2.近似推断法：MCMC和变分推断

--2.近似推断法：MCMC和变分推断

-第十七章概率图模型的学习与推断--2.近似推断法：MCMC和变分推断

第十八章神经网络和深度学习

-1.神经网络的发展历程

--1.神经网络的发展历程

-2.神经网络的基本概念以及常见的神经网络(一）

--2.神经网络的基本概念以及常见的神经网络(一）

-第十八章神经网络和深度学习--2.神经网络的基本概念以及常见的神经网络(一）

-3.神经网络的基本概念以及常见的神经网络(二）

--3.神经网络的基本概念以及常见的神经网络(二）

-4.玻尔兹曼机

--4.玻尔兹曼机

-5.深度学习

--5.深度学习

-第十八章神经网络和深度学习--5.深度学习

-神经网络与深度学习拓展资料

第十九章深度学习正则化方法

-1. 深度学习简介和架构设计

-2. 计算图形式的反向传播算法

-3.深度学习的正则化方法（一）

-4.深度学习的正则化方法（二）

第二十章深度学习优化方法

-1.深度学习的优化问题

--1.深度学习的优化问题

-第二十章深度学习优化方法--1.深度学习的优化问题

-2.神经网络优化的挑战

--2. 神经网络优化的挑战

-3.神经网络的优化算法

--3.神经网络的优化算法

-第二十章深度学习优化方法--3.神经网络的优化算法

-4.相关策略

--4.相关策略

-第二十章深度学习优化方法--4.相关策略

-深度学习优化算法拓展资料

8.过拟合与模型选择在线视频