当前课程知识点:大数据机器学习 > 第八章 逻辑斯谛回归与最大熵模型 > 2.最大熵模型 > 2.最大熵模型
下面
我们介绍最大熵模型
包括最大熵原理
最大熵模型的定义
最大熵模型的学习和极大似然估计方法
关于最大熵模型
在统计学习方法中的地位
有这样一种说法
是这样的
说在形式上
最大熵模型是最漂亮的统计模型
而在实现上
又是最复杂的模型之一
那么接下来
就让我们深入的去探讨
这个既漂亮又复杂的模型
最大熵模型
是由最大熵原理推导而出的
假如
我们给抛硬币得到正反面进行概率求取
我们说
正面和反面的概率都等于0.5
这样的结果是最好的
因为这样的分布最均匀
熵最大
最大熵原理的定义
在学习概率模型的时候
在所有可能的概率模型或分布中
熵最大的模型是最好的模型
表述为在满足约束条件的模型集合中
选取熵最大的模型
假设
离散随机变量X的概率分布是p(x)
则熵就等于
负的对所有x求p(x)乘以logp(x)
再连加
且熵大于等于0小于等于logX的绝对值
X为均匀分布的时候
右边等号成立
且X绝对值是X的取值的个数
下面我们通过一个简单的例子
来介绍一下最大熵原理
假设
随机变量X有五个取值ABCDE
我们估计各个值的概率
我们解这个问题
满足P(A)加P(B)加P(C)加P(D)加P(E)等于一
我们进行概率估计
则每个取值的概率为1/5
如果再加入一些先验
比如说P(A)+P(B)=3/10
则结果是P(A)=P(B)=3/20
P(C)=P(D)=P(E)=7/30
如果我们加入更多的约束
则可以继续
按照满足约束条件下
求等概率的方法估计概率分布
下面我们给出最大熵模型的定义
设X和Y分别是输入和输出的集合
这个模型表示的是
对于给定的输入X
以条件概率P(Y|X)输出Y
那么给定数据集T
联合分布PX条件下Y的概率的经验分布
以及 边缘分布PX的经验分布
为下面两个式子
特征函数是一个二值函数
就是X和Y满足这个事实的时候取值为一
否则就取值为零
有的时候我们知道
X变量不是相互独立的
Y的作用会影响X发生
在监督学习中有了标记Y之后
肯定会对X的分布有影响
生成X的概率就会发生变化
X的信息量也会变化
那么此时X的不确定性
就可以表示为H(X|Y)
也就是条件熵
等于∑p(x,y)的联合概率
乘以log 1/p(x|y)条件概率
在决策树算法中
我们曾经计算了信息增益
也适用的条件熵
相对熵又称互熵交叉熵
鉴别信息KL散度等
我们设p(x)、q(x)是X中取值的两个概率分布
则P对Q的相对熵
是d(p||q)=∑p(x)logp(x)/q(x)
在一定程度上
相对熵
可以度量两个随机变量的距离
并且有D(P||Q)不等于D(Q||P)
这样使用起来就不是很方便
于是
詹森和香农就提出了
一种新的相对熵的计算方法
将上面的不等式两边取平均
那么除此以外
还有叫互信息这个概念
两个随机变量X和Y的互信息
就定义为X,Y的联合分布
和独立分布乘积的相对熵
我们用I(X,Y)来表示
这个概念
再我们上一讲当中
也就是贝叶斯网络中
计算属性间关联度的时候
就是用的互信息的度量方法
特征函数f(x,y)
关于经验分布ptild(x,y)的期望值
表示为Eptild=∑ptild(x,y*f(x,y)
特征函数f(x,y)
关于模型f(x,y)的条件概率
与经验分布Ptild(x)的期望值
表示为Ep=∑ptild(x)*p(y|x)* f(x,y)
如果模型能够
获取训练数据中的信息
那么就可以假设
这两个期望值相等
也就是Ep=Eptild
这里的fi(x,y)
是表示如果有N个特征函数
就会对应于N个约束条件
那么接下来
我们给出最大熵模型的定义
假设
满足所有约束条件的模型集合为C
也就是Ep(fi)=Eptild(fi)
定义在条件概率分布
P(Y|X)条件概率上的条件熵就表示为
H(p)=-∑ptild(x)乘以P(y|x)logP(y|x)
则模型集合C中的条件熵
H(P)最大的模型就称为最大熵模型
在这里所求的就是条件概率
我们在后面的推导中
是把这个条件概率
当成一个未知变量进行求解
对于给定的数据集
以及特征函数fi(x,y)
最大熵模型的学习
等价于约束最优化问题
也就是max H(P)=-∑ptild(x)*
乘以P(y|x)*logP(y|x)条件概率
他在以下条件满足
Ep=Eptild
∑对所有的Yp(y|x)条件概率等于一
我们把目标函数的负号
移到等式的左边
这样极大问题就变成了极小问题
也就是极小化负的Hp等于
∑ptild(x)乘以p(y|x)条件概率乘以logp(y|x)条件概率
那么Ep-Eptild=0
∑对所有的Yp(y|x)条件概率等于一
那么对这个约束问题如何求解呢
在约束最优化问题中
我们常常会利用
拉格朗日对偶的特性
将原始问题转换为对偶问题
通过解绝对偶问题
得到原始问题的解
下面我们介绍一下
拉格朗日对偶方法
首先对于原始问题
设f(x),c(x),h(x)
是定义在RN上的连续可微函数
我们求f(x)函数的极小问题
满足约束条件
Cix<=0, hjx=0
下面我们引进拉格朗日函数
先介绍拉格朗日乘子αi,βj
其中αi大于等于0
这样
拉格朗日函数就表示为
L(x,α,β)=fx+∑αicix+∑βjhjx
这样原始问题也就是极小f(x)
就可以表示为θp(x)=L(x,α,β)极大的问题
那么针对L函数
假设给定某个X
如果X违反任何的约束条件
那么θp(x)的极大
都是无穷大
所以
只有满足约束条件
才有极大值f(x)
下面我们考虑
Θp(x)的极小=L函数的极小极大
与原始问题等价 考虑对偶问题
定义ΘD(α,β)等于极小
针对所有的x,L(x, α,β)
则最大值问题
表示为约束最优化问题
成为原始问题的对偶问题
也就是maxΘd(α,β)
就等于max min L(x,α,β)
对偶问题的最优值为d*
若原始问题和对偶问题都有最优值
则d*=max min L
小于等于Min max L=P*
那么有一个推论
设x*,和α*,β*
分别是原始问题和对偶问题的可行解
并且d*=p*
则x*和α*,β*
分别是原始问题和对偶问题的最优解
下面我们具体采用拉格朗日对偶的方法
进行最大熵模型的学习
这里呢
将约束最优化的原始问题
转换为无约束最优化的对偶问题
通过求解
对偶问题来去求解原始问题
我们引进拉格朗日乘子
定义拉格朗日函数
L(P,W)等于如下函数
我们将最优化原始问题
转换为最优化对偶问题
由于L(P,W)是P的凸函数
所以呢
原始问题的解和对偶问题的解是等价的
我们先求极小化问题
Min L是W的函数
然后普赛w就等于min L也就等于L(pw,w)
这里PW是当L取极小值的时候
条件概率的表达
此时
条件概率是W的函数
接下来
我们要求取L(P,w)
对P(y|x)的偏导数
这在以往是很少碰到的
因为我们现在要求的是条件概率
所以呢
需要对L去计算
针对条件概率的偏导数
当偏导数为零的时候
就可以得到条件概率的极值
这样得到的条件概率
就等于exp(∑wifi)/exp(1-wo)
这里呢w0就是第一个拉格朗日乘子
由于∑P(y|x)条件概率等于一
这样得到
在规范化因子下的表达
pw(y|x)条件概率等于1/zw(x) exp(∑wifi)
我们把Zw(x)称为规范化因子
模型Pw就是最大熵模型
接下来
我们再求解
对偶问题外部的极大化问题
我们还是参照刚才的那个例子
然后采用最大熵模型的结论
进行求解
由-Hp等于西格玛1到5
p(yi)logp(yi)服从于
p(y1)+p(y2)=p(y1)tild+p(y2)tild=3/10
∑p(yi)=∑ptild(yi)=1
则拉格朗日函数为下式
首先我们计算L关于P的极小化问题
我们先固定W0和W1
去求偏导数
得到下面多个式子
我们令各偏导数为零
记方程组就可以得到
p(y1)=p(y2)=exp(-w1-w0-1)
p(y3)=p(y4)=p(y5)=exp(-w0-1)
这样我们就得到了Min L的表达
这样在接下来
求极大也就是max对WI求偏导
然后就可以得到最终的每一个概率
-1.机器学习定义和典型应用
-2.机器学习和人工智能的关系
-3.深度学习方法和其它人工智能方法的共性和差异
-4.机器学习和数据挖掘的关系
-5.机器学习和统计学习的关系
-6.机器学习的发展历程
-7.大数据机器学习的主要特点
-第一章 概述--7.大数据机器学习的主要特点
-1机器学习的基本术语
-2.监督学习
--2.监督学习
-3.假设空间
--3.假设空间
-4.学习方法三要素
-第二章 机器学习基本概念--4.学习方法三要素
-5.奥卡姆剃刀定理
-6.没有免费的午餐定理
-7.训练误差和测试误差
-8.过拟合与模型选择
-第二章 机器学习基本概念--8.过拟合与模型选择
-9.泛化能力
--9.泛化能力
-10.生成模型和判别模型
-1.留出法
--1.留出法
-2.交叉验证法
--2.交叉验证法
-3.自助法
--3.自助法
-4.性能度量
--4.性能度量
-5.PR曲线
--5.PR曲线
-6.ROC和AUC曲线
-第三章 模型性能评估--6.ROC和AUC曲线
-7.代价敏感错误率
-8.假设检验
--8.假设检验
-9.T检验
--9.T检验
-10.偏差和方差
--10.偏差和方差
-1.感知机模型
--1.感知机模型
-第四章 感知机--1.感知机模型
-2.感知机学习策略
-3.感知机学习算法
-第四章 感知机--3.感知机学习算法
-1.原型聚类描述
--1.原型聚类描述
-第五章 聚类--1.原型聚类描述
-2.性能度量
--2.性能度量
-第五章 聚类--2.性能度量
-3.1原型聚类 k均值算法
-3.2 原型聚类 学习向量算法
-3.3 原型聚类 密度聚类
-第五章 聚类--3.3 原型聚类 密度聚类
-3.4原型聚类 层次聚类
-1.综述
--1.综述
-2.概率图模型
--2.概率图模型
-第六章 贝叶斯分类器及图模型--2.概率图模型
-3.贝叶斯网络
--3.贝叶斯网络
-第六章 贝叶斯分类器及图模型--3.贝叶斯网络
-4.朴素贝叶斯分类器
-第六章 贝叶斯分类器及图模型--4.朴素贝叶斯分类器
-5.半朴素贝叶斯分类器
-第六章 贝叶斯分类器及图模型--5.半朴素贝叶斯分类器
-6.贝叶斯网络结构学习推断
-7.吉布斯采样
--7.吉布斯采样
-第六章 贝叶斯分类器及图模型--7.吉布斯采样
-开头
--开头
-1.决策树模型与学习基本概念
-2.信息量和熵
--2.信息量和熵
-第七章 决策树和随机森林--2.信息量和熵
-3.决策树的生成
--3.决策树的生成
-4.决策树的减枝
--4.决策树的减枝
-5.CART算法
--5.CART算法
-6.随机森林
--6.随机森林
-简介
--简介
-1.逻辑斯谛回归模型
-第八章 逻辑斯谛回归与最大熵模型--1.逻辑斯谛回归模型
-2.最大熵模型
--2.最大熵模型
-3.模型学习的最优化方法
-第八章 逻辑斯谛回归与最大熵模型--3.模型学习的最优化方法
-1.开头
--1.开头
-2.SVM简介
--2.SVM简介
-3.线性可分支持向量机
-第九章 SVM--3.线性可分支持向量机
-4. 凸优化问题的基本概念
-第九章 SVM--4. 凸优化问题的基本概念
-5.支持向量的确切定义
-6.线性支持向量机
-第九章 SVM--6.线性支持向量机
-svm相关拓展资料
-开头
--开头
-第十章 核方法与非线性SVM--开头
-1.泛函基础知识
--1.泛函基础知识
-第十章 核方法与非线性SVM--1.泛函基础知识
-2. 核函数和非线性支持向量机
-第十章 核方法与非线性SVM--2. 核函数和非线性支持向量机
-3. 序列最小最优化算法
-第十章 核方法与非线性SVM--3. 序列最小最优化算法
-开头
--开头
-1. k近邻学习
--1. k近邻学习
-第十一章 降维与度量学习--1. k近邻学习
-2. 降维嵌入
--2.降维嵌入
-第十一章 降维与度量学习--2. 降维嵌入
-3. 主成分分析
--3.主要成分分析
-第十一章 降维与度量学习--3. 主成分分析
-4. 核化线性降维
--4.核化线性降维
-5. 流型学习和度量学习
-1. 提升方法Adaboost算法
-第十二章 提升方法--1. 提升方法Adaboost算法
-2. Adaboost算法的训练误差分析
-3. Adaboost算法的解释
-4. Adaboost的实现
-第十二章 提升方法--4. Adaboost的实现
-adaboost拓展资料
-开头
--开头
-1. 问题提出
--1. 问题提出
-2. EM算法的引入
-3. EM算法的收敛性
-4. EM算法在高斯混合模型学习中的应用
-5. EM算法的推广
-第十三章 EM算法及混合高斯模型--3. EM算法的收敛性
-开头
--开头
-1. 计算学习理论的基础知识
-第十四章 计算学习理论--1. 计算学习理论的基础知识
-2. 概率近似正确学习理论
-3. 有限假设空间
--3.有限假设空间
-4. VC维
--4. VC维
-第十四章 计算学习理论--4. VC维
-5. 学习稳定性
--5. 学习稳定性
-开头
--开头
-1. 隐马尔科夫模型的基本概念
-第十五章 隐马尔可夫模型--1. 隐马尔科夫模型的基本概念
-2. 概率计算算法
-3. 学习算法
--3.学习算法
-第十五章 隐马尔可夫模型--3. 学习算法
-4预测算法
--4. 预测算法
-第十五章 隐马尔可夫模型--4预测算法
-开头
--开头
-1.概率无向图模型
-第十六章 条件随机场--1.概率无向图模型
-2.条件随机场的定义与形式
-第十六章 条件随机场--2.条件随机场的定义与形式
-3.条件随机场的计算问题
-4.条件随机场的学习算法
-5.条件随机场的预测算法
-第十六章 条件随机场--5.条件随机场的预测算法
-开头
--开头
-1.精确推断法:变量消去法和信念传播法
-第十七章 概率图模型的学习与推断--1.精确推断法:变量消去法和信念传播法
-2.近似推断法:MCMC和变分推断
-第十七章 概率图模型的学习与推断--2.近似推断法:MCMC和变分推断
-1.神经网络的发展历程
-2.神经网络的基本概念以及常见的神经网络(一)
-第十八章 神经网络和深度学习--2.神经网络的基本概念以及常见的神经网络(一)
-3.神经网络的基本概念以及常见的神经网络(二)
-4.玻尔兹曼机
--4.玻尔兹曼机
-5.深度学习
--5.深度学习
-第十八章 神经网络和深度学习--5.深度学习
-1. 深度学习简介和架构设计
-2. 计算图形式的反向传播算法
-3.深度学习的正则化方法(一)
-4.深度学习的正则化方法(二)
-1.深度学习的优化问题
-第二十章 深度学习优化方法--1.深度学习的优化问题
-2.神经网络优化的挑战
-3.神经网络的优化算法
-第二十章 深度学习优化方法--3.神经网络的优化算法
-4.相关策略
--4.相关策略
-第二十章 深度学习优化方法--4.相关策略