当前课程知识点:现代图像分析 > 第九章 图像分类识别 > 9.4 模式识别分类专题 > 9.4.3 神经网络学习视频
同学们好 这节课我们介绍另一种模式识别领域的重要算法
也就是神经网络和它衍生的深度学习方法
从十九世纪神经元学说提出以后
人们就开始研究能够模拟人类大脑神经元的方法
想要实现真正的人工智能
神经网络从信息处理的角度来对人脑神经元网络
进行抽象 建立某种简单模型 我们可以看出
神经元的基础模型和我们生物神经元这样的
一种信息传递的过程是非常类似的
神经网络算法就是在这样的基础上被提出来的
神经网络算法可以按如下的两种方式来进行分类
如果按网络结构来分
我们可以分为前馈网络和反馈网络
比如说 我们的BP和我们的感知器都是属于前馈网络
而反馈网络呢 比如说我们的Hopfield网络
它就是一种单层对称全反馈网络
如果按学习方式来分呢
我们可以分为有监督学习 无监督学习和增强学习
那么对于网络结构来说
它的关键都在于神经元的权值
而常用的一些学习规则有 Hebb规则 Delta规则
和反向传播学习方法等等
神经网络的常用模型也非常的多
比如说 我想可能很多同学也都听说过
比如说我们的感知器 认知机 Hopfield
还有我们的非常有名的BP算法 还有Boltzmann机等等
这些呢都是神经网络的常用模型
大家也可以课后参考一些相关的方法介绍
接下来我们就来介绍一下神经网络领域目前最具代表性的方法
首先我们来介绍一下应用最为广泛的神经网络模型之一
BP神经网络
BP神经网络如下面的这个图我们可以看出
它是利用输出后的误差来估计输入层的直接前导层的误差
然后再利用这个误差估计更前一层的误差
那么如此一层一层返传下来
就获得了其它所有各层的误差估计
那么它的应用呢 比如说我们的汽车自动驾驶系统
我们可以看到如图所示
左下方的这个图像就是基础的一个网络结构
我们把道路以及周边的景物来作为网络的输出
它通过4个隐层单元的计算可以得到30个输出
这个输出就可以用来决定汽车最终的行驶方向
实际上BP网络是种只含有一层隐层节点的浅层模型
在20世纪90年代SVM Boosting等等
很多的浅层经济学习模型也都相继提出
这些模型的结构基本上都可以看成带有一层隐层节点
但是浅层学习模型有很大的局限性
它们对于有限样本和计算单元情况下
对复杂函数的表示能力是非常有限的
对复杂问题来说缺乏泛化能力
正是由于这个契机 加拿大多伦多大学的Hinton教授
开始研究了多隐层的神经网络结构
也就是我们接下来要介绍的深度学习
06年Hinton教授在Science上发表的论文首次提出了深度学习的观点
它认为多隐层的人工神经网络结构具有优异的特征学习能力
学习得到的特征对数据有更本质的刻画
从而有利于可视化或者分类
深度神经网络在训练上的难度可以通过逐层初始化来有效的克服
逐层初始化可以通过无监督学习来实现
这一举攻破了神经网络领域的众多难题
正如Hinton所说 深度学习的本质就是进行自主的特征学习
那么与浅层学习相比呢 它具有更深的网络结构
并且通过逐层的特征变换能够揭示数据丰富的内在信息
能够更好的来表征图像的特征
我们来看一下深度学习具体的训练过程
如果我们对所有的层同时训练时间复杂度会非常高
那么如果每次训练一层 偏差又会逐层传递
而深度学习则是在非监督数据上建立多层神经网络的一个有效方法
它的训练过程包含这样的两步
第一步实质上是一个网络参数初始化的过程
区别于传统的神经网络初值随机初始化
深度学习模型是通过无监督学习输入数据的结构得到的
因而这个初值更接近全局最优 从而能够取得更好的效果
第二步则是监督学习的过程
通过训练样本采用梯度下降来微调整个网络参数
简单的来说就分为两步
一是每次训练一层网络 二呢是调优
使原始表示x向上生成的高级表示r
和该高级表示r向下生成的x'尽可能的保持一致
那么深度学习常用的模型有如下的四种
在这里我们主要介绍一下第四种 也就是卷积神经网络
这也是目前深度学习最流行的一种网络结构
卷积神经网络它的权值共享网络结构
大大的降低了模型的复杂度 减少了权值的数量
卷积网络也是为识别二维形状
所特殊设计的这样的一个多层感知器
这种网络结构对于平移 比例缩放 倾斜
或者其它形式的变形都具有高度的不变性
如下图所示就是一个概念化的卷积神经网络
输入图像通过和3个可训练的滤波器和可加偏置进行卷积
卷积后在c1层产生三个特征映射图
然后特征映射图中每组的四个像素再进行求和 加权 加偏置
通过一个Sigmore的函数得到3个s2的特征映射图
那么这个过程就是我们所说的迟化
这些映射图再通过滤波得到c3层
这个层级结构在和s2一样产生s4
最终这些像素值被光栅化 并连接成一个向量
输入到传统的神经网络当中 然后得到我们的输出
利用卷积神经网络开发的一个典型例子
就是识别数字的LeNet5
它也是美国大多数银行用来识别支票上手写数字的软件
可见它的准确率是非常之高的
我们可以简单的来看一下LeNet5的网络结构
LeNet5实际上它一共有7层 不包含输入的情况下
那么每层都包含一些可训练的参数 也就是连接权重
对于c1层来说有156个可训练参数
并且呢有12万多个连接
那么对于s2层来说它是一个下采样层 有6个特征图
而特征图的每个单元和c1中相对应特征图的邻域是相连接的
那么c3同样也是一个卷积层
它通过5乘5的卷积和来卷积s2层
然后得到的特征图就只有10乘10个神经元
但是因为它有16种不同的卷积和 所以就存在16个特征图
c5呢 同样也是一个卷积层 它有120个特征图
每个单元都和s4的全部16个单元邻域相连
那么由于s4层特征图的大小也是5乘5
所以c5特征图的大小是1乘1
而f6层有84个单元是和c5层全连接的
那么在输出层呢是由欧式径向基函数单元组成的
每类一个单元 而每一个都会有84个输入
那么卷积网络在本质上是一种输入到输出的映射
它能够学习大量的输入与输出之间的映射关系
而不需要任何输入和输出之间的精确的数学表达
那么这也是它对广泛应用的原因
主流的分类方式几乎都是基于统计特征的
这就意味着在进行分辨之前必须采取某些特征
然而显示的特征提取是很难的
因此在一些应用问题中呢
我们就很难去发掘这样的一些有效的特征
并且提取的这些特征也并不总是可靠的
而我们的卷积神经网络它避免了显示的特征取样
隐式的从训练数据中进行学习
这使得卷积神经网络明显有别于其它的神经网络的分类器
我们可以看到它具有众多的优点
对于这样的一些二维图形来说它都具有非常好的识别特性
那么特征检测层通过训练数据进行学习
也避免了显示的特征抽取
而同一特征映射面上的神经元权值是相同的
网络可以并行学习 能够进行加速
那么它跟一般的神经网络在图像处理方面相比呢
它的输入图像和网络的拓扑结构能够更好的吻合
而特征提取和模式分类可以同时进行
并且权重共享有效的减少了网络的训练参数
大大的提高了网络的训练效率
而机器学习界著名的大牛吴恩达教授呢
也于2011年和2014年分别加入了谷歌和百度
参与了相关的深度学习的项目
我们下面看到的这个就是谷歌当年的猫脸学习机
1000台计算机16000个芯片所组成的这样的一个系统
在学习了数百万张猫脸图片之后
将线条 亮度 边界色彩等多个特征分类
最后它在看到猫的图片后就能将它识别出来
并与学习过的图片归为一类
虽然计算机系统本身并没有猫和猫长的什么样子的这些概念
这就像人类大脑的记忆过程
当神经元接受到各种感官信号时
它们会把信号传递给海马体
然后呢逐渐形成持久的网络
这也就是深度学习的神奇之处
也希望大家能够更多的关注相关的前沿算法
这节课的内容就到这里
谢谢大家 再见
-1.1 图像及图像的基本概念
--1.1.2 图像及图像的基本概念作业
-1.2 数字图像处理的起源
--1.2.2 数字图像处理的起源作业
-1.3 数字图像处理的步骤和方法
--1.3.2 数字图像处理步骤和方法作业
-1.4 数字图像处理系统的组成
--1.4.2 数字图像处理系统的组成作业
-1.5 数字图像处理主要应用领域
--1.5.2 数字图像处理主要应用领域作业
-2.1 色度学基础
--2.1.3 色度学基础作业
-2.2 人的视觉特性
--2.2.1 人的视觉特性作业
-2.3 图像数字化
--2.3.2 图像数字化作业
-2.4 数字图像特点
--2.4.2 数字图像特点作业
-3.1 图像变换的基本概念
--3.1.2 图像变换的基本概念作业
-3.2 图像的几何变换
--3.2.2 图像的几何变换作业
-3.3 图像的离散傅立叶变换
--3.3.2 图像的离散傅立叶变换作业
-3.4 图像变换的一般表示形式
--3.4.2 图像变换的一般表示形式作业
-3.5 图像的离散余弦变换
--3.5.2 图像的离散余弦变换作业
-3.6 图像离散沃尔什-哈达玛变换
--3.6.2 图像离散沃尔什-哈达玛变换作业
-3.7 K-L变换
--3.7.2 K-L变换作业
-4.1 图像的对比度增强
--4.1.2 图像的对比度增强作业
-4.2 直方图修正
--4.2.3 直方图修正作业
-4.3 图像平滑
--4.3.4 图像平滑作业
-4.4 同态滤波
--4.4.2 同态滤波作业
-4.5 图像锐化
--4.5.2 图像锐化作业
-4.6 图像的彩色增强
--4.6.2 图像的彩色增强作业
-5.1 退化模型及常见退化模型
--5.1.2 退化模型及常见退化模型作业
-5.2 图像的无约束恢复
--5.2.2 图像的无约束恢复作业
-5.3 图像有约束最小二乘恢复
--5.3.2 图像有约束最小二乘恢复作业
-6.1 概述
--6.1.1 概述作业
-6.2 图像编码基本理论
--6.2.2 图像编码基本理论作业
-6.3 无损编码理论
--6.3.2 无损编码理论作业
-6.4 霍夫曼编码
--6.4.2 霍夫曼编码作业
-6.5 算数编码
--6.5.2 算数编码作业
-6.6 预测编码
--6.6.2 预测编码作业
-6.7 正交变换编码
--6.7.2 正交变换编码作业
-7.1 图像分割的定义及依据
--7.1.2 图像分割的定义及依据作业
-7.2 边缘点检测
--7.2.2 边缘点检测作业
-7.3 边缘线跟踪
--7.3.3 边缘线跟踪作业
-7.4 门限化分割
--7.4.2 门限化分割作业
-7.5 区域分割法
--7.5.2 区域分割法作业
-7.6 聚类分割法
--7.6.3 聚类分割法作业
-8.1 像素间的基本关系
--8.1.2 像素间的基本关系作业
-8.2 目标物的边界描述
--8.2.2 目标物的边界描述作业
-8.3 目标物的区域描述
--8.3.2 目标物的区域描述作业
-8.4 图像的几何特征
--8.4.2 图像的几何特征作业
-8.5 特征描述子
--8.5.4 特征描述子作业
-9.1 图像匹配
--9.1.2 图像匹配作业
-9.2 图像分类
--9.2.2 图像分类作业
-9.3 图像识别
--9.3.2 图像识别作业
-9.4 模式识别分类专题
--9.4.4 模式识别分类专题作业
-中国天网
-车道检测
-期末测试
--期末测试