当前课程知识点:新城市科学 > 6. 机器学习、人工智能与深度学习 > 6.3 深度学习 > 课程视频
然后接下来我给大家讲讲
下面就是说什么是深度学习
给大家讲讲什么是深度学习
深度学习其实就是基于一种
叫做神经网络的模型
神经网络它的模型的想法
是这样的
是说我们有一个
它基于这样的神经元
首先这是生物神经元
生物神经元它有
任何一个神经细胞基本都是这样
这个玩意叫树突
这个玩意叫轴突
然后树突的话
这是一个神经元
另外一个神经元它的树突
轴突和别的神经元的树突相连
然后它的轴突放电
然后树突接收电信号
当它接收电信号足够的时候
它就会对下一个神经元再放电
就是这样一个关系
这个关系
如果用一个数学模型表达
我们就可以显示成这样
这是它的输出
就是我们所谓的轴突
这边就是树突 它是输入
每一个一个的输入
然后连接到下一个
它的输出
连接到下一个神经元的输入
然后上一个神经元输入
它都有一些权重
每个配一个权重
当它的输入大到一定程度之后
比方说它们加起来
大于一个thershold B(阈值B) 的时候
然后它就被激活了
对外就输出一个1
否则就输出一个0
就是这样的一个结构
神经元模型
数学上就是这样一个表达
在数学上就可以写成这样
就是用W把X加权 做了一个加权
就是线性组合之后
然后跟一个B做一个比较
如果说它大于一个值B的话
它就输出1 否则输出0
所以这里面
有一个非线性的激活函数
这个激活函数长这样子
我们希望它是
如果X大于0的话
大于等于0它是1 否则它是0
但是这个函数特别不好
它是一个不连续的函数 不光滑
你后面求导非常麻烦
但其实我们现在用的也不连续
也不好求导
是连续 但不光滑
通常他们使用什么
用Sigmoid的函数
就是这个函数
这个函数的特点就是S型
它在0的时候是0.5
X等于0的时候
输入是0的时候0.5
就是X在这儿 等于0.5
然后当X增大而接近1
否则的话就接近于0
是这样一个函数
这是一个神经元
我们把神经元连起来
就长这个样子
中间有一层
有一层这个就是每一层
实际上大家也知道这东西是什么
这个东西其实是逻辑回归
Logistic Regression
大家也经常用到这么一个东西
每一个橘红色的东西
都是一个逻辑回归
这个中间有一层
就叫做多层感知机
也就是最简单的神经网络
现在大家说的这个深度学习
深度学习就是
所谓的叫做什么呢
就是中间这些神经元的层数
更多一些
好 那我大概就说一下
就是说我们都学过
比方说我们傅里叶变换
其实做这么一件事
对 肯定都学过
高数都学过什么傅里叶级数 对吧
大一的时候学过
对 大一都学过傅里叶级数
所以傅里叶级数的任何一个函数
都能分解成若干个sin和cos的
正弦波的一个组合
正弦波和余弦 sin和cos的组合
然后这样
而这个sin cos的频率
是不断地往上涨的
所以说我们把sin和cos
进行组合之后
就可以得到任何一个函数了
得到这么一个函数
这个函数就是我们希望一个目标
我们把这个目标的话
用一个对象 就是一个X
我们把这个对象分解成什么了
分解成一组字典乘上一组特征
这个事情实际上
就是傅里叶变换的一个东西
我之所以再插在这儿讲这个
就是说神经网络
和它有一个很密切的联系
比方说我们还有PCA
大家也都知道
主成分分析大家可能都用过
主成分分析
也是把一个数据分解成一个
把一组数据
然后分解成一个坐标轴的
坐标系的一个坐标
然后再乘上它的一个主成分
就是这样的一个东西
也就是说我们有一组字典
然后又有一组特征
然后把这个字典和特征组合
得到了一个对象
得到一个对象 这个是PCA
PCA跟傅里叶变换
有一个不太一样的地方
傅里叶变换是说我们之前的字典
原来这个字典
都是我人为定义好的
通过傅里叶这个人发现
傅里叶发现了这个东西
他这个人很聪明
他设计了一副字典
我们所有的信号
都可以表达成字典和一个特征
但是PCA是什么呢
PCA是我自己学出来的一个字典
我把一组数据
分解成了字典和特征
又有字典 又有特征
这是PCA做的 它是自动学的
去学的这样一个过程
所以自动化的特征学习有字典
其实自动化特征学习
就是将对象分解成一种字典的
线性组合
而线性组合就是一种
线性组合的权重就是有效特征
傅里叶变换是正交的字典
这就不在这儿多讲了
还有固定的字典
像傅里叶变换 小波变换
自学习的字典和PCA 和ICA
独立成分分析这些东西
前面讲了特征学习
这刚才是特征学习的一个概念
我们的线性回归又是做什么呢
线性回归是把一组一组的特征
做了一个加权
然后得到一个预测结果
这是我们的一个线性回归的工作
为什么讲这两个东西
就是说
如果我们把刚才这两个事情
结合起来看
我们做PCA 做主成分分析
或者做傅里叶变换
是把数据分解成字典乘以特征
倒过来的话
我们特征的话就等于数据
乘一个字典的逆
然后线性回归是什么
是把特征做了一个权重
把它组合起来等于一个结果
把中间这个结合起来
可以看 是这么一个过程
我们原始输入的数据
经过一个变换
所谓字典其实就是一个矩阵
矩阵变换之后变成了一组特征
这组特征的话
再经过一组权重的加权
得到了一个结果
大家看这是个什么东西
这就是个神经网络
所以神经网络怎么理解
为什么它中间多了一层之后
和别人就截然不同
就是因为它前半部分
你可以认为它前半部分来看
它是把数据
投影到了一个新的空间
这个空间就是把原始数据
经过字典变换之后
得到了一组新的特征
后面把这个特征
经过一个权重连接
得到了一个结果
这个东西比起
PCA也是这样
PCA是把我们原来的数据
变换成了主成分
得到一组新特征
然后不管了
新特征你爱干嘛干嘛去
它是两步走
第一步 先把它做PCA
第二步 你可能把PCA
连了一个线性组合
连了一个线性回归
这是常见的一个操作
两步走
然后傅里叶变换有时候也是这样
拿到一个信号之后
先做完傅里叶变换
把它的频率提出来
然后把这个频率后面
再输入一个什么信号处理器
比方说过一个滤波器
然后得到我们结果两步走
深度学习是什么呢
一步走
我前面做PCA 做特征提取的时候
我就知道我要一个什么结果
所以我在训练的时候
我是连字典和权重一块训练
同时得到一个
特别适合我这个分解结果的字典
就是有监督的PCA
其实是这样一个东西
就是这是数据 这是特征
这是数据 这是字典
这是学出来的特征
这是一个结果
所以说深度学习又有一个名字
叫做Representation Learning
表征学习
这个表征学习的意思
就是它要学出一组特征
学出一组所谓的表征
当我们深度学习的层数
足够多的时候
这个东西就变成了深度学习了
就是神经网络
从一层变成多层的深度学习
当然它要多少层算是深度
有些人说三层就算深度了
有的说五层都算深度了
有的说七层才算深度了
一般情况下七层差不多够了
后面我会给大家讲为什么七层
然后它这一层
深度学习它多层的一个好处
它的数据特征
是一层一层一层往上提取的
它可能是这样的
就是我们最初输入的原始图像
然后原始图像的话
它第一层提取边缘
第二层把边缘组合成形状
第三层把形状组合成部件
最后把部件拼出来成一个人
然后来识别他是不是马云
就是这样的一个过程
大家可以看到有些可视化
底层就是Pixels
然后提取中间层的话
就是一些边缘
到顶上层的话就是目标
像眼睛 鼻子
到顶上的话就是一些人脸
它一层一层组合的 是这样的
所以它这个提特征的层数的话
它每一层会形成一个新的特征
而像对于图像那种CNN的话
它也是一副图片输进去的
它一层一层都往外出来
都是那种图片 全部都是图片
都是图片的大小
都给拼起来的看
号称这个人的大脑
也是这样一层一层的
现在我们其实这个表征学习
有个什么用处
比方说我们大家住宾馆
现在都知道人脸比对 你知道吧
人脸比对 你想它怎么比对的
他拿着你身份证去扫一下
然后再拍一下你这个人脸
然后他没有去公安部去查
他把你这个人脸
抽象成了这样一个向量
然后再把你拍的这个照片
也抽象成向量
把身份证照片也抽象成一个向量
当两个向量的
比方说cos距离
小于一个值的时候
它就认为对了
它就认为你俩是一个人了
人证比对就合一了
它不用去联
它不用去公安部去查半天
它不干这个事了
因为身份证里面有一张照片
你自己有张照片
它就比对 人证合一比对
而它这里面的话还有一些
包括有些人脸识别的时候
也是这样
它不可能去查这么多
而且它怎么去训练这个模型
就是说它去训练
就给大量的
给好多好多一样的同一个人照片
然后让它输入和输出都是
输入是A 你
然后输出是身份证
输入是你 输出是身份证
然后把中间这个提出来就行了
对 它是把一个人的
比方一个人五张照片
都是同一个人
然后这五张照片
输入是这个人的照片
输入是这个人的另外一张照片
就反复去输
然后你是你
然后所有的人都这样
张三是张三 李四是李四
反正
这样的话它训练数据机会非常大
现在会是这样
所以说一般为什么八层的
有时候八层
为什么说八层
七个隐藏层就是深度
第一款深度学习模型AlexNet
就是八层
它在ImageNet上的错误率
是16.7% 当年的冠军
当年冠军的话
其实年年都有冠军 也不稀罕
它为什么当年冠军非常厉害
它这个16.4%
上一把好像是二十几
还是三十几的L
它把那L降低了10个百分点
这过去是零点几个百分点就赢了
它一把胜了10个百分点 太厉害了
然后后面的VGGNet
已经到了七点几 19层L
然后GoogleNet是6.7
GoogleNet的特点
就是有的层特别短 有的层特别深
这是误差是吗
对 这是误差 6.7%的误差
ResidualNet干出来之后到152层
比哈利法塔都大得多
看看这个东西
这个事情的话到底是不是
但是这个事我觉得也不是说
这个东西都怎么的了
这个就多么了不起
大家可以看一下
VGGNet的话
就是这个神经元
我们一个神经元
一共有多少个神经元
果蝇25万个
然后这个VGG19
就是19层的一个VGG网络的话
号称1400万个神经元
1400万个神经元
大概跟青蛙的水平差不多
人是90亿个神经元
其实要想达到这样的
沿这个路径去达到智能的话
如果说沿着这个路径
去达到智能的话
可能我们现在离智能的差距
还是挺大的
而且这是神经元 并不是参数
参数是神经元之间的连接数
这1400万个实际上是参数
还不是神经元
1400万个神经 1400万个参数
现在都说几亿个什么什么的
现在那些模型号称几亿个参数
那是参数
两个参数的话
神经元应该是
参数的数量是神经元的指数倍
因为两个 100个乘100
它的连接数就是1万了
我就在想
如果我有一只青蛙
让它看这个照片
看对了 它叫一声
它认为它是第一类它叫一声
然后第二类叫两声 第三类叫三声
它看对了我就喂它一只苍蝇
看错了我就打它一下
然后过一段时间
它是不是也能达到
很好的一个分类效果
我这是开一个脑洞
但是你又想到
可能猫没准就能干这个事
就能干这个事情了
因为猫的
1000多万个神经元
它还要干其它很多东西
它不光去识别这个照片了
可能猫这7亿个神经元
抽出1000多万个来干这事
其实挺容易的
它去做这个事情就可能会比较好
现在号称这个已经比人强了
这个性能已经在人的
比人识别的性能要好
-1.1 城市及城市科学的发展演变
--课程视频
-1.2 新城市科学的提出
--课程视频
-1.3 相关研究机构 、期刊和课程
--课程视频
-1.4 变化中的城市
--课程视频
-课程讲义
-课后讨论
-课后练习1
-2.1 城市概念的定义
--课程视频
-2.2 城市正在发生的变化:驱动力
--课程视频
-2.3 城市正在发生的变化:产品/服务
--课程视频
-2.4 城市正在发生的变化:城市空间
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习2
-3.1 为什么强调地理思维
--课程视频
-3.2 地理思维应用的基础
--课程视频
-3.3 如何应用地理思维
--课程视频
-3.4 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习3
-4.1 我所理解的新城市科学
--课程视频
-4.2 新城市科学的机遇
--课程视频
-4.3 新城市科学下的规划治理
--课程视频
-4.4 新城市科学下的社区实践
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习4
-5.1 从数字孪生到数字孪生城市
--课程视频
-5.2 数字孪生城市的系统认知
--课程视频
-5.3 数字孪生城市的实践突破
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习5
-6.1 前言
--课程视频
-6.2 机器学习
--课程视频
-6.3 深度学习
--课程视频
-6.4 城市科学当中的应用
--课程视频
-6.5 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习6
-7.1 前言
--课程视频
-7.2 物联网(1)
--课程视频
-7.3 物联网(2)
--课程视频
-7.4 基于物联网的相关案例
--课程视频
-7.5 基于穿戴式设备的相关案例
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习7
-8.1 前言
--课程视频
-8.2 智慧城市:ICT技术驱动的空间变革
--课程视频
-8.3 智慧城市:从大脑到神经系统的改造之路
--课程视频
-8.4 城市数据:从问题洞察到管理与运营工具
--课程视频
-8.5 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习8
-9.1 数据介绍
--课程视频
-9.2 商圈识别、分类与评价
--课程视频
-9.3 项目介绍与产品升级
--课程视频
-9.4 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习9
-10.1 人本尺度城市形态:定义
--课程视频
-10.2 人本尺度城市形态:理论
--课程视频
-10.3 人本尺度城市形态:方法
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习10
-11.1 大数据+城市科学
--课程视频
-11.2 计算社会科学:方法论
--课程视频
-11.3 计算社会科学:方法与议题
--课程视频
-11.4 计算社会科学:前沿应用
--课程视频
-课程讲义
-课后讨论
-课外阅读
-课后练习11
-12.1 未来城市:空间干预与数字创新
--课程视频
-12.2 未来城市:认识论和方法论
--课程视频
-12.3 案例分享
--课程视频
-课程讲义
-课后讨论
-课外阅读
-课后练习12
-课程视频
-课后讨论