当前课程知识点:智能时代下的创新创业实践 > 第三章智能时代的创新技术 > 3.3机器是如何学习的? > 3.39
好接着我们再来看一下
机器学习的学习路线图
我们建议的步骤是这样
首先从监督学习开始
然后可以跟进无监督学习方面的知识
最后来理解增强学习
监督学习是指
在样本数据里有输入x
一定就有一个明确的输出值
y与它相对应
也就是
我们针对这个输入x
明确的标记了相应的输出
比如输入的照片是一张猴子
那么在输出样本里
标记成monkey
同样输入的是猫的照片
那么我们输出的标记就是cat
这个标记的过程就是所谓的监督
因此监督学习里
每一个输入都有确定的输出与之对应
刚才我们讲的专业匹配的例子里
每一个研究型特征值
都有和它对应的专业匹配度
这就是监督学习的例子
那么刚才的例子
是线性回归的例子
在监督学习里还有所谓的
分类的问题
比如样本里的输入对应的输出
并不是连续的值
它可能是一个离散的值
这种情况就是分类
比如我们用
线性模型来做一个银行贷款的数学模型
特征值是顾客的年薪
工作等参数
而输出是这个顾客能否得到贷款的判断
这就是一个离散的输出了
当然
深度神经网络
实际上是一个分类器
比如
在做围棋游戏的智能机器人的时候
我们可以把落子策略看成
19*19这样一个输出的分类器
当我们输入一个盘面的时候
游戏机器人会通过神经网络
计算出每个落子点
能够取得胜利的概率
因此
游戏机器人可以通过这个概率
来判断获胜概率最高的那个落子点
这是监督学习的分类问题
接下来是无监督学习
无监督学习与监督学习是相对的概念
在无监督学习里
针对样本数据x
可能并没有
相对应的明确的输出
也就是没有对样本打上标签
比如我们要去某一个国家旅行
之前呢有大概一个月的时间
可以学一下当地的语言
但是没有老师教我们
只有当地语言的歌曲
很多
而这些歌曲并没有相对应的翻译
也就是说
我们并不知道这些歌曲里说的是什么
那么这种没有标记的信息
能够帮助我们学习吗
答案是肯定的
比如我们发现在歌曲比较欢快的时候
会高频率的出现某一个词
我们就猜想可能这个词
和愉快的情绪是有关系的
我们再用硬币分类的例子来加以说明
比如我需要把一堆硬币进行分类
这些硬币有1分的
5分的
10分的还有25分的
我们把硬币的大小用x1表示
硬币的重量用x2表示
并且把它们放进x1和x2
组成的一个二维坐标系里
如果是监督学习的情况
那么每一个对应的坐标组合
都可以有一个明确的对应的面值
比如在这张图里
这一块的样本就是25枚分的
这一块是5枚分的等等
我们可以用一些直线
来做为分类的界限
但是在无监督的情况下
我们不知道这些样本对应的具体面值
这些样本就没有标记面值
虽然没有标记
但是我们仍然可以
通过对样本的观察得到启示
我们可以从这张
样本图里面找到一些规律
我们看到
某些样本聚集在某一个区域
而另一些样本则聚集在了另一个区域
而且
随着样本的增多
这种聚集的现象会越来越明显
这些区域之间
似乎就出现了明确的分隔边界
所以
虽然我们仍然不知道这些样本表示什么
但是通过对样本信息的分析
足以让我们把
这些样本之间的分类线找到
这就是为什么我们仍然可以在
无标记的情况下学习的原因
无监督学习里聚类算法是比较有帮助的
比如k-mean聚类算法
在增强智能那一讲
我们曾经讲到西夏文字的识别案例
正是用了无监督学习的方法
因为大家并不知道那些
西夏文字的确切含义
所以无法进行标记
最后是关于增强学习的
那么在增强学习里
针对输入数据x
可能会有一些输入值标记好了对应的输出值
但只是一部分数据做了这样的处理
同时
我们会得到一些特别的信息
就是针对对这些输出值的评价
也就是说
增强学习得到数学模型的方式
是与这些评价是有关系的
让我们看看
监督学习和增强学习之间的区别在哪里
我用一个生活中的例子来说明
我有一个5岁的小孩在学习跳街舞
如果在监督学习情况下
老师会教给他一个动作
并给这个动作打上一个标签
告诉他这个动作叫什么
这样
他就可以得到
跳舞姿势和动作名字之间的关系了
通过学习
他可以把所学的这个动作和名字对应起来
这是典型的监督学习
但这种方法对他
跳舞成绩的提高是没什么直接帮助的
如果运用增强学习的方式
当他学习一个跳舞姿势的时候
老师不仅会告诉他这个姿势的名字
关键是会对他学习这个姿势的正确与否
给出一个评价和奖励
比如
这个姿势如果学得好
就给出10分的奖励
另一个姿势学得不到位就不给奖励
还有的姿势比较差那就减去10分
通过这样不断的交互后
我的儿子慢慢就开始了解到了
学好动作的策略
那么开始通过反馈
和评价来纠正自己的动作
往老师希望的方向来学习了
这种方式就是增强学习
通过增强学习是可以提高他的跳舞成绩的
这种方式的特点
就是通过与环境的不断交互形成策略
这是典型的行为主义的方式
另外
策略的形成和外界对你的评价是有关系的
就是通过奖惩措施
和反复的交互来形成最后的策略
这是增强学习的核心
因为增强学习
能够不断的提高智能代理的成绩
因此
这种方式也常被用在
游戏博弈当中来提高博弈机器人的水平
AlphaGo能够不断从博弈中提高成绩
得到更准确的策略模型
也是因为应用了增强学习的缘故
-0.1我们为什么设计这门课
--0.1
-0.2我们聊什么
--0.2
-0.3你们能学到什么
--0.3
-短片:AlphaGo
--Alphago
-1.1本章概述
--1.1
-1.2人与机器的本质区别
--1.21
--1.22
--1.23
-1.3我们会被智能机器抢了饭碗吗
--1.31
--1.32
--1.33
-1.4人和智能机器的和谐之道-增强智能
--1.41
--1.42
--1.43
--1.44
--1.45
--1.46
--1.47
-1.5项目指南一:如何找到好的项目
--1.51
--1.52
--1.53
--1.54
--1.55
-第一章测试
-2.1本章概述
--2.1
-2.2创业能力模型
--2.21
--2.22
--2.23
--2.34
--2.25
--2.26
--2.27
--2.28
--2.29
-2.3创新是人类的本能
--2.31
--2.32
--2.33
-2.4创新能力培养——创新心智模式
--2.41
--2.42
--2.43
--2.44
--2.45
--2.46
-2.5创新能力要素培养-思维方式
--2.51
--2.52
--2.53
--2.54
--2.55
-2.6项目指南二:创新项目的开发
--2.61
--2.62
--2.63
-2.7互联网心理学
--2.7
-第二章测试
-3.1本章概述
--3.1
-3.2机器有“智慧”吗?
--3.21
--3.22
--3.23
--3.24
--3.25
--3.26
--3.27
-3.3机器是如何学习的?
--3.31
--3.32
--3.33
--3.34
--3.35
--3.36
--3.37
--3.38
--3.39
--3.310
-3.4智能技术带来的认知升级
--3.41
--3.42
--3.43
--3.44
--3.45
-3.5项目指南三:投资者和创始人的心得经验
--3.51
--3.52
--3.53
--3.54
--3.55
-第三章测试