当前课程知识点:智能时代下的创新创业实践 >  第三章智能时代的创新技术 >  3.3机器是如何学习的? >  3.39

返回《智能时代下的创新创业实践》慕课在线视频课程列表

3.39在线视频

3.39

下一节:3.310

返回《智能时代下的创新创业实践》慕课在线视频列表

3.39课程教案、知识点、字幕

好接着我们再来看一下

机器学习的学习路线图

我们建议的步骤是这样

首先从监督学习开始

然后可以跟进无监督学习方面的知识

最后来理解增强学习

监督学习是指

在样本数据里有输入x

一定就有一个明确的输出值

y与它相对应

也就是

我们针对这个输入x

明确的标记了相应的输出

比如输入的照片是一张猴子

那么在输出样本里

标记成monkey

同样输入的是猫的照片

那么我们输出的标记就是cat

这个标记的过程就是所谓的监督

因此监督学习里

每一个输入都有确定的输出与之对应

刚才我们讲的专业匹配的例子里

每一个研究型特征值

都有和它对应的专业匹配度

这就是监督学习的例子

那么刚才的例子

是线性回归的例子

在监督学习里还有所谓的

分类的问题

比如样本里的输入对应的输出

并不是连续的值

它可能是一个离散的值

这种情况就是分类

比如我们用

线性模型来做一个银行贷款的数学模型

特征值是顾客的年薪

工作等参数

而输出是这个顾客能否得到贷款的判断

这就是一个离散的输出了

当然

深度神经网络

实际上是一个分类器

比如

在做围棋游戏的智能机器人的时候

我们可以把落子策略看成

19*19这样一个输出的分类器

当我们输入一个盘面的时候

游戏机器人会通过神经网络

计算出每个落子点

能够取得胜利的概率

因此

游戏机器人可以通过这个概率

来判断获胜概率最高的那个落子点

这是监督学习的分类问题

接下来是无监督学习

无监督学习与监督学习是相对的概念

在无监督学习里

针对样本数据x

可能并没有

相对应的明确的输出

也就是没有对样本打上标签

比如我们要去某一个国家旅行

之前呢有大概一个月的时间

可以学一下当地的语言

但是没有老师教我们

只有当地语言的歌曲

很多

而这些歌曲并没有相对应的翻译

也就是说

我们并不知道这些歌曲里说的是什么

那么这种没有标记的信息

能够帮助我们学习吗

答案是肯定的

比如我们发现在歌曲比较欢快的时候

会高频率的出现某一个词

我们就猜想可能这个词

和愉快的情绪是有关系的

我们再用硬币分类的例子来加以说明

比如我需要把一堆硬币进行分类

这些硬币有1分的

5分的

10分的还有25分的

我们把硬币的大小用x1表示

硬币的重量用x2表示

并且把它们放进x1和x2

组成的一个二维坐标系里

如果是监督学习的情况

那么每一个对应的坐标组合

都可以有一个明确的对应的面值

比如在这张图里

这一块的样本就是25枚分的

这一块是5枚分的等等

我们可以用一些直线

来做为分类的界限

但是在无监督的情况下

我们不知道这些样本对应的具体面值

这些样本就没有标记面值

虽然没有标记

但是我们仍然可以

通过对样本的观察得到启示

我们可以从这张

样本图里面找到一些规律

我们看到

某些样本聚集在某一个区域

而另一些样本则聚集在了另一个区域

而且

随着样本的增多

这种聚集的现象会越来越明显

这些区域之间

似乎就出现了明确的分隔边界

所以

虽然我们仍然不知道这些样本表示什么

但是通过对样本信息的分析

足以让我们把

这些样本之间的分类线找到

这就是为什么我们仍然可以在

无标记的情况下学习的原因

无监督学习里聚类算法是比较有帮助的

比如k-mean聚类算法

在增强智能那一讲

我们曾经讲到西夏文字的识别案例

正是用了无监督学习的方法

因为大家并不知道那些

西夏文字的确切含义

所以无法进行标记

最后是关于增强学习的

那么在增强学习里

针对输入数据x

可能会有一些输入值标记好了对应的输出值

但只是一部分数据做了这样的处理

同时

我们会得到一些特别的信息

就是针对对这些输出值的评价

也就是说

增强学习得到数学模型的方式

是与这些评价是有关系的

让我们看看

监督学习和增强学习之间的区别在哪里

我用一个生活中的例子来说明

我有一个5岁的小孩在学习跳街舞

如果在监督学习情况下

老师会教给他一个动作

并给这个动作打上一个标签

告诉他这个动作叫什么

这样

他就可以得到

跳舞姿势和动作名字之间的关系了

通过学习

他可以把所学的这个动作和名字对应起来

这是典型的监督学习

但这种方法对他

跳舞成绩的提高是没什么直接帮助的

如果运用增强学习的方式

当他学习一个跳舞姿势的时候

老师不仅会告诉他这个姿势的名字

关键是会对他学习这个姿势的正确与否

给出一个评价和奖励

比如

这个姿势如果学得好

就给出10分的奖励

另一个姿势学得不到位就不给奖励

还有的姿势比较差那就减去10分

通过这样不断的交互后

我的儿子慢慢就开始了解到了

学好动作的策略

那么开始通过反馈

和评价来纠正自己的动作

往老师希望的方向来学习了

这种方式就是增强学习

通过增强学习是可以提高他的跳舞成绩的

这种方式的特点

就是通过与环境的不断交互形成策略

这是典型的行为主义的方式

另外

策略的形成和外界对你的评价是有关系的

就是通过奖惩措施

和反复的交互来形成最后的策略

这是增强学习的核心

因为增强学习

能够不断的提高智能代理的成绩

因此

这种方式也常被用在

游戏博弈当中来提高博弈机器人的水平

AlphaGo能够不断从博弈中提高成绩

得到更准确的策略模型

也是因为应用了增强学习的缘故

智能时代下的创新创业实践课程列表:

绪章导论

-0.1我们为什么设计这门课

--0.1

-0.2我们聊什么

--0.2

-0.3你们能学到什么

--0.3

第一章人工智能时代的机遇与挑战

-短片:AlphaGo

--Alphago

-1.1本章概述

--1.1

-1.2人与机器的本质区别

--1.21

--1.22

--1.23

-1.3我们会被智能机器抢了饭碗吗

--1.31

--1.32

--1.33

-1.4人和智能机器的和谐之道-增强智能

--1.41

--1.42

--1.43

--1.44

--1.45

--1.46

--1.47

-1.5项目指南一:如何找到好的项目

--1.51

--1.52

--1.53

--1.54

--1.55

-第一章测试

第二章创新创业能力训练

-2.1本章概述

--2.1

-2.2创业能力模型

--2.21

--2.22

--2.23

--2.34

--2.25

--2.26

--2.27

--2.28

--2.29

-2.3创新是人类的本能

--2.31

--2.32

--2.33

-2.4创新能力培养——创新心智模式

--2.41

--2.42

--2.43

--2.44

--2.45

--2.46

-2.5创新能力要素培养-思维方式

--2.51

--2.52

--2.53

--2.54

--2.55

-2.6项目指南二:创新项目的开发

--2.61

--2.62

--2.63

-2.7互联网心理学

--2.7

-第二章测试

第三章智能时代的创新技术

-3.1本章概述

--3.1

-3.2机器有“智慧”吗?

--3.21

--3.22

--3.23

--3.24

--3.25

--3.26

--3.27

-3.3机器是如何学习的?

--3.31

--3.32

--3.33

--3.34

--3.35

--3.36

--3.37

--3.38

--3.39

--3.310

-3.4智能技术带来的认知升级

--3.41

--3.42

--3.43

--3.44

--3.45

-3.5项目指南三:投资者和创始人的心得经验

--3.51

--3.52

--3.53

--3.54

--3.55

-第三章测试

3.39笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。