当前课程知识点:5G与人工智能 >  第四章 Al, GOGOGO! >  4.5 深度学习AlphaGo (1) >  4.5 深度学习AlphaGo (1)

返回《5G与人工智能》慕课在线视频课程列表

4.5 深度学习AlphaGo (1)在线视频

下一节:4.6 深度学习AlphaGo(2)

返回《5G与人工智能》慕课在线视频列表

4.5 深度学习AlphaGo (1)课程教案、知识点、字幕

AlphaGo(阿尔法围棋)

整个架构分成左右两部分

左边是两个神经网络

利用人类的走棋来训练得到

DeepMind获取了韩国网络围棋

对抗平台KGS上大量高手走棋的棋谱

并训练左边的神经网络

来预测人类下一步的走棋

右侧的部分则是不需要

借鉴人类下棋的经验

机器完全通过强化学习

自己跟自己玩从而

训练网络达到强大的水平

据说

现在的AlphaGo是升级版本的

它已经完全抛弃了基于人类专家

下棋经验的走棋网络(左边)

而只剩下了AlphaGo左右

互博的强化学习部分

我们就主要讲讲右半部分

左右互搏的AlphaGo

首先

我们可以将AlphaGo

看作是一个机器人

棋盘加对手就是它所面临的环境

AlphaGo需要学习的就是在

面对不同环境的时候

它应该如何进行决策

也就是给出下一时刻的走棋

我们把这种从当前棋局决定

我应该走到哪里的

对应称作一个策略(Policy)

AlphaGo通过大量的

自己跟自己下棋从而得到

这样的一个走棋策略

具体的方法是

我们首先构造

一个深度的卷积神经网络(称为走棋网络)

输入的是棋盘状态所构成的一张二维图片

输出的则是AlphaGo下一步的走法

如下图所示

我们知道

深度卷积神经网络非常擅长处理图像

它不仅可以敏锐地辨别

图像属于不同的类别

而且还可以提炼出图像中的多层次信息

例如

当我们把大量的图片喂给

卷积神经网络的时候

它就可以在低层的网络

提炼图像中的细节信息(如边缘、棱角)

而在高层则处理图像中的大尺度信息

之所以在和李世石的世纪大战中

AlphaGo展现出了某种大局观

就是因为卷积神经网络可以

提炼棋局中的大尺度

高层次信息

有了这样的网络架构

我们就要训练这个网络了

然而

卷积神经网络的训练

是需要有监督信息的

而我们知道围棋是

一种无监督的博弈

AlphaGo只有在走完了

整个棋局才能获得反馈

怎么办呢

答案就在于左右互博

我们可以让当前的AlphaGo

和它自己来进行比赛

走到终点

这样不就可以获得反馈信息了

具体地说

我们可以用同一个走

棋网络的两个副本完成

两个AlphaGo的博弈

然后让其中的一个AlphaGo

进行学习

这样

每从一个棋局S开始

AlphaGo和它自己的

副本完成了对局

就会获得一个输赢的得分

然后它再从S开始

再下到棋局结束

一共进行3千万次

由于每一次走棋都是有随机性的

所以每次的得分都会不一样

有的时候AlphaGo可能赢

有的时候则可能是输

于是针对一个棋局S

我们就可以计算

这三千万盘棋的平均得分

我们把这个平均得分作为目标

来训练卷积神经网络

实现这个目标的最大化

于是

我们就用左右互搏的方式

训练出了一个走棋网络

然而

单纯依靠这样的走棋网络

AlphaGo虽然已经很强

但还没有强到能

对抗人类围棋九段高手的地步

这个时候DeepMind团队的科学家们

想出了另外一种强化学习手段

这就是价值网络

什么是价值呢

我们都知道

人类是有自己的价值观的

比如

我们每个人都知道尊老爱幼是

一种美德

这就是价值观

对于一个强化学习的程序来说

由于在很多情况下

它缺乏环境给它的反馈

于是人们就给程序设计了一种价值函数

在没有环境反馈信息的时候

程序可以根据这个

价值函数来选择自己的行动

让价值最大化

但难点是

我们应该怎么设计这个价值函数呢

答案是

让机器自己把这个函数学到

在AlphaGo中

它同样是依赖于

类似于走棋网络的方法

来学习出一个价值函数的

这个函数能够评定

每一个棋局的可能获胜的价值有多大

AlphaGo仍然利用了

一种卷积神经网络的技术

来实现这个价值函数

如下图所示

同样的这个价值网络的反馈

信息也来源于从任意

一个棋局开始的左右互搏

在训练的阶段

AlphaGo从当前棋局

开始运用上面已经训练

好的走棋网络走棋

一直下到结尾而得到输赢的得分

这么做三千万次后计算

平均得分z就是价值网络的学习目标

也就是说价值网络要

根据当前棋局S'得到价值判断v(S')

以使得v(S')要尽可能地靠近z

引入了价值网络之后

我们又会面临新的问题

我们究竟是应用走棋网络

来指导我们下棋

还是依赖于价值网络呢

在AlphaGo的早期版本中

它是运用价值网络的评估结果来

作为AlphaGo走棋的主要参考的

但由于价值网络在计算

每一个棋局的平均得分的时候

每一次走棋都是根据走棋网络进行的

所以其实价值网络已经综合了走棋网络

5G与人工智能课程列表:

课程简介

-课程简介

--Video

第一章 人类的密友还是对手?

-1.1 未来什么职业会被取代?

--1.1 未来什么职业会被取代?

--1.1扩展阅读

--1.1 讨论

-1.1 测试 未来什么职业会被取代?

-1.2 人工智能在哪里

--1.2 人工智能在哪里

--讨论:找寻日常生活中的人工智能应用

-1.2 测试 人工智能在哪里

-1.3 强人工智能和弱人工智能

--1.3 强人工智能和弱人工智能

--1.3 补充材料

-1.3 测试 强人工智能和弱人工智能

-1.4 人工智能靠什么实现?

--1.4 人工智能靠什么实现?

-1.4 测试 人工智能靠什么实现?

-1.5 5G和人工智能有何关系?

--1.5 5G和人工智能有何关系?

--1.5 补充材料

-1.5 测试 5G和人工智能有何关系?

第二章 五代十国之争

-2.1 5G,你是不是只比4G多1G?

--2.1 5G,你是不是只比4G多1G?

--5G与4G的根本区别在哪里呢?

-2.1测试 5G,你是不是只比4G多1G?

-2.2 5G,初见

--2.2 5G,初见

--本小节你有哪些不懂的地方,欢迎在留言板提问哦

-2.2测试 5G,初见

-2.3 5G,五代十国的史诗

--2.3 5G,五代十国的史诗

--看视频回答问题

-2.3测试 5G,五代十国的史诗

-2.4 五代是哪五代?

--2.4 五代是哪五代?

-2.4测试 五代是哪五代?

-2.5 5G的三大场景

--2.5 5G的三大场景

-2.5 5G的三大场景--作业

-2.6 五代(5G)演进到哪儿啦?

--2.6 五代(5G)演进到哪儿啦?

-2.6测试 五代(5G)演进到哪儿啦?

-2.7 马上就要来到的5G,我能做什么产品?

--2.7 马上就要来到的5G,我能做什么产品?

--2.7 扩展阅读

-2.7 测试马上就要来到的5G,我能做什么产品?

-2.8 围咖夜话(专家访谈)

--2.8 围咖夜话(专家访谈)

-2.8测试 围咖夜话(专家访谈)

第三章 5G以前的故事

-3.1 3G之母(多址 核心技术 CDMA)上

--3.1 3G之母(多址 核心技术 CDMA)上

--5G时代,我们做这些是无用功么?

-3.1测试 3G之母(多址 核心技术 CDMA)上

-3.2 3G之母(多址 核心技术 CDMA)下

--3.2 3G之母(多址 核心技术 CDMA)下

-3.2测试 3G之母(多址 核心技术 CDMA)下

-3.3 高个爸爸与大盗

--3.3 高个爸爸与大盗

-3.3测试 高个爸爸与大盗

-3.4 4G的变局,半路杀出的Wi

--3.4 4G的变局,半路杀出的Wi

-3.4测试 4G的变局,半路杀出的Wi

-3.5 4G的核心技术

--3.5 4G的核心技术

-3.5测试 4G的核心技术

-3.6 羞涩的4G,前进的5G

--3.6 羞涩的4G,前进的5G

-3.6 测试 羞涩的4G,前进的5G

-3.7 5G网络架构

--3.7 5G网络架构

-3.7测试 5G网络架构

-3.8 围咖夜话(专家访谈)

--3.8 围咖夜话(专家访谈)

-3.8测试 围咖夜话(专家访谈)

第四章 Al, GOGOGO!

-4.1 我们来说说“狗”

--4.1 我们来说说“狗”

-4.1测试 我们来说说“狗”

-4.2 《阿尔法狗》前世今生

--4.2 《阿尔法狗》前世今生

-4.2测试《阿尔法狗》前世今生

-4.3 AlphaGo 的原理

--4.3 AlphaGo 的原理

-4.3测试 AlphaGo 的原理

-4.4 阿尔法狗和我们有什么关系?

--4.4 阿尔法狗和我们有什么关系?

-4.4测试 阿尔法狗和我们有什么关系?

-4.5 深度学习AlphaGo (1)

--4.5 深度学习AlphaGo (1)

-4.5测试 深度学习AlphaGo (1)

-4.6 深度学习AlphaGo(2)

--4.6 深度学习AlphaGo(2)

-4.6测试 深度学习AlphaGo(2)

第五章 可以读的视觉

-5.1 无处不在的感知

--5.1 无处不在的感知

-5.1测试 无处不在的感知

-5.2 5G和视觉

--5.2 5G和视觉

-5.2测试 5G和视觉

-5.3 AI视觉,靠脸吃饭

--5.3 AI视觉,靠脸吃饭

-5.3测试 AI视觉,靠脸吃饭

-5.4 如何应对伪造者?

--5.4 如何应对伪造者?

--5.4 扩展阅读

-5.4测试 如何应对伪造者?

-5.5 手机上的视觉

--5.5 手机上的视觉

-5.5测试 手机上的视觉

第六章 自动驾驶

-6.1 自动驾驶,离得不远

--6.1 自动驾驶,离得不远

-6.1测试 自动驾驶,离得不远

-6.2 无人驾驶实现有多难

--6.2 无人驾驶实现有多难

-6.2测试 无人驾驶实现有多难

-6.3 自动驾驶也有等级

--6.3 自动驾驶也有等级

-6.3测试 自动驾驶也有等级

-6.4 无人车的视觉

--6.4 无人车的视觉

-6.4测试 无人车的视觉

-6.5 自动驾驶和5G的关系(1)

--6.5 自动驾驶和5G的关系(1)

-6.5测试 自动驾驶和5G的关系(1)

-6.6 自动驾驶和5G的关系(2)

--6.6 自动驾驶和5G的关系(2)

-6.6测试 自动驾驶和5G的关系(2)

-6.7 围咖夜话 (专家访谈)

--6.7 围咖夜话 (专家访谈)

期末考试

-期末考试--试题

4.5 深度学习AlphaGo (1)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。