当前课程知识点:5G与人工智能 > 第四章 Al, GOGOGO! > 4.5 深度学习AlphaGo (1) > 4.5 深度学习AlphaGo (1)
AlphaGo(阿尔法围棋)
整个架构分成左右两部分
左边是两个神经网络
利用人类的走棋来训练得到
DeepMind获取了韩国网络围棋
对抗平台KGS上大量高手走棋的棋谱
并训练左边的神经网络
来预测人类下一步的走棋
右侧的部分则是不需要
借鉴人类下棋的经验
机器完全通过强化学习
自己跟自己玩从而
训练网络达到强大的水平
据说
现在的AlphaGo是升级版本的
它已经完全抛弃了基于人类专家
下棋经验的走棋网络(左边)
而只剩下了AlphaGo左右
互博的强化学习部分
我们就主要讲讲右半部分
左右互搏的AlphaGo
首先
我们可以将AlphaGo
看作是一个机器人
棋盘加对手就是它所面临的环境
AlphaGo需要学习的就是在
面对不同环境的时候
它应该如何进行决策
也就是给出下一时刻的走棋
我们把这种从当前棋局决定
我应该走到哪里的
对应称作一个策略(Policy)
AlphaGo通过大量的
自己跟自己下棋从而得到
这样的一个走棋策略
具体的方法是
我们首先构造
一个深度的卷积神经网络(称为走棋网络)
输入的是棋盘状态所构成的一张二维图片
输出的则是AlphaGo下一步的走法
如下图所示
我们知道
深度卷积神经网络非常擅长处理图像
它不仅可以敏锐地辨别
图像属于不同的类别
而且还可以提炼出图像中的多层次信息
例如
当我们把大量的图片喂给
卷积神经网络的时候
它就可以在低层的网络
提炼图像中的细节信息(如边缘、棱角)
而在高层则处理图像中的大尺度信息
之所以在和李世石的世纪大战中
AlphaGo展现出了某种大局观
就是因为卷积神经网络可以
提炼棋局中的大尺度
高层次信息
有了这样的网络架构
我们就要训练这个网络了
然而
卷积神经网络的训练
是需要有监督信息的
而我们知道围棋是
一种无监督的博弈
AlphaGo只有在走完了
整个棋局才能获得反馈
怎么办呢
答案就在于左右互博
我们可以让当前的AlphaGo
和它自己来进行比赛
走到终点
这样不就可以获得反馈信息了
具体地说
我们可以用同一个走
棋网络的两个副本完成
两个AlphaGo的博弈
然后让其中的一个AlphaGo
进行学习
这样
每从一个棋局S开始
AlphaGo和它自己的
副本完成了对局
就会获得一个输赢的得分
然后它再从S开始
再下到棋局结束
一共进行3千万次
由于每一次走棋都是有随机性的
所以每次的得分都会不一样
有的时候AlphaGo可能赢
有的时候则可能是输
于是针对一个棋局S
我们就可以计算
这三千万盘棋的平均得分
我们把这个平均得分作为目标
来训练卷积神经网络
实现这个目标的最大化
于是
我们就用左右互搏的方式
训练出了一个走棋网络
然而
单纯依靠这样的走棋网络
AlphaGo虽然已经很强
但还没有强到能
对抗人类围棋九段高手的地步
这个时候DeepMind团队的科学家们
想出了另外一种强化学习手段
这就是价值网络
什么是价值呢
我们都知道
人类是有自己的价值观的
比如
我们每个人都知道尊老爱幼是
一种美德
这就是价值观
对于一个强化学习的程序来说
由于在很多情况下
它缺乏环境给它的反馈
于是人们就给程序设计了一种价值函数
在没有环境反馈信息的时候
程序可以根据这个
价值函数来选择自己的行动
让价值最大化
但难点是
我们应该怎么设计这个价值函数呢
答案是
让机器自己把这个函数学到
在AlphaGo中
它同样是依赖于
类似于走棋网络的方法
来学习出一个价值函数的
这个函数能够评定
每一个棋局的可能获胜的价值有多大
AlphaGo仍然利用了
一种卷积神经网络的技术
来实现这个价值函数
如下图所示
同样的这个价值网络的反馈
信息也来源于从任意
一个棋局开始的左右互搏
在训练的阶段
AlphaGo从当前棋局
开始运用上面已经训练
好的走棋网络走棋
一直下到结尾而得到输赢的得分
这么做三千万次后计算
平均得分z就是价值网络的学习目标
也就是说价值网络要
根据当前棋局S'得到价值判断v(S')
以使得v(S')要尽可能地靠近z
引入了价值网络之后
我们又会面临新的问题
我们究竟是应用走棋网络
来指导我们下棋
还是依赖于价值网络呢
在AlphaGo的早期版本中
它是运用价值网络的评估结果来
作为AlphaGo走棋的主要参考的
但由于价值网络在计算
每一个棋局的平均得分的时候
每一次走棋都是根据走棋网络进行的
所以其实价值网络已经综合了走棋网络
-课程简介
--Video
-1.1 未来什么职业会被取代?
--1.1扩展阅读
--1.1 讨论
-1.1 测试 未来什么职业会被取代?
-1.2 人工智能在哪里
-1.2 测试 人工智能在哪里
-1.3 强人工智能和弱人工智能
--1.3 补充材料
-1.3 测试 强人工智能和弱人工智能
-1.4 人工智能靠什么实现?
-1.4 测试 人工智能靠什么实现?
-1.5 5G和人工智能有何关系?
--1.5 补充材料
-1.5 测试 5G和人工智能有何关系?
-2.1 5G,你是不是只比4G多1G?
-2.1测试 5G,你是不是只比4G多1G?
-2.2 5G,初见
-2.2测试 5G,初见
-2.3 5G,五代十国的史诗
--看视频回答问题
-2.3测试 5G,五代十国的史诗
-2.4 五代是哪五代?
-2.4测试 五代是哪五代?
-2.5 5G的三大场景
-2.5 5G的三大场景--作业
-2.6 五代(5G)演进到哪儿啦?
-2.6测试 五代(5G)演进到哪儿啦?
-2.7 马上就要来到的5G,我能做什么产品?
--2.7 扩展阅读
-2.7 测试马上就要来到的5G,我能做什么产品?
-2.8 围咖夜话(专家访谈)
-2.8测试 围咖夜话(专家访谈)
-3.1 3G之母(多址 核心技术 CDMA)上
-3.1测试 3G之母(多址 核心技术 CDMA)上
-3.2 3G之母(多址 核心技术 CDMA)下
-3.2测试 3G之母(多址 核心技术 CDMA)下
-3.3 高个爸爸与大盗
-3.3测试 高个爸爸与大盗
-3.4 4G的变局,半路杀出的Wi
-3.4测试 4G的变局,半路杀出的Wi
-3.5 4G的核心技术
-3.5测试 4G的核心技术
-3.6 羞涩的4G,前进的5G
-3.6 测试 羞涩的4G,前进的5G
-3.7 5G网络架构
-3.7测试 5G网络架构
-3.8 围咖夜话(专家访谈)
-3.8测试 围咖夜话(专家访谈)
-4.1 我们来说说“狗”
-4.1测试 我们来说说“狗”
-4.2 《阿尔法狗》前世今生
-4.2测试《阿尔法狗》前世今生
-4.3 AlphaGo 的原理
-4.3测试 AlphaGo 的原理
-4.4 阿尔法狗和我们有什么关系?
-4.4测试 阿尔法狗和我们有什么关系?
-4.5 深度学习AlphaGo (1)
-4.5测试 深度学习AlphaGo (1)
-4.6 深度学习AlphaGo(2)
-4.6测试 深度学习AlphaGo(2)
-5.1 无处不在的感知
-5.1测试 无处不在的感知
-5.2 5G和视觉
-5.2测试 5G和视觉
-5.3 AI视觉,靠脸吃饭
-5.3测试 AI视觉,靠脸吃饭
-5.4 如何应对伪造者?
--5.4 扩展阅读
-5.4测试 如何应对伪造者?
-5.5 手机上的视觉
-5.5测试 手机上的视觉
-6.1 自动驾驶,离得不远
-6.1测试 自动驾驶,离得不远
-6.2 无人驾驶实现有多难
-6.2测试 无人驾驶实现有多难
-6.3 自动驾驶也有等级
-6.3测试 自动驾驶也有等级
-6.4 无人车的视觉
-6.4测试 无人车的视觉
-6.5 自动驾驶和5G的关系(1)
-6.5测试 自动驾驶和5G的关系(1)
-6.6 自动驾驶和5G的关系(2)
-6.6测试 自动驾驶和5G的关系(2)
-6.7 围咖夜话 (专家访谈)
-期末考试--试题