当前课程知识点:5G与人工智能 > 第四章 Al, GOGOGO! > 4.6 深度学习AlphaGo(2) > 4.6 深度学习AlphaGo(2)
即使这样综合了两者的意见
AlphaGo还是不能达到九段的水平
因为它不能像围棋高手
一样进行虚拟走棋
我们人类在下棋的时候
总会从当前的棋局开始
往前看几步
然后才决定当前这一步的走法
所以
在实际开始下棋的时候
DeepMind再借用了一个大招
这就是蒙特卡洛树搜索
这种算法可以让AlphaGo
进行虚拟地走棋
从而在一定搜索步骤后
才决定当前应该走到哪里
我们知道
经典的人工智能的方法就是搜索
我们把每一个棋局看作一个节点
如果通过一步走棋a可以从
棋局A走到棋局B
那么我们就从A建立
一条有向连边到B
这样通过走棋我们就可以
得到一个网络
我们很快就会发现
不可能在电脑空间中装下这个网络
假设每步有10种可能的走法
那么虚拟地走10步棋
就会有1010种可能棋局
这已经是一个非常大的数字了
所以
AlphaGo必须巧妙地对
这个空间进行压缩
从而避免组合爆炸
蒙特卡洛搜索算法的好处
就在于它可以依概率来在
众多的可能性中选择一个
从而砍掉大量其它的分支树
快速地展开树搜索
开始的时候
由于我们对当前棋局了解不多
于是我会纯随机地选择一种走法a
但是经过几步虚拟走棋之后
我就会积累关于棋局的信息
从而减少不必要的随机搜索
在AlphaGo中
它的随机选择并不是纯粹的随机
而是利用了前面介绍的走棋网络
价值网络的先验信息
以及累积到的下一步棋局
的信息等等再随机走棋的
具体地
假设现在AlphaGo
所在的棋局是S(真实的棋局)
于是它开始展开树搜索
也就是展开虚拟的对局
每一步虚拟对局应该怎么走是
依据走棋网络进行的
如下图所示(P14)
这就是一次虚拟走棋(搜索)
每一步打开棋局节点
都是根据走棋网络p_{sigma}
在早期版本的AlphaGo中
这个走棋网络是通过
和人学习训练得到的
参见图1中的左手第二个网络(P1)
而在现在的升级版中
这个走棋网络很可能就是
前面介绍的通过深度强化学习训练得到的
这种虚拟走棋不可能一直走下去
而是在经过了T时间步后就会停止
虚拟走棋停止之后
我们就可以对这些虚拟
走出来的棋局进行评估
事实上
人类在进行棋局推演的时候
也就是要评估
每一种可能走棋究竟是好还是坏
AlphaGo的价值评估过程如下
首先
对于一个叶节点
也就是虚拟走棋走到的最后一步所对应的棋局
来说
AlphaGo会利用一个快速走棋算法pπ
根据人类的棋谱训练得到的另一个神经网络
参见图1(P1) 将整个棋局走完
从而对该节点进行评估
这种评估综合了之前训练好的价值网络
(vθ)和快速虚拟走棋到达终局的
结果好坏程度(r)来给出
其次
对于非叶子节点
AlphaGo会将叶子节点反推
回来的价值信息进行综合
来计算该非叶节点的价值信息
如下图所示(P5)
这里的Q就表示根据后续的棋局
来进行综合的算法
总而言之
通过层层的计算
我们能够给每一个虚拟走出来的
棋局赋值一个评估值Q
它综合了快速搜索和价值网络的评估
最后
AlphaGo将根据这些“思考”的结果
依据估值信息Q来展开真实的走棋
也就是在所有可能的下一步棋局中
选择Q值最大的一个进行实际落子
至此
AlphaGo终于走出了艰难的一步
-课程简介
--Video
-1.1 未来什么职业会被取代?
--1.1扩展阅读
--1.1 讨论
-1.1 测试 未来什么职业会被取代?
-1.2 人工智能在哪里
-1.2 测试 人工智能在哪里
-1.3 强人工智能和弱人工智能
--1.3 补充材料
-1.3 测试 强人工智能和弱人工智能
-1.4 人工智能靠什么实现?
-1.4 测试 人工智能靠什么实现?
-1.5 5G和人工智能有何关系?
--1.5 补充材料
-1.5 测试 5G和人工智能有何关系?
-2.1 5G,你是不是只比4G多1G?
-2.1测试 5G,你是不是只比4G多1G?
-2.2 5G,初见
-2.2测试 5G,初见
-2.3 5G,五代十国的史诗
--看视频回答问题
-2.3测试 5G,五代十国的史诗
-2.4 五代是哪五代?
-2.4测试 五代是哪五代?
-2.5 5G的三大场景
-2.5 5G的三大场景--作业
-2.6 五代(5G)演进到哪儿啦?
-2.6测试 五代(5G)演进到哪儿啦?
-2.7 马上就要来到的5G,我能做什么产品?
--2.7 扩展阅读
-2.7 测试马上就要来到的5G,我能做什么产品?
-2.8 围咖夜话(专家访谈)
-2.8测试 围咖夜话(专家访谈)
-3.1 3G之母(多址 核心技术 CDMA)上
-3.1测试 3G之母(多址 核心技术 CDMA)上
-3.2 3G之母(多址 核心技术 CDMA)下
-3.2测试 3G之母(多址 核心技术 CDMA)下
-3.3 高个爸爸与大盗
-3.3测试 高个爸爸与大盗
-3.4 4G的变局,半路杀出的Wi
-3.4测试 4G的变局,半路杀出的Wi
-3.5 4G的核心技术
-3.5测试 4G的核心技术
-3.6 羞涩的4G,前进的5G
-3.6 测试 羞涩的4G,前进的5G
-3.7 5G网络架构
-3.7测试 5G网络架构
-3.8 围咖夜话(专家访谈)
-3.8测试 围咖夜话(专家访谈)
-4.1 我们来说说“狗”
-4.1测试 我们来说说“狗”
-4.2 《阿尔法狗》前世今生
-4.2测试《阿尔法狗》前世今生
-4.3 AlphaGo 的原理
-4.3测试 AlphaGo 的原理
-4.4 阿尔法狗和我们有什么关系?
-4.4测试 阿尔法狗和我们有什么关系?
-4.5 深度学习AlphaGo (1)
-4.5测试 深度学习AlphaGo (1)
-4.6 深度学习AlphaGo(2)
-4.6测试 深度学习AlphaGo(2)
-5.1 无处不在的感知
-5.1测试 无处不在的感知
-5.2 5G和视觉
-5.2测试 5G和视觉
-5.3 AI视觉,靠脸吃饭
-5.3测试 AI视觉,靠脸吃饭
-5.4 如何应对伪造者?
--5.4 扩展阅读
-5.4测试 如何应对伪造者?
-5.5 手机上的视觉
-5.5测试 手机上的视觉
-6.1 自动驾驶,离得不远
-6.1测试 自动驾驶,离得不远
-6.2 无人驾驶实现有多难
-6.2测试 无人驾驶实现有多难
-6.3 自动驾驶也有等级
-6.3测试 自动驾驶也有等级
-6.4 无人车的视觉
-6.4测试 无人车的视觉
-6.5 自动驾驶和5G的关系(1)
-6.5测试 自动驾驶和5G的关系(1)
-6.6 自动驾驶和5G的关系(2)
-6.6测试 自动驾驶和5G的关系(2)
-6.7 围咖夜话 (专家访谈)
-期末考试--试题