当前课程知识点:智能时代下的创新创业实践 > 第一章人工智能时代的机遇与挑战 > 1.2人与机器的本质区别 > 1.21
首先来谈第一个问题
alphago为什么胜利
刚才我们谈道在1997年深蓝
就战胜了国际象棋世界冠军
直到2016年
人工智能才战胜了人类的围棋冠军
那么alphago战胜围棋
冠军的难度有多大呢
在计算机领域
围棋问题比象棋问题更难
首先
象棋的下法规则比较简单
相对来说局面也比较少
国际象棋的局面大概是
10的47次方那么多
相对的解也就比较少
这个香浓数
对计算机而言是个可计算问题
从算法上讲
可以用穷举算法
算出所有的可能性来解决国际象棋的问题
从计算复杂度上来讲
是当时的超级计算机深蓝可以解决的
我们再来看一下围棋的局面有多少种
围棋棋盘是由19乘19的交叉点构成的
一共361个节点
每一次的落子
棋手可以选择其中任意一个节点
而每一个节点又有三种不同的落子方式
分别是落黑棋
落白棋和不落棋子
这样的可能性有多少呢
大概是是3的361次方
也就是10的170次方种那么多可能
而宇宙中的原子总共才10的80次方
围棋的解法
要比宇宙的原子数还要多无穷倍
从计算机科学的角度
我们可以认为围棋问题是解空间
趋近于无限的不可解问题
因此
用算法解决围棋问题
是不能采用像深蓝那样用的穷举方式的
因此
我们说围棋问题比象棋问题难的多
从算法上和计算
复杂度上都不在一个数量级上
一直以来围棋问题
都是计算机的没法解决的问题
正是因为这个原因
在围棋这个领域
一直是人类棋手的天下
所以AlphaGo的胜利才会引起
那么大的轰动
那么alphago是如何战胜人类选手呢
alphago获胜有三个法宝
第一是算力
也就是超强的计算能力
第二是算法
也就是运用了机器学习中的算法
主要是深度神经网络和增强学习
第三是大数据
首先我们说说alphago的计算能力
它的大脑是由1200块
强大的CPU 和170块gpu组成的
我们拿AlphaGo和当时
IBM的深蓝的计算能力做个比较
当时深蓝的运算能力是每秒钟
计算113.81亿次
而单机版的alphago
计算能力就已经达到了深蓝的一千倍以上
网络版alphago的计算能力
更是高达深蓝的25万倍
所以说
alphago的算力比
当年深蓝要强得多
顺便说一句
在alphago的运算设备里
采用了大量的gpu处理器
也就是Graphics Processing Unit
GPU是非常
擅长并行计算的处理器
对机器学习的算法的支持特别好
这是运算能力对算法的支持
第二个法宝是算法
刚才我们已经讲了
在计算机的世界里
围棋问题是一个不能用穷举来解决的问题
AlphaGo的核心算法就是通过
压缩解空间取得局部最优解
而我们知道
用机器学习我们可以
非常大的压缩解空间
并得到近似的局部最优解
我们来看看
AlphaGo的关键算法有哪些
AlphaGo用了两个深度学习网络
一个叫策略网络
它是用来根据局面
给出走棋策略的
不仅如此
这个网络还可以计算落子点的获胜概率
通过对概率的比较
就可以得到最佳的落子点
另一个网络叫做价值网络
这个网络是用来做增强学习的
通过它可以训练出越来越强的走棋策略
是一个策略升级网络
另外
AlphaGo运用蒙特卡洛树
算法来计算可能的落子区域
这种方法也能压缩解空间
减少运算次数
具体来说
AlphaGo可以用
机器学习的方法通过对深度神经网络
进行样本训练
并到一个非常好的应对策略
然后进行博弈
当实时博弈的时候
AlphaGo Alphago会通过算法
来计算当前的局面
并对当前的局面作出一个
获胜概率的评估
然后计算出获胜概率
最大的落子点
也就是说alphago的每一次落子
从理论上说都是最优的策略
也是离胜利最接近的策略
Alphago获胜的秘诀
是监督学习与增强学习的配合
关于监督学习
和增强学习的话题
我们会在第三部分
机器的智慧
那一讲深入讨论
打个通俗的比方
大家都看过金庸先生的《倚天屠龙》
我们来看看里面的主人公张无忌
是怎么从一无所知的菜鸟变成一个
绝顶高手的
首先
张无忌什么都不懂
张无忌习武是通过
拜师学艺开始的
是从基本的武功招式开始的
AlphaGo最开始的学习叫监督学习
就相当于这个状况
张无忌从拳谱开始
Alphago从已知的
16万盘人类棋谱进行监督学习开始
训练策略网络
通过训练
alphago已经有了一个
相当不错的应对策略
已经算是小有所成了
第二个步骤是增强学习
AlphaGo通过3000万
棋盘的自我对弈来
达到增强自己的能力目标
得到更优秀的应对策略
这个过程就像张无忌在学了
基本招式后
做了3000万次的双手互搏练习
他的能力大大提高了
AlphaGo通过增强学习
每一次练习后都比以前的策略更好了
这个时候的AlphaGo已经是
超越了许多人类的顶尖棋手了
AlphaGo最后的实时对弈过程
就像是张无忌与敌人的巅峰对决过程
AlphaGo是用已经
练习好的绝招来击败对手的
它利用训练好的策略网络
再结合蒙特卡洛树
来进行实时的预测和胜率判断
并且给出最佳的策略
从而击败对手
通过深度学习
人们用算法极大的压缩了解空间
让围棋问题变成了
计算机可以解决的问题
实际上
alphago的设计者们成功的把
下围棋的问题变成了一系列的数学问题
例如
概率问题
预测问题和路径选择问题
而我们知道计算机是最擅长做数学计算的
在智能机器的
智慧
那一讲
我们会讨论计算思维
会讨论抽象与建模
看看计算机是怎样帮助解决
人类解决问题的
所以说算法才是alphago能够
战胜人类棋手的关键
从压缩空间的角度来说
alphago使用了一系列的算法
为什么alphago要使用神经网络
我们知道神经网络是一种
得到近似解的方法
也就是说它不是一种精确解
这种方法能够极大地压缩解空间
帮助alphago减少计算的次数
具体来讲
策略网络和价值
都使用卷积神经网络
来排除概率较小的区域
只需要找到对应概率
比较大的地方落子就可以了
我们可以说
AlphaGo的胜利是算法的胜利
是数学的胜利
我们再来看alphago
获胜的的第三个法宝
大数据
刚才我们讲到
AlphaGo是从学习
人类的16万盘棋谱开始的
是什么成就了
alphago的最强大脑呢
正是那 16万盘已知的人类棋谱
没有这些数据
AlphaGo的监督学习和
增强学习是完成不了的
这是它学习的基础
和获胜的基础
如果没有这些数据
alphago是不可能有
所谓的最强大脑的
因此
alphago战胜人类的三大法宝是
计算能力
优秀的算法和大数据
实际上
这三点也是智能技术的关键点
这个
我们在后面的学习中慢慢会体会到
-0.1我们为什么设计这门课
--0.1
-0.2我们聊什么
--0.2
-0.3你们能学到什么
--0.3
-短片:AlphaGo
--Alphago
-1.1本章概述
--1.1
-1.2人与机器的本质区别
--1.21
--1.22
--1.23
-1.3我们会被智能机器抢了饭碗吗
--1.31
--1.32
--1.33
-1.4人和智能机器的和谐之道-增强智能
--1.41
--1.42
--1.43
--1.44
--1.45
--1.46
--1.47
-1.5项目指南一:如何找到好的项目
--1.51
--1.52
--1.53
--1.54
--1.55
-第一章测试
-2.1本章概述
--2.1
-2.2创业能力模型
--2.21
--2.22
--2.23
--2.34
--2.25
--2.26
--2.27
--2.28
--2.29
-2.3创新是人类的本能
--2.31
--2.32
--2.33
-2.4创新能力培养——创新心智模式
--2.41
--2.42
--2.43
--2.44
--2.45
--2.46
-2.5创新能力要素培养-思维方式
--2.51
--2.52
--2.53
--2.54
--2.55
-2.6项目指南二:创新项目的开发
--2.61
--2.62
--2.63
-2.7互联网心理学
--2.7
-第二章测试
-3.1本章概述
--3.1
-3.2机器有“智慧”吗?
--3.21
--3.22
--3.23
--3.24
--3.25
--3.26
--3.27
-3.3机器是如何学习的?
--3.31
--3.32
--3.33
--3.34
--3.35
--3.36
--3.37
--3.38
--3.39
--3.310
-3.4智能技术带来的认知升级
--3.41
--3.42
--3.43
--3.44
--3.45
-3.5项目指南三:投资者和创始人的心得经验
--3.51
--3.52
--3.53
--3.54
--3.55
-第三章测试