当前课程知识点:微软亚洲研究院大数据系列讲座 > 第一讲:大数据研究现状及未来趋势(洪小文) > 为什么大数据是当前热点(Why big data is a nature phenomenon?) > 为什么大数据是当前热点(Why big data is a nature phenomenon?)
让我们来看看 为什么说大数据是一个自然现象
首先 你们这些人非常幸运 出生在计算机和互联网的时代
姚教授和我的小时候是没有计算机的
我第一次接触计算机还是在高中
当时我用的是… 等等 实际上不是高中
高中时我用的不过是计算器 我把计算器当成了计算机
不过也没错 高中时我用"计算机"来进行计算
不过计算器不能编程 只能使用按钮进行简单计算
到大学后 我们才开始真正接触计算机
我记得在台湾 整所大学就只有一台大型主机 名为Univex
所有人共用这一台主机 所有人只享有60千字节
我想 当时学校应该有超过一两万名学生
我们当时还使用一种打孔卡
你们应该没人见过
我想说一类特定的打孔卡 用于数据采集
很久以前 有个职业叫数据录入员
你键入数据
然后你… 就像从前的打字职业一样
如果你一分钟能打一百个字符
那我就给你三美元 诸如此类
你需要先输入很多数据 然后计算机才能进行处理
编程都是如此 数据就更不用说了
当时我用打孔卡写FORTRAN程序 200行代码
要花一个半小时打150张打孔卡
如果打的是数据 情况可想而知
这就是为什么当时有的人 工作就是录入数据
现如今 很多数据就已经是数字形式了
更不用说可以自动实现A2D的物联网
数据采集成本几乎是零
现如今 任何人都可以轻松把一两个TB的数据写入到硬盘
就在分秒之间 在从前这是不可想象的
想想 要怎么才能输入足够字符来填满2TB的硬盘
任何人用一辈子的时间都做不到
所以说 数据采集基本上是零成本
从这个角度而言 大数据是再自然不过的了
现在有种说法叫万物数字化
众所周知 我们的世界一直使用的是模拟信号 直到使用数字信号的计算机出现
有了计算机之后 我们要做的首先显然就是数字化
雇人输入内容 如我刚才所述
不过如今 很多数据一开始创建时
就已经是数字形式了 例如Word文档
音乐和互联网内容也是如此
你们估计不会再用到转盘唱机了
现在可能需要很多钱才能买到
这种唱机已经成为了古董收藏品
之后还有磁带 你们大多数人可能… 磁带
有多少人见到过磁带?
你们没人见过磁带
还有VCR 多少人听过VCR或是VHS?
有人见过吗?没有人见过
这就意味着你们完全生活在数字时代
最开始 是音乐 和视频,现在包括社交网络
在过去,当你联系某人的时候,基本上是以模拟形式的
不像现在 你们可以用微博或微信同他人交流
所有内容都是数字形式的
我想 我们大家现在都处在飞速的数字化过程之中
数学家和物理学家们
曾用"数学的不可思议的有效性"来称呼
数学公式在描述世界方面的美妙
而现在 我们有了一种新说法 叫"数据的不可思议的有效性"
让我举个例子
姚教授说了 我的研究领域是语音和语言
让我出个测试题 我不知道你们多少人知道
如果将英语语法写完全了
需要一本多少页的书 多少页
英语语法 完整的英语语法 仅仅是一门语言
有人说1000页 实际上比1000页还多, 1700页
来描述英语语法
大家都知道 学习语言时
最头疼的莫过于例外
可以设想
如果英语语法能描述到一页纸上 那将是多么不可思议的有效性
那世界将变得多美妙
1700页的很大原因就是例外
考虑语法时 实际上考虑的就是数据
另一方面
我们人类如何使用语言,其实已经在互联网上可以全部找到
例如今天 我写英文时
如果我不知道正确的用词方式
我只需要搜索即可
例如 在英语中 有个词组叫heads up
它是提醒的意思 然后对比hands on
hands on表示亲手做
这倒是说得通 我们都有两只手
但heads up难道不应该是head up吗 毕竟我们都只有一个脑袋
因此有人认为可能是head up
那要怎么知道呢 去查1700页的语法书显然不现实
何况语法也不会讲这个 它要列也只会被列在特殊辞汇表里
语法书是不会列出这种内容的
不过我可以到网上 直接搜索heads up和head up
哪个搜索结果多 哪个就是人们最常用的
中国人说"三人成虎"
这可能有更好的写法
有时我甚至使用… 我们还开发了一个用于句子的软件
确定知道的部分我不打算改变 将其设为不可变
其余部分 我将允许它们在相近列表中变化
然后将不同样式发到互联网上
从返回结果中 我们或许就总能找到哪个点击最多
这就说明它是更好的写法
这是一个很好的例子
比起那些基于模型的规则 数据能够更容易获得
毕竟很多自然现象都并非基于模型规则
不幸的是 不能用简单的数学模型或规则来有效表述
特别是人类行为 人类非常复杂
语言就是一个很好的例子
每天都会有新词出现 甚至由汉语输入到英语
例如土豪 大妈 这些词汇都已进入到英语字典中
这是一种很复杂的语言现象 经济和自然语言方面都是如此
在语音方面 我很幸运 能够在研究生时参与语音识别的研究
语音是最早使用大数据概念的领域之一
语音领域我们总在讲的金句可以适用于大数据
数据越多越好
这句话引自Bob Mercer
他在上世纪七八十年代工作于IBM研究所
现在是Renaissance对冲基金公司主席 该公司的创建者叫Jim Simons
如果我没记错 正是他们捐助修建了高研大楼
Renaissance的Jim Simons是一位数学家
他使用分析工具分析大数据 以进行对冲基金交易
并因此大获成功
之后在九十年代 Simons他们招募了一些IBM语音研究者
自此之后 这些人就留在了Renaissance
显然 他们赚了很多钱 并捐助清华修建了那座大楼
他们还捐赠给石溪大学等很多地方
他们显然是首批使用大数据的人之一
大数据后被广泛用于金融 股市交易 对冲基金交易等领域
我要提到的另一个人来自于语音领域
语音曾经…
在六七十年代 曾有两种解决问题的方式
一种是使用全局方法
人类来写规则 人们看声谱来写规则
看到某个声谱 就推知是特定声音或其组合
我们将这称作基于规则的系统 例如六十年代的AI 专家系统
这在当时可是主流
使用数据 求解数据 当然他们会创建模型
而不仅仅是通过数据来求解
然后 我记得是Praveen Chaudhari
他在七八十年代是IBM语音研究经理
他说 这就是为什么说 “数据越多越好”
他们说 每次数据量翻倍的时候
语音识别的错误率就会减半
他们每解雇一名英语语言学家
错误率也会下降10%
这有点夸张 不过它能告诉你
基于模型和基于大数据两种方法的对比情况
这里我希望你们能够懂得使用数据的强大
我们能从数据中学到东西 哪怕是语法
哪怕我们谈到模型 后面我们会谈到基于模型的方法
基于模型的方法还是非常非常重要
不过其重要性体现在使用数据验证模型
甚至得到例外情形 就像语法一样
人们在编写语法书时也正是这么做的
他们会坐下来思考语言 写下规则
他们会心想 哦
碰到例外时 他们会写入一条额外的规则
哦 这个再作为单独的例外
这两件事总是并驾齐驱的
没人会只看模型 不看数据
哪怕伽利略 牛顿这样的人也不例外
数据存储不仅让数据采集成本降为了零
存储本身的成本也几乎是零
今天你可以去海龙 还有旁边的鼎好
买2TB的硬盘
只要不到500人民币 折合美元100不到
1TB只要不到50美元 现在其价格非常低了 以后还会更低
这张幻灯片很有趣 摘自Chuck THACKER
他是我在MSR的同事 几年前刚获得过图灵奖
这是我从他那得到的幻灯片
他对比了Alto和现在的PC机
我们讲摩尔定律 所有人都知道摩尔定律
CPU时钟速度每18个月就会翻一倍
从1972年以来 到现在大约是40年
40年大约就是4000倍
人们甚至没有意识到
相比描述CPU时钟速度增长的摩尔定律
磁盘容量的增长速度还要更为惊人
实际上 希捷 西数等公司的人应该获得更大赞誉
毕竟磁盘容量增长的速度要远快于摩尔定律的描述
我刚展示的是数据存储价格趋近于零的图片
还有一点 我还是测试下
假设你要记录下一个人看到的场景 从他出生开始
你将录像机放到他身前
记录下他一生中看到的一切
假设这个人活了90岁
我们还会进行合理的视频压缩
你认为需要多大的磁盘才能装下
他一生中所拍摄下来的所有视频 包含他所有的人生经历
这显然还包括音频 音频相比视频不算什么
有人猜下吗 这需要多少TB
有人猜下吗 小于1TB
1TB可以有这么大
你一生的记忆还不到1TB
实际上 确实也有项目在做这个
我讲这个例子还是为了解释大数据的重要性
现如今 要记录新生小孩的人生轨迹非常简单
人一辈子的体验都可以记录在不到1TB的磁盘中
但问题是 你要如何读取这一视频的数据
假设你录制了五年的视频
然后你回头
估计没人会愿意花五年去全部看一遍
仅仅是像这样记录下来还不行
你还需要很多大数据分析
你要创建大量关联
你要能够跳转到你要的地方
这就体现出了大数据分析的重要性
我要查看同父亲相关的所有存储器
然后你很快就能跳到那些地方
然后… 你再进行另外的分析
另外还有一点我们称之为组合
组合数据
组合数据很重要 因为有时候你有些头绪
但有时你没有
例如我面对着你 我想看到你
但我使用黑板写东西时
录像机却对着这里
我需要组合数据 因为很多时候我可能会在一个有趣的场合
例如在2008年奥运会
在2010年上海世博会
其中有很多我想要的重要视频
但由于我的朝向 我并没有捕捉到
或者 我捕捉到了新闻报道
例如2001年9月11日的恐怖事件
然后我观看电视节目 70英寸大屏
我记录下了解析度很低的东西
不过外界有记录一些高清晰度影像
关联于某个重大事件
例如在YouTube这样的网站上
那我想要看到这一事件时我们该如何组合数据
我要的不只是我身上这部录像机记录的内容
我想要整个奇妙的经历
这是另一个体现组合数据重要性的例子
哪怕你记录有你自己记忆的原始数据
在微软 我们将这个项目称作MyLifeBits 表示我记录了我的整个一生
不过想想你要如何使用它 谁会使用它
要很好地使用它 你需要大数据技术
典型的企业中会有企业数据
CRM客户关系数据 ERP数据 交易数据
然后是使用的用户
用户对产品如何反应。接下来是社交媒体
社交媒体的重要性甚至都不需要我来强调
因为你们大多数人都生活在社交媒体的世界中
我认识的很多人从不关手机 哪怕是在睡觉的时候
一醒来他们就会回复好友信息
在社交媒体上 人们会发表对你产品的想法
对你竞争对手产品的想法
人们会上传传感器数据 系统 日志数据 公共数据
-什么是大数据(What is big data?)
-为什么大数据是当前热点(Why big data is a nature phenomenon?)
--为什么大数据是当前热点(Why big data is a nature phenomenon?)
-新的计算基础设施和工具(New Infrastructure and tools)
--新的计算基础设施和工具(New Infrastructure and tools)
-课程简介(Course Introduction)
-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
-大数据与传统商业智能的区别(Big data:different from traditional BI)
--大数据与传统商业智能的区别(Big data:different from traditional BI)
-Quiz
--Quiz--作业
-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
-探寻搜索的多个维度(finding dimensions for queries)
--探寻搜索的多个维度(finding dimensions for queries)
-Quiz
--Quiz--作业
-背景介绍(background)
-用户移动规律的理解-1(user mobility understanding-1)
--用户移动规律的理解-1(user mobility understanding-1)
-用户移动规律的理解-2(user mobility understanding-2)
--用户移动规律的理解-2(user mobility understanding-2)
-用户画像与个人隐私-1(user profiling and privacy-1)
--用户画像与个人隐私-1(user profiling and privacy-1)
-用户画像与个人隐私-2(user profiling and privacy-2)
--用户画像与个人隐私-2(user profiling and privacy-2)
-Quiz
--Quiz--作业
-城市计算中的大数据研究简介(introduction to urban big data)
--城市计算中的大数据研究简介(introduction to urban big data)
-概念,框架和挑战(concepts,framework and chanlleges)
--概念,框架和挑战(concepts,framework and chanlleges)
-基础技术(fundamental techniques)
--基础技术(fundamental techniques)
-城市规划(urban planning)
-识别特定区域(indentify functional regions)
--识别特定区域(indentify functional regions)
-城市空气质量与大数据研究(urban air quality meets big data)
--城市空气质量与大数据研究(urban air quality meets big data)
-能源交通和环境污染(traffic energy and pollution)
--能源交通和环境污染(traffic energy and pollution)
-大数据在城市噪音处理中的应用(diagnose urban noise with big data)
--大数据在城市噪音处理中的应用(diagnose urban noise with big data)
-Quiz
--Quiz--作业
-软件分析的概念(the concepts of software analytics)
--软件分析的概念(the concepts of software analytics)
-软件分析的实例(examples of software analytics)
--软件分析的实例(examples of software analytics)
-传统的数据可视化(Traditional information visualization)
--传统的数据可视化(traditional information visualization)
-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
-Quiz
--Quiz--作业