为什么大数据是当前热点（Why big data is a nature phenomenon?)慕课视频播放-微软亚洲研究院大数据系列讲座-MOOC慕课视频教程-柠檬大学

让我们来看看为什么说大数据是一个自然现象

首先你们这些人非常幸运出生在计算机和互联网的时代

姚教授和我的小时候是没有计算机的

我第一次接触计算机还是在高中

当时我用的是… 等等实际上不是高中

高中时我用的不过是计算器我把计算器当成了计算机

不过也没错高中时我用"计算机"来进行计算

不过计算器不能编程只能使用按钮进行简单计算

到大学后我们才开始真正接触计算机

我记得在台湾整所大学就只有一台大型主机名为Univex

所有人共用这一台主机所有人只享有60千字节

我想当时学校应该有超过一两万名学生

我们当时还使用一种打孔卡

你们应该没人见过

我想说一类特定的打孔卡用于数据采集

很久以前有个职业叫数据录入员

你键入数据

然后你… 就像从前的打字职业一样

如果你一分钟能打一百个字符

那我就给你三美元诸如此类

你需要先输入很多数据然后计算机才能进行处理

编程都是如此数据就更不用说了

当时我用打孔卡写FORTRAN程序 200行代码

要花一个半小时打150张打孔卡

如果打的是数据情况可想而知

这就是为什么当时有的人工作就是录入数据

现如今很多数据就已经是数字形式了

更不用说可以自动实现A2D的物联网

数据采集成本几乎是零

现如今任何人都可以轻松把一两个TB的数据写入到硬盘

就在分秒之间在从前这是不可想象的

想想要怎么才能输入足够字符来填满2TB的硬盘

任何人用一辈子的时间都做不到

所以说数据采集基本上是零成本

从这个角度而言大数据是再自然不过的了

现在有种说法叫万物数字化

众所周知我们的世界一直使用的是模拟信号直到使用数字信号的计算机出现

有了计算机之后我们要做的首先显然就是数字化

雇人输入内容如我刚才所述

不过如今很多数据一开始创建时

就已经是数字形式了例如Word文档

音乐和互联网内容也是如此

你们估计不会再用到转盘唱机了

现在可能需要很多钱才能买到

这种唱机已经成为了古董收藏品

之后还有磁带你们大多数人可能… 磁带

有多少人见到过磁带？

你们没人见过磁带

还有VCR 多少人听过VCR或是VHS？

有人见过吗？没有人见过

这就意味着你们完全生活在数字时代

最开始是音乐和视频，现在包括社交网络

在过去，当你联系某人的时候，基本上是以模拟形式的

不像现在你们可以用微博或微信同他人交流

所有内容都是数字形式的

我想我们大家现在都处在飞速的数字化过程之中

数学家和物理学家们

曾用"数学的不可思议的有效性"来称呼

数学公式在描述世界方面的美妙

而现在我们有了一种新说法叫"数据的不可思议的有效性"

让我举个例子

姚教授说了我的研究领域是语音和语言

让我出个测试题我不知道你们多少人知道

如果将英语语法写完全了

需要一本多少页的书多少页

英语语法完整的英语语法仅仅是一门语言

有人说1000页实际上比1000页还多， 1700页

来描述英语语法

大家都知道学习语言时

最头疼的莫过于例外

可以设想

如果英语语法能描述到一页纸上那将是多么不可思议的有效性

那世界将变得多美妙

1700页的很大原因就是例外

考虑语法时实际上考虑的就是数据

另一方面

我们人类如何使用语言，其实已经在互联网上可以全部找到

例如今天我写英文时

如果我不知道正确的用词方式

我只需要搜索即可

例如在英语中有个词组叫heads up

它是提醒的意思然后对比hands on

hands on表示亲手做

这倒是说得通我们都有两只手

但heads up难道不应该是head up吗毕竟我们都只有一个脑袋

因此有人认为可能是head up

那要怎么知道呢去查1700页的语法书显然不现实

何况语法也不会讲这个它要列也只会被列在特殊辞汇表里

语法书是不会列出这种内容的

不过我可以到网上直接搜索heads up和head up

哪个搜索结果多哪个就是人们最常用的

中国人说"三人成虎"

这可能有更好的写法

有时我甚至使用… 我们还开发了一个用于句子的软件

确定知道的部分我不打算改变将其设为不可变

其余部分我将允许它们在相近列表中变化

然后将不同样式发到互联网上

从返回结果中我们或许就总能找到哪个点击最多

这就说明它是更好的写法

这是一个很好的例子

比起那些基于模型的规则数据能够更容易获得

毕竟很多自然现象都并非基于模型规则

不幸的是不能用简单的数学模型或规则来有效表述

特别是人类行为人类非常复杂

语言就是一个很好的例子

每天都会有新词出现甚至由汉语输入到英语

例如土豪大妈这些词汇都已进入到英语字典中

这是一种很复杂的语言现象经济和自然语言方面都是如此

在语音方面我很幸运能够在研究生时参与语音识别的研究

语音是最早使用大数据概念的领域之一

语音领域我们总在讲的金句可以适用于大数据

数据越多越好

这句话引自Bob Mercer

他在上世纪七八十年代工作于IBM研究所

现在是Renaissance对冲基金公司主席该公司的创建者叫Jim Simons

如果我没记错正是他们捐助修建了高研大楼

Renaissance的Jim Simons是一位数学家

他使用分析工具分析大数据以进行对冲基金交易

并因此大获成功

之后在九十年代 Simons他们招募了一些IBM语音研究者

自此之后这些人就留在了Renaissance

显然他们赚了很多钱并捐助清华修建了那座大楼

他们还捐赠给石溪大学等很多地方

他们显然是首批使用大数据的人之一

大数据后被广泛用于金融股市交易对冲基金交易等领域

我要提到的另一个人来自于语音领域

语音曾经…

在六七十年代曾有两种解决问题的方式

一种是使用全局方法

人类来写规则人们看声谱来写规则

看到某个声谱就推知是特定声音或其组合

我们将这称作基于规则的系统例如六十年代的AI 专家系统

这在当时可是主流

使用数据求解数据当然他们会创建模型

而不仅仅是通过数据来求解

然后我记得是Praveen Chaudhari

他在七八十年代是IBM语音研究经理

他说这就是为什么说 “数据越多越好”

他们说每次数据量翻倍的时候

语音识别的错误率就会减半

他们每解雇一名英语语言学家

错误率也会下降10%

这有点夸张不过它能告诉你

基于模型和基于大数据两种方法的对比情况

这里我希望你们能够懂得使用数据的强大

我们能从数据中学到东西哪怕是语法

哪怕我们谈到模型后面我们会谈到基于模型的方法

基于模型的方法还是非常非常重要

不过其重要性体现在使用数据验证模型

甚至得到例外情形就像语法一样

人们在编写语法书时也正是这么做的

他们会坐下来思考语言写下规则

他们会心想哦

碰到例外时他们会写入一条额外的规则

哦这个再作为单独的例外

这两件事总是并驾齐驱的

没人会只看模型不看数据

哪怕伽利略牛顿这样的人也不例外

数据存储不仅让数据采集成本降为了零

存储本身的成本也几乎是零

今天你可以去海龙还有旁边的鼎好

买2TB的硬盘

只要不到500人民币折合美元100不到

1TB只要不到50美元现在其价格非常低了以后还会更低

这张幻灯片很有趣摘自Chuck THACKER

他是我在MSR的同事几年前刚获得过图灵奖

这是我从他那得到的幻灯片

他对比了Alto和现在的PC机

我们讲摩尔定律所有人都知道摩尔定律

CPU时钟速度每18个月就会翻一倍

从1972年以来到现在大约是40年

40年大约就是4000倍

人们甚至没有意识到

相比描述CPU时钟速度增长的摩尔定律

磁盘容量的增长速度还要更为惊人

实际上希捷西数等公司的人应该获得更大赞誉

毕竟磁盘容量增长的速度要远快于摩尔定律的描述

我刚展示的是数据存储价格趋近于零的图片

还有一点我还是测试下

假设你要记录下一个人看到的场景从他出生开始

你将录像机放到他身前

记录下他一生中看到的一切

假设这个人活了90岁

我们还会进行合理的视频压缩

你认为需要多大的磁盘才能装下

他一生中所拍摄下来的所有视频包含他所有的人生经历

这显然还包括音频音频相比视频不算什么

有人猜下吗这需要多少TB

有人猜下吗小于1TB

1TB可以有这么大

你一生的记忆还不到1TB

实际上确实也有项目在做这个

我讲这个例子还是为了解释大数据的重要性

现如今要记录新生小孩的人生轨迹非常简单

人一辈子的体验都可以记录在不到1TB的磁盘中

但问题是你要如何读取这一视频的数据

假设你录制了五年的视频

然后你回头

估计没人会愿意花五年去全部看一遍

仅仅是像这样记录下来还不行

你还需要很多大数据分析

你要创建大量关联

你要能够跳转到你要的地方

这就体现出了大数据分析的重要性

我要查看同父亲相关的所有存储器

然后你很快就能跳到那些地方

然后… 你再进行另外的分析

另外还有一点我们称之为组合

组合数据

组合数据很重要因为有时候你有些头绪

但有时你没有

例如我面对着你我想看到你

但我使用黑板写东西时

录像机却对着这里

我需要组合数据因为很多时候我可能会在一个有趣的场合

例如在2008年奥运会

在2010年上海世博会

其中有很多我想要的重要视频

但由于我的朝向我并没有捕捉到

或者我捕捉到了新闻报道

例如2001年9月11日的恐怖事件

然后我观看电视节目 70英寸大屏

我记录下了解析度很低的东西

不过外界有记录一些高清晰度影像

关联于某个重大事件

例如在YouTube这样的网站上

那我想要看到这一事件时我们该如何组合数据

我要的不只是我身上这部录像机记录的内容

我想要整个奇妙的经历

这是另一个体现组合数据重要性的例子

哪怕你记录有你自己记忆的原始数据

在微软我们将这个项目称作MyLifeBits 表示我记录了我的整个一生

不过想想你要如何使用它谁会使用它

要很好地使用它你需要大数据技术

典型的企业中会有企业数据

CRM客户关系数据 ERP数据交易数据

然后是使用的用户

用户对产品如何反应。接下来是社交媒体

社交媒体的重要性甚至都不需要我来强调

因为你们大多数人都生活在社交媒体的世界中

我认识的很多人从不关手机哪怕是在睡觉的时候

一醒来他们就会回复好友信息

在社交媒体上人们会发表对你产品的想法

对你竞争对手产品的想法

人们会上传传感器数据系统日志数据公共数据

微软亚洲研究院大数据系列讲座课程列表：

第一讲：大数据研究现状及未来趋势（洪小文）

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点（Why big data is a nature phenomenon?)

--为什么大数据是当前热点（Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施，机器学习和可视化（Infrastructure,Machine Learning and Visualization)

--基础设施，机器学习和可视化（Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别（Big data:different from traditional BI)

--大数据与传统商业智能的区别（Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲：互联网搜索中的大数据研究（宋睿华）

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲：社会计算中的大数据研究（谢幸）

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲：城市计算中的大数据研究（上）（郑宇）

-城市计算中的大数据研究简介（introduction to urban big data）

--城市计算中的大数据研究简介（introduction to urban big data)

-概念，框架和挑战（concepts,framework and chanlleges）

--概念，框架和挑战（concepts,framework and chanlleges)

-基础技术（fundamental techniques）

--基础技术（fundamental techniques)

-城市规划（urban planning）

--城市规划（urban planning)

第四讲：城市计算中的大数据研究（下）（郑宇）

-识别特定区域（indentify functional regions）

--识别特定区域（indentify functional regions)

-城市空气质量与大数据研究（urban air quality meets big data）

--城市空气质量与大数据研究（urban air quality meets big data)

-能源交通和环境污染（traffic energy and pollution）

--能源交通和环境污染（traffic energy and pollution)

-大数据在城市噪音处理中的应用（diagnose urban noise with big data）

--大数据在城市噪音处理中的应用（diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲：软件分析中的大数据研究（张洪宇）

-软件分析的概念（the concepts of software analytics）

--软件分析的概念（the concepts of software analytics）

-软件分析的实例（examples of software analytics）

--软件分析的实例（examples of software analytics）

第六讲：大数据分析可视化研究（刘世霞）

-传统的数据可视化（Traditional information visualization）

--传统的数据可视化（traditional information visualization）

-同质数据的可视化分析-1（Visual Analytics of Homogeneous Data-1）

--同质数据的可视化分析-1（Visual Analytics of Homogeneous Data-1）

-同质数据的可视化分析-2（Visual Analytics of Homogeneous Data-2）

--同质数据的可视化分析-2（Visual Analytics of Homogeneous Data-2）

-异质数据的可视化分析（Visual Analytics of Heterogeneous Data）

--异质数据的可视化分析（Visual Analytics of Heterogeneous Data）

-Quiz

--Quiz--作业

为什么大数据是当前热点（Why big data is a nature phenomenon?)在线视频