当前课程知识点:微软亚洲研究院大数据系列讲座 >  第一讲:大数据研究现状及未来趋势(洪小文) >  什么是大数据(What is big data?) >  什么是大数据(What is big data?)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

什么是大数据(What is big data?)在线视频

什么是大数据(What is big data?)

下一节:为什么大数据是当前热点(Why big data is a nature phenomenon?)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

什么是大数据(What is big data?)课程教案、知识点、字幕

谢谢姚教授的精彩介绍。

我们感到非常高兴和荣幸能够和清华大学一起开设这门课程。

这是我们第一次开设这样的课程,因此我想介绍一下我们为什么要做这件事情。

事实上,我非常清楚为什么要做这件事情。

下面,我会告诉大家我的个人经历。

在过去的五年中,几乎我们对微软的高层或者对外所做的每一次技术展示,

或者我访问的所有工业界的实验室或者大学,聆听精彩的项目展示,

可以说,90%都可以归为大数据的项目。

这是一个非常自然,同时也非常热门的话题。

你也知道,大学教学对大数据也非常感兴趣。今天,我们正在做这样一件事情。

大数据同时也是研究热点。公司都非常实际。

事实上,大数据为微软这样的公司赚了非常多的钱。

当然,我想说,你们中的很多人已经参加了微软CEO萨蒂亚在清华的讲座。

就在两周以前,也就是十一假期之前,

我们的CEO也非常关心大数据。

我认为大数据不再仅仅是流行词。刚开始人们认为大数据就只是流行词而已。

现在,在计算机科学领域,工业界、学术界、科学界,几乎所有的领域对大数据都极为感兴趣。

因此我想再一次说,微软研究院感到非常荣幸能够和清华大学合作开设这门课程。

我想你的反馈会非常非常有价值。

当然,我希望你能够在这门课程中学到不少东西。

我想这也是工业界、像微软研究院这样的工业界的实验室以及微软所希望的。

事实上,我们有很多有实际意义的研究可以和大家分享。

是的,这里面有研究问题;也有同学们应该学习的基本内容。

但是,这里面也有每一个人,不仅仅是学生,都应该学习的、非常实际的内容。

事实上,每一个人都可以从大数据中受益。每一个人也都可以在每一天中真实地参与到大数据的研究和开发之中。

首先,我想介绍一下什么是大数据。事实上,这个词来源于工业界。

如果你在互联网上搜索,不管是IDC还是Gartner,这两家都是非常著名的咨询公司

他们对于大数据的定义,我想现在大部分人都认同。

如果逐字逐句来看两家公司对大数据的定义,

你们会发现这两个定义非常相似,其中都提到了大量、高速和多样化的信息。

关注发现、分析、洞见和决策制定,

我想对你说一些事情。当我们说到决策制定时,

现在,任何行业都在谈一个流行词,创新

每个人都想创新。什么是创新呢?

我想在某种意义上,在这个高度竞争的社会,创新意味着,

如果你有某种洞见、想法和决定,它们不同于或者超前于有相同想法的人的洞见、想法和决定,即使只是超前一天,

说一天可能有点夸张,就说一个月或者几年吧,那么你就有了独特的优势。这就是创新。

大数据正是你实现创新所需要的机制、工具以及能够帮助你获得洞见的整个过程。

使你能够在竞争者之前作出决策,

我想这适用于任何人,包括大学。

当然,清华大学并不关心排名。

其他大学都很关心排名,关心类似300所大学的排名这样的东西。

这是一个充满竞争的世界。因此,如果你所做的事情和其他人是一样的,那么你就变成了廉价商品。

因此,创新是大数据能够吸引如此多的眼球和关注的原因之一,也是其中最大的原因。

这是因为,高质量是真正作出创新工作的必不可少的、唯一的方式。

正如我所说,你如何获得洞见,你如何作出决定

在你的竞争者之前,在任何人之前

因此这个定义还提到了,特别是使用工业界的词汇,而且超越了工业界的词汇

我想之所以大数据引起了如此广泛的兴趣,是因为它能够创造价值。

即使像微软研究院这样在微软内设立的工业界的研究实验室,我们也需要挣钱。

研究需要产生价值,这样公司才能把更多的钱投入到研究中去。

在这个意义上,甚至是政府,我认为,也是一样的。中国政府能够一直取得7%、8%这样的GDP增长率。

在几年之前,中国政府甚至能够取得10%的GDP增长率。

有这样的GDP增长率,政府能够将更多的钱投入到教育和基础研究中去。所以,这些都是相似的。

所以,我认为大数据之所以引起公众的兴趣,并吸引众多的从业人员

是因为大数据可以创造价值,经济价值。

如果你看看对未来几年的各种预测

当然,这是一张2012年的幻灯片,其中的一些预测

到目前为止,不仅仅是对的,而且其实际的增长率超过了人们的预测

甚至对于下一个可预见的未来,人们可以相信,大数据的增长是理所当然的。

让我们来看看人们都了解的一些行业

如果你了解航空业的话,这是一个非常典型的行业

大家知道,航油价格是实时波动的,还有成本,他们所能做的就是控制成本

现在,有了互联网,每个人都想买到最便宜的机票

还有Group-Buy和Priceline

对航空业来说,赚钱非常困难。它们生存的唯一途径

我们和主要的航空公司进行了接触,这是个非常真实的例子,

现在,它们说大数据是它们生存的唯一方式

动态定价,我会在后面的幻灯片介绍,收益管理,如果你知道的话,航空业就是典型的例子

在任何时候,如果你乘坐飞机,你问一问坐在你旁边的人,他跟你基本是坐在相同的座位上

我保证,你和他/她购买机票时所付的价格都是不一样的,这就是动态定价

你购买机票时所付的价格取决于你是在哪一天购买的机票,你从哪个代理机构购买的机票,以及你从什么样的渠道购买的机票,等等

这就是动态定价,其关键是收益管理

每个航班的上座率如果低于某个百分比,比如上座率低于50%,该航班肯定是亏损的。

如果你的航班太多,那么就会有空的飞机。这时候你应该怎么办呢?

但是,如果你的航班太少,那么你的顾客就会选择竞争对手的航班

因此,很显然,在收益管理方面,你可以做很多大数据分析

社会媒体,各种竞争性搜索,甚至是搜索查询

所有这些信息都能够帮助你来做动态定价和收益管理

那么,动态航班重新调度是什么意思呢?

还有天气条件、风暴、台风、下雪,如果你能够做更好的天气预报的话

就好像今天,雾很重,今天和昨天,这很有可能会影响很多航班调度

所以,你如何预测天气并据此重新调整航班,取消或者推迟航班

你们应该如何做这样的动态航班重新调度

你们也会节约有很多很多钱并获得很多商业机会

燃油价格对冲,石油价格总是波动的,就像期货

在石油价格低的时候,你们可以为明年购买更多石油。

就好像现在,如果你们知道大米价格会上涨十倍,那么你们就会去买好未来五年的大米

这些想法都是相似的。它们也是关于猜测的,就像股票交易或者期权交易一样。

所谓的期权交易或股票交易都是低买高卖

在石油价格方面,你们也需要这样的机制。如你们所知,石油价格受到很多因素的影响

假设在以色列、中东这样的地方有一场小型战争或者冲突,还有ISIS极端组织,那么你们怎么样利用大数据来预测呢?

你们可以把燃油价格对冲做得更好

通过管理向上销售(upsell),飞机也可以赚很多钱

现在,美国的很多航空公司都不提供免费食物。他们向上销售食品、酒精饮料和其他东西,包括推销酒店等。

这就是一些体现使用大数据的重要性的例子

先不说赚不赚钱,航空公司仅仅为了维持生存。

这是一个使用大数据的非常非常好的例子

当谈到大数据这样的时髦词的时候,这是一个典型的曲线

通常会经历从高峰到低峰的一个循环,然后才开始稳健发展,

然后是真实的发展曲线,最终达到平稳状态

对于大数据,情况就是这样。我是在2012年得到这张幻灯片的,到现在已经两年了

如果你看看这张图,那么就知道大数据不仅只是流行词了,因为它已经是真实存在的了。在接下来的一个小时,我会解释为什么它是真实的。

如果你看看这个,几乎所有东西,如果你看得清楚

我是指尤其是坐在前排的同学,你能够看清楚这些小字,只有两项技术

一个是语义网,另一个是物联网

事实上,它们预测语义网和物联网需要超过10年才能真正达到饱和或者平稳状态

我想我倾向于相信这个预测

众所周知,预测总是困难的

物联网肯定是非常巨大的

但是,物联网要真正加速发展,变成完全无所不在或许还需要10年

有些人或许知道语义网

语义网的来源是这样的,当你们想要建立网站的时候,如果你们希望网站不是纯文本的,那么就需要遵循一些标准。

有了标准,人们就可以在不需要理解网站背后的数据结构的情况下实现数据交换。

所以,这已经经过十多年了,而且会需要更长的时间

之所以需要这么长的时间,是因为让人们真正遵守一个语义标准是非常困难的

这就好像人类的语言、语法一样,更不要说语义了

除此之外,他们所想到的每件事情,我们在5~10年之内几乎都可以发展得很好。

这是一张非常简单的图。我想它会让大家很容易了解为什么数据是如此重要。

我们把原始数据称为信号。当然,信号中是包含很多噪声的,不管是模拟信号还是数字信号

原始数据经过处理、清洗之后成为数据

当数据被处理成某种形式后,就可以对其进行分析。此时的数据就称为信息

当你们从信息中获取洞见之后,就可以帮助你们做决策,那么数据就成为知识和力量

而洞见和行动正是人们需要的

在实际中,我们精炼数据以创造价值

大数据的另一个维度是组合数据

组合数据,对我们自己来说可以是组合我们的日程、电子邮件、个人联系人信息

人们需要处于社会之中,在座的各位也是一样。就好像在求学期间,你是在清华大学。

因此,组织,关于你所处的组织清华大学,以及社区,包括你所在的北京这样一个大城市,甚至是中国

最后,全世界

现在,世界是连着的。所有这些数据放在一起,当它们能够组合的时候,你们就知道它们有多强大了

今天,如果你们想去什么地方吃晚餐,当然,你需要天气数据,你们也需要交通数据

你们需要餐厅数据,因此为了与朋友共进晚餐,你们需要所有这些东西

因此,仅仅是从这样一个简单的活动中,你们就可以看到组合数据来创造价值的力量

当然,你们把它们组合起来,精炼它们并组合数据,事实上你们可以获得更强有力的洞见

这就是你们应该看待大数据的基本方式

因为大数据不同于之前的数据密集型的,或者说网格计算这样的东西

不同的是,你们需要组合不同来源的数据

大数据的“大”不仅仅是指在一个维度上的“大”,而是包括多样性、组合和精炼

这就是为什么我们要讨论很多关于基础设施、机器学习和数据挖掘的内容

这些工具怎么样来帮助你们精炼数据,把信号转化成数据,把数据转化成信息,以及把信息转化成知识

这就是所谓的大数据

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

什么是大数据(What is big data?)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。