当前课程知识点:微软亚洲研究院大数据系列讲座 >  第一讲:大数据研究现状及未来趋势(洪小文) >  基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization) >  基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)在线视频

基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

下一节:大数据与传统商业智能的区别(Big data:different from traditional BI)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)课程教案、知识点、字幕

然后是基础设施。

张霖涛和徐葳博士会

谈到基本的云基础设施的各种细节,

基础设施即服务和平台及服务。

然后是结构化数据库部分,你们大部分人很可能要自学这一部分,

因为我假设你们大部分人都了解数据库。

然后是Hadoop栈之中的PB级的非结构化数据和多结构化数据。

这些就是我们在基础设施将要关注的内容。

我并不会详细介绍这其中的大部分内容。我想徐葳和霖涛会向你们详细介绍这些内容。

因为……我来自微软。

所以,我需要花几分钟来简要介绍一下微软的解决方案的优点所在。

如果你们仔细想想这两个方面,一方面是Oracle和IBM的传统数据库,

我们微软也有,称为SQL。

你们也知道亚马逊,对么?

在中国,阿里,他们正在做阿里云。

亚马逊有AWS(亚马逊网络服务)。大部分都在这个开源栈里面,对么?Hadoop栈,它非常重要。

事实上微软两方面都有。

你们看看我和你们分享的这张体系结构幻灯片。

你们确实两方面都需要。

原因是,实际上有很多大数据分析来源于数据库和数据挖掘领域,这都属于传统的数据库这一边。

现在,你们要怎么以非结构化的形式在PB这么大的数量级上来做这些呢?

而且不只是基于那个部分,而且是组合,

实际上,人们使用相同的工具,

而不用太担心底层的结构化或者非结构化形式。

这就是真正普及化、民主化和商品化整个大数据基础设施的方式。

不仅是精英,像清华的学生或者教授能够做大数据的东西。

我认为这就是我们每个人

我们能够在大数据、所有新的大数据领域发挥人的智慧和潜力的唯一方式。

我认为微软,我们实际上组合了SQL、Azure、PowerView、Power BI和Excel中的所有传统优势。

然后再加上,我们还有必应搜索引擎。

人们将会越来越多地关注到的一件事情是,正如我所提到的,世界上的信息的组合。

世界上的信息,总的来说,公开信息都在互联网上。

我们有一个搜索引擎。

世界上只有几个搜索引擎,对么?

在中国是百度,在世界范围内,有谷歌和必应。

我想谁会真正的把这些都组合起来,像你们提供整体全面的东西呢?微软!

我希望,特别是如果有一天你们去工业界的话,我确信你们会感谢我们提供的东西的丰富性和深度。

当然,我感到非常自豪。

且不说,最后但并不是最不重要的,我认为特别是对政府、军队

你们肯定需要资源部署在自己的场地里(on premise)

On premise意思是我购买我的服务器,我建设我的数据中心,我把我的数据放在我购买的服务器上。

数据永远不会离开我的场地。这就是我们所说的On premise。

云计算意味着你把你的数据和计算放在其他人的物理位置上。

不管是微软、亚马逊或者阿里。

然后,微软,因为我们也有传统的Windows服务器、SQL,所有这些东西。

我们现在提供所谓的混合的,on premise加上公有云。

混合不仅仅是把这些东西放在一起,

而是为人们提供相同的用户接口、相同的工具和相同的应用。

你们可以实现无缝地将on premise和公有云相结合。

所以,我想我们花了很多精力设计这门课程,

我想我可以谈谈微软提供的东西有多么好。

所以,把这当作一个微软的广告吧。

商务智能,我们说信号、数据、信息和知识。

知识是发现洞见和采取正确行动的关键,它们会带给你们价值。

之前我们讨论过这个。

然后我认为典型的工作流是

我想这和从事科学发现是没有区别的。

你有一个问题,你也有一些假设,

中文我们说“大胆假设”

假设基本上是一个问题。

然后你收集数据,然后建立一个逻辑模型,然后建立一个物理模型

然后加载数据,然后验证。

如果你的假设帮助你回答了这个问题

非常棒,回答这个问题,我可以部署并运行应用程序。

好好享用它吧,是的。如果不是的话,我回去做另一个循环。

另一个方式是,你有一个问题,然后你做验证。

如果验证成功,如果解决了问题,值得再问一次。

你使得它成为可重复的。你建立系统。

如果不是,如果你的问题假设是错误的。

不感兴趣,你问另一个问题,以及另一个假设。

所以,我认为这类科学方法和科学发现是一样的。

在所有大数据应用中也是对的。

我认为这里的关键,在过去,

你们需要一定的时间来完成这个完整的周期。

因为,想想在过去,我有一个产品,我把它推向市场

我走出去,我给人们打电话来收集用户反馈。

然后再做一些测试。

然后把另一个版本推向市场。

所以,现在我们想要真正做这个来缩短时间,我的意思是,

在商业世界,缩短产品上市时间。

在某种意义上,你们也可以说多久可以做一个试验。

所以,如果我能够做100次试验,相同时间内你只能做一次试验。

所以,我最有可能出来一个更好的结果。

即使你比我更聪明。

我的意思是……或者使用棒球。

我知道在国内可能没有很多人看棒球。

你们知道棒球么?

棒球是一种称为击中平均的运动。

通常,对于职业棒球选手,击中平均可能是200到400,20%到40%。

最好的选手的击中平均只是最差的选手的击中平均的两倍。

但是,就像我说的,如果我能够在打赌中成为100……称为100次下注。

同时,你只能在打赌的时候下一次注。

那你就没有办法击败我。

因此,我认为另一个看待大数据的方式是,所有这些大数据基础设施、分析以及工具。

都是来帮助你以比过去的方式快得多的方式运行你的试验,完成一个闭环。

你不需要很聪明。

你只要充分利用它们。

只要你有问题和假设,那就让它运行好了。

实际上,黑猫白猫, 总有一只猫可以抓到老鼠

所以,然后我想你就会出来好的点子,带来价值。

所以这种类型的机器学习、数据挖据和分析,实际上,就是大数据的核心部分。

后面我们有两位清华的教授,黄隆波和De Melo教授,

会实际谈谈数据驱动和基于统计的学习。

如果此课你正在想着机器学习的话。

今天大家都在谈人工智能。

现在大部分关于人工智能的学术报告其实谈的都是机器学习。

顺便说一句,最近我在微博上发表的文章里面谈到“我们需要什么样的机器人?”

这篇文章和这门课程没有任何关系。如果你们对人工智能感兴趣的话,

你们可以去看看这篇文章。

有人甚至建立了一个PK网站。因为埃隆.马斯克。

你们知道埃隆.马斯克么?特斯拉,你们知道特斯拉,对么?全电动汽车。特斯拉的创始人埃隆.马斯克,非常有名的人。

他还投资了一些太空项目,想要把人们送到太空去旅游。

实际上,他评论说人工智能是非常非常危险的。

人工智能甚至会比核武器更危险。

我完全不同意这一点。

事实上,我写了这篇文章,原本不是为了反对他。

但是,我写了这篇文章,是想表达我对人工智能的看法。

文章的标题是“你需要什么样的机器人?”

有人建了PK网站,说你怎么想,谁是对的?

埃隆.马斯克或者洪小文?

当然,和埃隆.马斯克相比,我只是一个笨笨的科学家。

他在所有这些东西上也非常有名,所以我处于劣势。

但是,如果你们看看我的文章,如果你们赞同我的观点,你们就能够真正的帮助我和他PK。

但前提是,只要你们同意我的观点,

记住,我处于绝对劣势,因为我不如他有名,不如他有钱,对么?当然。

而且,当你说人工智能是终结工具的时候,

说机器会摧毁人类。所有这些有争议的说法,

通常人们喜欢这些说法。

如果人们说,就像我的说法,人工智能和机器人未来会像女仆那样为我们服务,人们会说这很无聊。

当然,我处于劣势,但是看看这篇文章。

如果你们对这篇文章感兴趣而且赞同我的话,请帮助我和埃隆.马斯克PK。

我想说的另一件事情是,

现在出现了一种叫数据科学家和数据分析师的新职业。

基本上,他们是懂机器学习,会写一些代码的人。

也许不是写很多C代码或者C++代码。

但是可以用脚本语言写一些代码,能够快速做实验。

所以,数据科学家,把数据科学家想成

能够快速做实验并可以交给老板结果的人。

你们可以跟老板说,这是我的发现,我们可以来做那些决策。

所以,你们可以称之为干实验室(dry lab)。

你们可能听说过湿实验室(wet lab)。如果你们是学生物的,你们该知道基因组生命科学。清华的生命科学

如果你们做基因组序列的研究,那么会有湿实验室和干实验室。

计算机是干实验室。如果你们做这个,你们不需要弄湿你的手。

当你在湿实验室,在生物实验室,你们在高中的时候都去过生物实验室,对么?

你们杀过青蛙么?这显然是湿的。

所以,湿实验室,我认为湿实验室基本上是在做A2D和D2A。

你们知道A2D,对么?模数转换。

因为湿实验室就像模拟信号。

你们需要把模拟信号转换成数字信号,这就是我所说的模数转换。

所以,你们需要采样。

然后做某种操作,然后到定序器去,然后进行数字化。

所以,湿实验室是做模数转换。

一旦模拟信号变成了数字信号,你们就进入计算机科学的领域。

我们非常善于做数据科学,做实验。

干实验室,一旦你完成了,你想要做基因工程,那么你需要做数模转换。

如果你想要修改基因,也就是说你想要修改基因,制作基因

或者你想要生产干细胞,实际上你们中的一些人,当你们变老的时候,你们可以有备用心脏,

你们需要做模数转换。

现在,你们知道如何来操纵基因,然后你们操纵干细胞,那就是做数模转换。

所以,我认为湿实验室,你们在做模数转换和数模转换。然后,模拟信号变成了数字信号,

这个是我们计算机科学实验室的强项,我们是做干实验的。

我所谓数据科学家的新职业,

现在有不少大学,特别是美国的大学,像哥伦比亚大学、伯克利大学、纽约大学、弗吉尼亚大学,

他们开始设立称为数据科学研究院的多学科的领域。

前段时间我跟陈吉宁校长交流的时候,

他也正在考虑社会科学和大数据的结合问题。

所以,很多这些跨学科的东西会出现

然后,肯定会有很多我们软件的机会。

现在来谈可视化。先给你们看一个视频。

可视化也是我自己的工作的核心。我讲授全球健康。

我知道,有数据并不够。我必须以人们喜欢和能够理解的方式来展示数据。

现在,我要尝试一些以前从来没有做过的事情。在现实空间中动态展示数据

借助一些技术支持。

所以,我们开始吧。首先是一个健康的轴:预期寿命,从25岁到75岁。

往下到这里,一个财富的轴:人均收入,400美元、4000美元和40000美元。

所以,往下到这里,是贫穷和疾病;往上到这里是富有和健康。

现在,我将要向你们展示200年前,1810年时的世界。

这里有所有国家:棕色的是欧洲,红色的是亚洲,绿色的是中东,

蓝色的是撒哈拉沙漠以南的非洲,黄色的是美国。

气泡的大小表示这个国家的人口规模。

在1810年,这里非常拥挤,对么?

所有国家都处于疾病和贫穷,所有国家的预期寿命都在40岁之下,

只有英国和荷兰稍微好一些,但是也好不了很多。

现在,我开始讲述世界上发生的事情。

工业革命使欧洲和其他地方与世界上的其他国家拉开距离,

但是,亚洲和非洲的殖民国家,它们被困在那里。

最终,西方国家变的越来越健康。

现在,我们慢一些来看看第一次世界大战和西班牙流感疫情的影响。真是一场灾难!

现在,我快速讲讲20世纪20年代到30年代。

尽管发生了大萧条,西方国家还是很快地变得越来越富有。

日本和一些其他国家努力跟随着西方国家,但是大部分国家并没有很大变化。

现在,经历了第二次世界大战的灾难,我们停止了一段时间。

看看1948年的世界。1948年是伟大的一年:战争结束了。

瑞典在冬季奥运会上荣登奖牌榜,我出生了。

但是世界上国家之间的差距比以前更大了。

美国在前面,日本紧随其后,

巴西被远远甩在后面,伊朗因为有石油变得富裕了一些但是人均寿命仍然很短。

还有亚洲的巨人:中国、印度、巴基斯坦、孟加拉国和印度尼西亚,

它们还是处于贫穷和疾病之中,在下面这里。

但是看看发生了什么!我们又到了这里!

在我出生以后,之前的殖民地获得了独立,最终它们变得更加健康、更加健康、更加健康。

在20世纪70年代,亚洲和拉美国家开始赶上西方国家。

它们变成了新兴经济。

一些非洲国家跟上来了,一些非洲国家陷入内战,其他非洲国家被艾滋病所困扰。

现在我们可以看到今天的世界,在最新的统计中。

现在大部分人们生活在中间状态。

但是最好的国家和最差的国家之间仍然存在巨大的差距。

国家内部也存在着巨大的不平等。

这些气泡展示的是国家的平均水平,但是我可以把气泡分开。

比如中国,我可以把气泡分成不同的省。

这里是上海,它与现在的意大利拥有相同的健康和财富水平。

这里是贫穷的内陆省份贵州,它就像巴基斯坦。

进一步细分,农村地区就像非洲的加纳。

然而,尽管存在现在这么巨大的差距,我们还是看到了200年的显著的进步。

现在,西方和世界其他部分之间巨大的历史性差距正在变小。

我们已经变成了一个全新的融合的世界,我看到了未来的清晰的趋势。

有着援助、贸易、绿色技术和和平。

每个人都到达健康和富有的角是完全可能的。

好了,刚才的几分钟你们看到的是200个国家在过去200多年的故事。

其中包括120,000个数字的绘制,非常整洁,不是么?

所以,Hans实际上是一个做可视化研究工作的教授。

当然,他为BBC做了这个。所以,他有一个非常大的屏幕来展示这些数据。

但是所有这些东西,用现在软件在任何屏幕上做可视化的展示是绝对有可能的。

刘世霞博士会给你们讲可视化。

这里我想再次强调,微软确实拥有这些技术。

来帮助人们很容易地实现那些类型的可视化。

当然,你们可以说我能写Micromedia,所有这些东西和Flash,写所有这些东西。

不是这样的,我的意思是,通过数据和图形。

然后展示自然动画。这是真正的可视化。

现在,我确信你们都相信可视化有多么重要。

仅仅是一个不到五分钟的简单视频。

现在,你们已经了解到,Hans提到他使用到了这么多数据点,

在过去200多年超过200个国家几百万的数据。

而且还有好的历史教训。你们看到了一些颠簸。

第一次世界大战,西班牙流感……特别是在预期寿命上。

在一些特殊的年份,你们也看到中国的预期寿命有所下降,你们知道这是什么,发生在哪一年。

所以,这是一个强大的可视化的示例,但是他没有告诉你为什么,为什么可视化如此强大。

因为决策者,我们称为领导……

领导们没有时间去做大数据的东西,没有时间来真正地做所有这些

我们做所有的大数据试验,然后我们向领导汇报我们的发现。

领导恰好看到并说,哦,我知道,这就是关键所在,我可以做一个商业决策了。

因为领导们做决策。所以,你怎么样才能够让领导立刻看到洞见呢?可视化!

这真的是一个非常好的方式。

因为如果你展示所有这些表格,一些领导看到这些数字,然后就晕了,对么?

所有,没有什么比可视化更强大。

我使用过COBOL。

你们都不知道COBOL。你知道COBOL么?实际上,我用COBOL写过程序。

让我来告诉你们COBOL是什么。

COBOL是一种,在60年代,由IBM发明的。

实际上,COBOL语言是为领导提供的。

如果你们看过COBOL的话,这个语言就像一个报表。

So anyone, it's actually a programming language.
所以,任何人,它实际上是一门编程语言。

在商业世界,向领导展示的最好方式就是可视化。

所以,它们某种程度上看起来更像一种数据库类型的语言。

然后,它们能够理解,哦现在我可以做一个商业决策了。这和COBOL非常相似。

你看我说的是,数据分析的最终目的是为老板服务。

当我说老板的时候,我的意思是指决策者。

决策者不像我们这样,可以编程来做这些东西。

所以,我们要如何准备和展示。

而且,可视化不仅仅是一个故事。

有时候你讲一个故事,我准备一些东西去见我的领导。

我想要推销一个想法。我得给他们讲一个特别的故事。

但是领导也是非常聪明的。领导会说,哦,另一个视角是什么样的呢?

所以,你可以可视化应该是可以交互的。

所以,故事不仅是一个维度的。

虽然我给你们带来了一个视频,但是随后你还可以继续探索……真正地从不同的角度来看。

例如,它们告诉我,在中国,如果我区分不同的城市,贵州和上海。

它们之间存在巨大的差异。

所以,当你真正看一个可视化的时候,它需要是交互式的。

领导会问你很多问题。

你需要当场立刻回答。

你不能说,哦,你问得好。

领导,你的问题非常好。

一个星期以后,我再来向你展示结果。

你可以那样做,但是你会失去机会。

也许还有人会推销给领导一个不同的主意。

他会赢,领导做了决定。

所以,可视化很重要。

可视化不仅仅是一个吸引人的视频,或者吸引人的单维度展示。它需要是交互式的。

马上,如果有人问任何问题,

然后你都能够做一些事情并说,耶,这就是可视化的效果

所以,我想这就是可视化的重要性。

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。