当前课程知识点:微软亚洲研究院大数据系列讲座 >  第一讲:大数据研究现状及未来趋势(洪小文) >  新的计算基础设施和工具(New Infrastructure and tools) >  新的计算基础设施和工具(New Infrastructure and tools)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

新的计算基础设施和工具(New Infrastructure and tools)在线视频

新的计算基础设施和工具(New Infrastructure and tools)

下一节:课程简介(Course Introduction)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

新的计算基础设施和工具(New Infrastructure and tools)课程教案、知识点、字幕

现在,大家可能都听说过3V或者5V。

如果你在互联网上搜索,那么你还可以找到很多V。

实际上,我找到了至少8个V。

我认为右边的5V是确实没有争议的。

大体量,我们讨论数据量会有多大。

然后是实时性,即数据的速度。

实时性是指数据进来的速度。

现在,特别是传感器网络的数据,

我的意思是,传感器网络真的会在一秒钟之内进来

大量数据。

例如,PM 2.5的值

每秒钟都在发生变化。

如果你真的想做大数据分析。

因为天气每秒钟都在发生变化。

因此,这就是所说的实时性。

然后是多样性。

在过去的数据库世界,特别是商业世界。

大部分数据都是结构化数据。

你们谈论数据库。

现在,很多数据都是非结构化数据,其中包含多种因素。

一些数据甚至有与之关联的概率。

然后,另一个可能被提到的V是真实性。

真实性是指数据的可信度如何。

我的意思是,大数据非常重要,这是因为

如果我们谈到错进错出。

因此,隐私,安全,确保数据不被损坏。

27
I mean because we talked about Internet hacking
我的意思是,我们谈到网络黑客。

我们说互联网是一片狂野的土地。

数据的完整性可能受到影响是真的。

因此你们认为你们是……

实际上,人们会去那里……错误的数据。

破解你的系统。

因此,真实性在未来会变得越来越重要。

因此,真实性。

因此,价值,大数据确实提供了很多很多的价值。

还有其他人们正在谈论的V。

大数据是非常易变的,我认为谈到动态性。

动态性是指数据会随时间如何变化。

另一件与之很相关的事情,

但是并不是一模一样事情就是易失性。

易失性是指数据在多长时间内是有效的。

因为易失性意味着有些东西可能会是错的。

像PM 2.5这样的数据

只是在这个小时内是有效的。

到了下一个小时,你需要获得新的数据。

数据有一个与之相关的时间戳。

因此,这就是我们在这里所说的。

下一个是可见性,它通常是指什么呢?

因为你不想要,如果某件事情是一个黑盒,那么它就会是不好的。

你想要一些事情更像玻璃杯一样。

至少像某种半透明的盒子一样。

实际上,你可以看到其中发生了什么并进行诊断、

辩论和分析。

因此,我认为这就是人们所谈论的大数据的N个V。

我们讨论如何组合,是么?

在这行里面,你可以看到所有的数据。

每列中的信息看起来像某种来源和顾客。

谁会来用这些数据呢?

例如,科学数据,当然很多科学发现。

当然,科学和保健很相关。

因为会发明很多新药和新的过程。

当然,科学也会刺激新的技术。

因此,我想这里的加号意味着数据与特定消费者的相关程度。

然后,同样的,当然保健也会在事实上带来很多科学发现。

因此,这个幻灯片展示了展示大家收集数据。

你能够用数据找到的相关性越多,

实际上你就能发现更多洞见和做出正确的决策。

第四点非常重要。

它是大数据的一个很大的部分。

我想如果你们看看任何教材或者任何课程。

你们就会对它很关注。

因为特别是你们中的大多数人都想学习大数据,

什么样的工具或者基础设施

能够真正让你释放你的想法。

当你想用数据来进行某种创新,

你们中的大部分人都会真正变成大数据基础设施的用户。

大数据应该和微软的Office或者操作系统一样,

使得每个有好主意的人都能够将注意力聚焦在自己的领域上。

你们不需要成为计算机科学家

来建设所有这些新的基础设施。

当然,我知道你们中的很多人都是计算机专业的。

你们可以进行额外的探索

来把新的基础设施和工具真正做得更好。

但是对于真正的普通大众,

他们只想要交钥匙的解决方案。

他们能够真正的使用这些工具来提出自己的洞见和想法。

我想特别是开源的Hadoop。

下一张幻灯片是关于主体架构的。

我想每个人都能画出略有不同的架构。

实际上,我保存了这个架构并对其进行了修改。

我们看到微软特色但同时我们也尽量使其通用

就像你们看到的。

甚至是微软现在的大数据架构。

我们使用了很多开源的Hadoop,Apache Hadoop栈。

稍后我将回到这张幻灯片再来谈谈。

但是这基本上就是全部栈的力量了。

特别是Apache开源栈。

这真的给人们提供了非常非常好的平台

来做很多大数据应用和分析。

然后你确实需要基本的云基础设施,是么?

云计算,如存储、网络和计算。

非常基础的云计算基础设施。

然后是异构的多供应商服务整合。

因为你真的能够获得开源栈。

你也可以从微软、Oracle、IBM这样的公司获得。

因此,实际上需要支持异构的多供应商服务整合。

然后,就数据而言,

传统的数据仓库,

像数据仓库这类技术

你们怎么采集数据?

你们怎么存储数据、清洗数据?

或者甚至组合传统数据库。

这始终是非常重要的。

因为未经处理的数据是非常难于用上的。

你需要处理数据。

通常包括……

增加一些额外的标签

做相同的结构以便后面

你不会无法处理这些非结构化数据

然后是安全和隐私

谁会真正看到一些数据

我是说像微软这样的公司或者任何云的提供者

这点非常核心因为没有人

现在我们不谈政府或者军队

我们只讨论任何真正的……公司,像民营公司

你会放心地把你的……

价值存在于数据以及数据分析中

你会相信公司并把数据存放在它们的云基础设施中么?

如果公司真的去看数据,

我相信你不会,你不会希望是这样。

这就是为什么数据安全变得非常非常重要。

让我只是……有一件事情我肯定以后。

霖涛和清华的教授会介绍更多有关这个基础设施的内容。

像微软、IBM、Oracle

这些提供云基础设施的公司

非常重要的是,我们要确信在我们提供的云里面,

我们看不见数据。

因此,只有程序能够看见数据。

另外需要被签名

很多时候,你甚至需要让数据被加密

因此,这意味着甚至,

首先这是一个信任问题。

你信任像微软这样的公司。

我们说我们不会看你的数据。

当然,我可以告诉你们,你们可以信任微软。

但是原因不是因为我这么说,

而是因为像微软这样的公司,

如果我们做不到这一点,

没有人会真正使用我们的云基础设施。

因此,就像如果我是开银行的

我有保险箱

如果你们不信任银行,

你们就不会把值钱的东西放在保险箱里面。

因此我想首先是信任问题。

另一件事情,对很多人

信任可能还不够

因此,没关系,实际上你可以加密你们的数据

然后在这个过程中,在服务器上,

一旦你们加密了数据,

只有你们有密钥,你们只需要关心密钥

但即使是这样,

因此,现在有一种新的计算

你真的能够对加密数据进行计算么?

这样一来,你要确保

没有人,甚至过程也不能够看到数据

当然,从理论上来说,

有人正在研究这些类型的加密。

这种类型的加密允许对加密后的数据进行计算。

新的趋势是像Intel这样的芯片厂商

提供了这样的机制,

让解密在芯片内完成。

由于Intel没有运行数据中心

像微软这样的公司运行了数据中心

因此,当然我们没有详细的技术

密钥会被发送给芯片

芯片对数据解密和执行计算

计算完成之后,芯片将计算结果加密

因此,像微软这样运行云基础设施的公司

我们没有办法看到加密的数据

因为所有的解密和计算都是在芯片内部完成的

因此可以100%地保证安全

因此你们可以看到这样的芯片在未来1~2年会逐渐推出

我想这向你们展示了安全是多么重要。

特别是,如果你们想要政府

或者甚至是非常非常安全的军队这类运营

把运营放在云端

不论你们正在做私有云还是公有云

你们都需要确保数据安全和隐私

此外,我提到的Hadoop

以及可以完成这个反馈闭环的数据分析

我提到过最重要的是发现洞见

因此,传统的数据挖掘和实时流分析

然后是数据可视化

稍后我们向你们展示数据可视化有多么重要

这只是一个快速的概述

为什么各种力量会来驱动所有这些大数据

因为数据获取和存储的成本接近于0

组合数据的能力

新工具的可获得性

这些真正使大数据时代到来了

还有很多……

现在,如果你们去任何一家公司

不管是多么大的公司或者多么小的公司

你们问人们关于商务智能

在商务智能的世界,大数据

没有人会对此表示质疑

每个人都想要解决方案

这是巨大的商业机会

无论是对于初创公司,还是中小型公司

或者是大公司,他们都需要这个

其原因都在于洞见、商务智能和商务决策

如果你想要领先其他人

213
So no matter which area you do this
不管你在任何领域想要做到这一点

你都需要创新

你可以拥有优势

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

新的计算基础设施和工具(New Infrastructure and tools)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。