当前课程知识点:微软亚洲研究院大数据系列讲座 > 第一讲:大数据研究现状及未来趋势(洪小文) > 大数据与传统商业智能的区别(Big data:different from traditional BI) > 大数据与传统商业智能的区别(Big data:different from traditional BI)
然后,大数据。商业智能也是现在的一个重要的流行词。
在现实生活中,商业智能已经存在了20年。
早在你有……自从你有了数据库。
记住,商业总是在运作的。
我的意思是,否则,谁来挣钱呢?谁来付账单呢?
数据库是60年代发明的,然后它就成了主流。
商业软件在过去的50年。
商业智能一直存在。
但是大数据不同于商业智能,
因为在过去,大部分都是诊断,描述性的。
就像事后,你去找出原因。
现在,大数据允许你做更多预测,做更多建议性。
你可以针对某事件提供一些建议,甚至是消除某些事情。
所以,我认为,这就是为什么数据科学家和过去的商业分析师非常不同。
我想这是另一种描述这个的方式。
现在,你有了这些数据科学家。但是你还是需要领域知识。
因为数据科学家,他们只知道通用的机器学习和数据分析工具。
你需要理解领域。
通常,商业客户会和数据科学家做在一起,
它们努力做评估,
看看你是否需要开始一个大数据项目
然后包括一些分析的东西,一些反复来理解领域。
最终,一旦他们建立了一个应用,他们就把这个应用上线运行。
所以任何一个不是大数据科学家的人都可以享用应用及其带来的效益。
然后,这里是另一个视角,
它更加……也是在系统和基础设施之中。
还记得么?数据结构化的一侧,数据非结构化的一侧。
当你看到大象的时候,你知道这是Hadoop。
Hadoop处理非结构化的一侧。
然后,有许多事情,你有两个数据进来,
关系数据库,传统的结构化数据,XML块
可以是任何非结构化的、多结构化的数据进来。
尽管你通过某种Hadoop基础设施,处理非结构化数据,
但是最终,你实际上会在非结构化数据之上添加结构。
这就是你可以做可视化的原因。
如果数据仅仅是原始数据,你是不可能做可视化的。
你需要在原始数据之上添加结构。
所以,你可以从原始数据获得GDP和预期寿命,
然后你可以把细分到男性、女性、年龄组,所有这些东西。
一旦你完成了那些,你可以把它们放进传统数据库,
所有这些传统的工具,SAS,所有这些数据挖掘的东西。
然后你可以做分析,生成报表,生成可视化的结果。
所以,在某种程度上,数据也能够被称为信息工厂。
总而言之,就是一个关于探索、丰富和发布周期的。
然后,一旦你发布了,你可以收集数据,
你可以发现新的事实。然后,你丰富你的模型并重新发布。
所以,我认为每一件事情都可以闭环。
然后,监控、挖掘、管理模式,这是另一种实现这个的方式。
这就好像你有一个事件数据进来,
进入你的数字鞋盒,这基本上就是做大数据分析的东西。
你称之为一个模型并在真实世界里使用这个模型。
然后,不仅你可以为用户提供服务
实际上你可以获得新的数据
然后看看你是否需要修改模型来做一些分析。
此外,无论是科学发现,还是一个商业智能系统,
其功能都是类似的,就像这张图描述的一样。
到这里,我的第一次课接近尾声了。
我所说的都是关于闭合反馈环路。
我想在很多领域,反馈环路的概念都是很常见的。
我的意思是,自动控制系称之为控制。
控制都是关于闭合反馈环路的。
我想关键在于,正如我所说的,多快能闭合反馈环路。
看看人类,我们的文化的整体进步都是关于闭合反馈环路的。
不论是一个产品,还是一个过程。
过去,我们可能需要100年来闭合反馈环路。
现在,你可以非常非常快地闭合反馈环路。
我的意思是,西班牙流感和历史上其他大的流行病事件。
在那个时候,
没有人……我是说10年之前的SARS,没有人知道应该怎么办。
但是现在,非常快的……你可以做基因分析。
这都是关于快速闭合反馈环路,所以你可以做更多实验。
记住,如果我可以在你做一次实验的同时做100次实验,我就很可能会赢。
我不是……尽管你比我聪明,对么?
另一个看待这个的方式是获得洞见的时间,
在商业世界,我们称之为产品上市时间。这里是获得洞见的时间。
大数据就是关于我能如何帮助你减少获得洞见的时间,
所以,更好地学会领先你的竞争者,领先任何其他人。
接下来,可用数据的回报。
有一个重要的商业术语,投资回报。
当你投资某家公司的股票,你的投资回报是什么?
当你开办一家公司时,你的投资回报是什么呢?
但是,未来人们会问可用数据的回报。
数据获取,虽然我说其成本接近0,
这是说你不需要人来输入数据,
但是拥有数据的人,
人们认识到的一件事情是,谁拥有数据集,非公开的数据集,
你可以卖很多钱的数据集,如果你思考这个的话。
换一个说法吧,
很多时候,我们说一些特定的领导……
任何位置上的领导。我们说某个领导很了不起,
记住,领导有很多信息,而我们没有。
在微软,CEO萨蒂亚有的信息,我没有。
他不一定比我聪明。但是他有很多信息,而我没有。
习总书记有很多信息,我们也没有。
我的意思是,在他的位置上,他还能比我们更快获得信息。对么?
所以我用这个来说明,数据,最后,不一定是一种普通商品。
数据不是普通商品,公开数据除外。
在商业世界,有很多信息通常是保密的。
就像早期的销售数据,微软,我们刚刚在十一之前,也就是9月29日推出Xbox。
我们有一些早期的数据,它们在零售商和电子商业网站销售得怎么样?
这些数据非常有价值,请记住获得洞见的时间……
显然,我们不会与索尼和其他游戏开发厂商分享数据
所以数据本身并不是普通商品。
为什么我们开始所有这些大数据的东西
我们需要记住,你能够获得的任何数据
它们也想要你为数据付费。
这就是为什么它与我们前面谈到的可用数据回报、投资回报相关。
这就是关于……实际上非常简单……就是一个反馈环路。
然后你想要感知世界以获取数据,
然后分析和理解
以修改和改进你的模型。
然后继续去做另一个系统。
所以,在云里面,令人兴奋的事情是你可以马上部署
所以你真的可以以天或者小时来闭合反馈环路。
搜索……网络搜索和信息检索是非常好的大数据的例子。
因此我们会有一次课来讨论网络搜索和信息检索。
宋睿华博士会讲网络搜索和信息检索。
事实上,你已获得你需要的所有信号来做一个更好的搜索系统。
我想你很可能听说过这个。
理想的情况是,很多人说,不论是百度、谷歌或者微软研究院。
未来……在你输入搜索查询请求之前,我们就已经知道你想要什么了
根据时间、你是谁等等所有这些信息(判断出来)
所以,搜索本身就是一个大数据应用。
这就是为什么这门课的下一讲,我们实际上就以搜索作为案例来研究
来向你展示大数据系统在真实世界如何被部署和建立
还有城市计算,实际上我们为城市计算安排了两次课
如你所知,现在的环境……
就空气质量来说,我想说今天是最差的一天之一。
每个人都关心这个。
人们希望看到改善。
我们如何结合传感器技术和大数据,
为我们来闭合这个环路,通过闭合这个环路来找到原因,
闭合环路以使很多城市计算成为可能,
不仅仅是环境,而且包括交通,打出租车,城市中各种各样的东西,
我们如何使用大数据来真正的改进这些服务
还有,情感分析、意见挖掘和社交网络。
我想不只是对公司,而且对个人也是如此,对么?
现在,你会听到各种各样的意见,因为每个人都可以表达他们的意见。
但是你如何去挖掘和分析,
快速知道人们怎样评价你的产品和服务,
人们如何评价你的竞争对手,相似的产品和应用,对么?
所以情感分析和意见挖掘真的是一个非常大的部分。
特别是所有社交网络数据,很多社交网络数据是公开的。
这些数据是公开的,这就是一个好的机会。公开意味着免费。
你怎么样来使用这些数据来真正做一些好的东西
来打造你想到的任何好的应用和服务?
社交网络分析甚至向下延伸到一个新的层次,到更加个人化的层次。
来发现影响力以及其他所有的分析。
陈卫和我们的一些研究员也在做这些方面的研究。
这些也是非常好的计算机科学研究项目。
因为你看,节点和网络的规模都是巨大的,
从图论的角度来看所有这些东西。
你有一个可以分析的真正的大规模图网络。
所以,我们会有一节课来介绍这个。
最后是基于大数据的软件分析。
这是什么意思呢?我们,我们都是码农。
你都知道码农,我们都是程序员,对吧。
我们为应用写代码,不论是移动应用,还是云服务。
我们如何使用大数据来改进这个过程呢?
正如你所知,没有程序是没有bug的。我们如何使用大数据来帮助我们找bug呢?
我们也会在真实世界中运行这个软件来帮助我们流畅地运行服务,所有服务。
如果你曾经运营过网站,你总是需要维护它。
有时候,你需要定期重启服务。
我们怎么样使用这些软件分析的东西,
使用大数据来帮助我们写出更好的软件和更好的服务呢?
这就是使用大数据进行软件分析的课题。
基本上这就是我第一次课要讲的所有内容了。
在剩下的时间里,我想请大家提问。
对于我不能回答的问题,
我可以请讲授所有这些课程的优秀的研究人员和教授来回答。
所以,我会选容易的问题来回答。
-什么是大数据(What is big data?)
-为什么大数据是当前热点(Why big data is a nature phenomenon?)
--为什么大数据是当前热点(Why big data is a nature phenomenon?)
-新的计算基础设施和工具(New Infrastructure and tools)
--新的计算基础设施和工具(New Infrastructure and tools)
-课程简介(Course Introduction)
-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
-大数据与传统商业智能的区别(Big data:different from traditional BI)
--大数据与传统商业智能的区别(Big data:different from traditional BI)
-Quiz
--Quiz--作业
-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
-探寻搜索的多个维度(finding dimensions for queries)
--探寻搜索的多个维度(finding dimensions for queries)
-Quiz
--Quiz--作业
-背景介绍(background)
-用户移动规律的理解-1(user mobility understanding-1)
--用户移动规律的理解-1(user mobility understanding-1)
-用户移动规律的理解-2(user mobility understanding-2)
--用户移动规律的理解-2(user mobility understanding-2)
-用户画像与个人隐私-1(user profiling and privacy-1)
--用户画像与个人隐私-1(user profiling and privacy-1)
-用户画像与个人隐私-2(user profiling and privacy-2)
--用户画像与个人隐私-2(user profiling and privacy-2)
-Quiz
--Quiz--作业
-城市计算中的大数据研究简介(introduction to urban big data)
--城市计算中的大数据研究简介(introduction to urban big data)
-概念,框架和挑战(concepts,framework and chanlleges)
--概念,框架和挑战(concepts,framework and chanlleges)
-基础技术(fundamental techniques)
--基础技术(fundamental techniques)
-城市规划(urban planning)
-识别特定区域(indentify functional regions)
--识别特定区域(indentify functional regions)
-城市空气质量与大数据研究(urban air quality meets big data)
--城市空气质量与大数据研究(urban air quality meets big data)
-能源交通和环境污染(traffic energy and pollution)
--能源交通和环境污染(traffic energy and pollution)
-大数据在城市噪音处理中的应用(diagnose urban noise with big data)
--大数据在城市噪音处理中的应用(diagnose urban noise with big data)
-Quiz
--Quiz--作业
-软件分析的概念(the concepts of software analytics)
--软件分析的概念(the concepts of software analytics)
-软件分析的实例(examples of software analytics)
--软件分析的实例(examples of software analytics)
-传统的数据可视化(Traditional information visualization)
--传统的数据可视化(traditional information visualization)
-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
-Quiz
--Quiz--作业