当前课程知识点:电子信息科学与技术导引(1) > 第六讲:数据与算法 > 第八节:大数据 > 第八节:大数据
大数据是现在
最为火热的概念之一
从学术界到产业界
从政府到普通民众
大家都在讨论大数据
我们的数据究竟达到了
一个什么样的规模呢
我们来列列举一些数字
全球互联网用户
已经达到25亿
电子邮件的用户达到22亿
而手机用户已经达到55个亿
前几年非常流行的歌曲
江南style
他的在线视频
在发布后的5个月
已经被播放超过了10亿次
美国国会图书馆的数字收藏
大约为5000个TB
而Google搜索引擎的
索引规模
约为10万个TB
而世界上每年发出的
电子邮件规模
可以达到300万个TB
因此人类拥有的数据规模
确实已经到了
极为惊人的程度
很多人都已经认识到了
大数据蕴藏的巨大价值
成功的互联网公司
更是其中的先行者
Google为全世界的公开网页
建立了最为庞大的索引
Facebook积累了全世界
最为庞大的人际关系数据库
而亚马逊则拥有全世界
最为庞大的商品数据库
国内的主要互联网厂商
如阿里巴巴腾讯百度
也拥有了自己的大数据
他们是成功的互联网企业
他们也是大数据的
拥有者和探索者
不同的数据资产
决定了他们不同的战略选择
和商业模式
在发挥大数据的价值方面
我们已经看到
有一些成功的案例
Google根据人们相关搜索的
地域和频度
甚至能比疾病预防和控制中心
更早的预测各地的流感趋势
其中的原因在于
Google可以接触到
患者和家人
因为他们需要用搜索引擎
去获取相关的信息
而疾控中心需要从各地诊所
和医院去收集数据
尽管这个技术仍需要完善
但其中蕴藏的价值
已经得到了普遍的认可
第二个例子是关于
机票的预定
大家都会有这样一个认识
订票订的越早
票价就会越便宜
但实际情况并非如此
创办于2003年1月的farecast
于2006年6月发布了
他们的网站测试版
他们通过对
900多亿份历史机票价格
进行存储和分析
从而对某个航班
在未来7天里的价格升降
进行预测
并给出现在的票
是否值得购买的建议
2008年4月
farecast被微软收购
随后被整合到了
微软的搜索引擎必应中
第三个例子是阿里巴巴
开展纯信用的小额贷款服务
也就是不需要抵押
完全靠信用企业的信用
去发放贷款
他们依靠大数据分析
来评估相关企业的金融状况
据报道阿里小贷公司
成立4年来
累计放贷80万户
累计投放纯信用贷款超过
2100亿元
他们的坏账率不足1%
户均贷款余额不超过4万元
就在上个月2014年7月
阿里巴巴已经联手7家银行
退出了更大规模的
纯信用贷款业务
第四个例子
是被戏称为白宫甄嬛传的
纸牌屋
他的制片商是Netflix
是一家在线影片租赁提供商
用户规模已经超过千万
这使他们拥有
海量的用户订阅数据
Netflix开始制作
原创的电视剧
在选题和演员选择上
充分利用他们的大数据
和数据挖掘能力
他们经过挖掘和评估
他们花费1亿美元
买下了一部早在1990年
就播出的BBC电视剧
纸牌屋的版权
并请来了最合适的
导演和演员
纸牌屋第一季就获得了
巨大的成功
进而带动了Netflix的业绩
2013年第一季度
Netflix盈利6.38亿美元
创下历史新高
同时这部电视剧
还获得了2013年的
艾美奖和金球奖
随着手机的普及
人们关心进而长期争论的
一个问题就是
打手机是否会影响人的
身体健康
这方面的研究工作很多
一些研究的结论还不尽相同
一个关于手机辐射
和脑癌关系的最新大规模调查
是在丹麦进行的
丹麦是世界上手机普及率和
宽带普及率最高的国家之一
不同于以往的调查方式的是
丹麦的研究人员
从丹麦移动电话网络运营商
和丹麦癌症机构采集的信息
用于研究
这项针对了近36万人
长达18年的调查结果显示
脑癌的发生几率
与是否使用手机无关
通过这些具体的应用案例
我们可以看到大数据的价值
在逐步浮现出来
并且得到越来越多的认可
2007年,图灵奖得主
Jim Gray在
全美科学研究委员会
计算机科学和电信委员会的
会议演讲中
提出了科学的第四个范式
他们认为在一千年以前
主要是实验科学
人们从事的主要是
通过实验去描述
和解释自然现象
数百年以前兴起了理论科学
他们的代表是牛顿力学和
麦克斯韦方程
几十年以来
计算科学得到了迅速的发展
人们关注对复杂现象的
模拟和仿真
而今天数据密集型科学
方兴未艾
社会生活中充斥着
多元异构的数据集合
因此对数据处理技术和工具
提出了迫切的需求
2012年10月
哈佛商业评论上
有一篇文章声称
21世纪最性感的工作就是
数据科学家
他们认为数据科学家集
数据黑客分析师
沟通大师和受信任的顾问
于一身而这些能力的结合
极为强大同时又非常稀缺
同样在2012年
瑞士达沃斯世界经济论坛
发布了题为
大数据大影响的报告
数据已经成为
一种新的经济资产类别
就像货币和黄金一样
所以他们呼吁
各国政府和社会各界
要行动起来
抓住大数据的发展机遇
数据是人们通过对物理世界
观察形成的符号表示
是知识和信息的原始材料
今天人们更形象的称
数据是观察人类社会
自身行为的显微镜
和检测大自然的仪表盘
因此大数据对
人类社会的发展
带来了新的机遇
同时也提出了巨大的挑战
-第一节 序言
--第一节 序言
-第二节 电磁学和分析数学发展史:磁学
-第三节 电磁学与分析数学发展史:静电
-第四节 电磁学和分析数学发展史:动电
-第五节 电子器件的发明及电子技术的发展
-第六节 电磁学的广泛应用
-第七节 电磁系统理论
-第八节 电子科学技术各学科间的关系
-第九节 电子科学技术的学科体系
-第一讲:电磁学与分析数学史概览--第一次作业
-第一节 序言
--第一节 序言
-第二节 电磁场(一)
-第三节 电磁场(二)
-第四节 物质
--第四节 物质
-第五节 电磁场与物质的相互作用:非共振作用
-第六节 电磁场与物质的相互作用:共振作用
-第七节 电磁场理论与电路理论
-第一节 空间离散化
-第二节 静场电路分析
-第三节 非静场电路抽象
-第三讲:电路抽象--电路抽象 练习题
-第四节 电路元件抽象
-第五节 非线性元件抽象
-第六节 电路抽象三原则
-第七节 分层抽象思想
-第八节 电路基本问题
-第九节 数字化抽象
-第三讲:电路抽象--Quiz 3
-第一节 序言
--第一节 序言
-第二节 什么是比特
-第三节 比特与编码
-第四节 比特与信息
-第五节 比特的用途示例
-第六节 什么是逻辑
-第七节 逻辑的用途示例
-第八节 与数字电路的关系
-第九节 小结
--第九节 小结
-第四讲:比特与逻辑--Quiz4
-第一节:从算盘到ENIAC
-第二节:通用计算机模型
-第三节:指令集体系结构
-第四节:程序和程序设计语言
-第五节:处理器的工作原理
-第六节:性能问题
--第六节:性能问题
-第七节:小结
--第七节:小结
-第一节:数据与数据处理技术的发展
-第二节:数据处理举例
-第三节:数据模型和算法的概念
-第四节:问题的抽象和建模
-第五节:数值分析问题研究
-第六节:数据和算法的关系I
-第七节:数据和算法的关系II
-第八节:大数据
--第八节:大数据
-第九节:数据挖掘技术和数据算法的展望
-第六讲:数据与算法--Quiz6
-第一节:基本内容简介
-第二节:信息的基本概念和传输的几种方式
-第三节:交换的概念和网络的几种形式
-第四节:模拟与数字通信
-第五节:调制和解调
-第六节:传输涉及的基本理论
-第七节:信息论和几种相关的编码方式
-第八节:多址方式
--第八节:多址方式
-第九节:交换的基本概念
-第十节:网络分层的基本概念
-第十一节:互联网的基本原理和有限状态机模型
-第七讲:通讯与网络--Quiz7
-第一讲:内容简介
--第一讲:内容简介
-第二讲:信息与媒体
-第三讲:人类感知与认知
-第四讲:智能信息处理
-第五讲:媒体与认知相互作用
-第六讲:媒体认知应用
-第七讲:总结
--第七讲:总结
-第八讲:媒体与认知--Quiz8
-期末考试--Final Exam





