当前课程知识点:健康信息学 > 第三章 健康信息与健康大数据 > 3.2大数据时代对人类健康管理的意义 > 3.2大数据时代对人类健康管理的意义
欢迎大家来收看健康心理学这门课
今天我们要讲什么是大数据
大数据时代对人类健康管理的意义
首先介绍大数据平台
根据互联网数据中心
IDC 研究项目的统计
2010年全球数字世界的规模
首次达到了1.227ZB级别
先给大家普及一下数量级的概念
1MB多大
相对于一个20页的PPT
或一本小书
1GB = 1024MB
相当于书架上9米长的书
1TB =1024GB
相当于300小时的优质视频
美国国会图书馆存储容量的十分之一
1PB = 1024TB
相当于35万张数字照片
1EB = 1024PB
相当于1999年全球生成的信息的一半
1ZB = 1024EB
暂时无法想象
根据互联网数据中心的报告
2012年全球的数据总量在2.7Zb
1Zb相当于十万亿亿字节
预计到2020年
全球的数据总量将达到35Zb
而2005年这个数字只有130EB
基本上5年增长了10倍
这种爆炸式的增长
意味着到2020年
数字世界的规模将达到40ZB
即15年增长300倍
如果单就数量而言
40ZB相当于地球上
所有海滩上的沙粒数量的57倍
如果用蓝光光盘保存这些40ZB的数据
这些光盘的重量
相当于424艘尼米兹级航空母舰的重量
尼米兹级航空母舰的重量是10万吨
或者相当于世界上
每个人拥有5247GB的数据
无疑我们已经进入了一个大数据时代
研究机构Gartner给出了这样的定义
大数据是需要新的处理模式
才能使你具有更强的决策力洞察力
和流程优化能力的海量
高增长率和多样化的信息资产
在维克托和肯尼斯编写的大数据时代中
书里面写到
大数据指不用随机分析法或者抽样法
这样的捷径
而采用所有数据进行分析处理
大数据的5V特点就是
大量 高速 多样
价值和真实性
IBM说
可以用3个特征相结合来定义大数据
数量 种类 速度
或者就是简单的3V
即庞大的容量
极速的速度
和种类丰富的数据
大数据一词是如何风靡世界
2011年5月美国麦肯锡全球研究院
发表了一篇文章叫Big data
这个文章
就是大数据未来创新竞争
生产力的指向标的研究报告
大数据这个关键词
便由此让大家记忆犹新
2012年3月29日
奥巴马政府宣布投资2亿美元
启动大数据研究和发展计划
可见美国政府已经把大数据
上升到了国家战略的层面来推进
华尔街日报更是将大数据
智能制造和无线网络
并列为当代三大技术变革
IDC说
大数据是一个貌似
不知道从哪里冒出来的一个动力
但是实际上大数据并不是新生事物
然而
它确实正在进入一个主流
并得到重大关注
这是有原因的
廉价的存储
传感器和数据采集技术的快速发展
通过云和虚拟化存储设施
增加了信息链路
以及创新软件和分析工具
正在驱动着大数据
大数据不是一个事物
而是一个跨多个信息技术领域的动力活动
大数据技术描述了新一代的技术和架构
其被设计用于通过使用高速的采集
发现和分析
从超大容量的多样的数据中
经济地提取价值
这个定义除了揭示大数据的
3V基本特征
即大容量 多样化 高速
还增添了一个新特征
就是价值
一个大数据实现的主要价值
可以基于下面3个评价准则中的
1个或多个进行评价
它提供了更有用的信息吗
它改进了信息的精确性吗
它改进了响应的及时性吗
事实上
大数据或者说极限信息
具有12个维度
该图展示了极限信息
管理的3个层次和12个维度
象限
第一层就是量化指标
指的是大数据的一个基本特征
即大数据量 多样性 高速
即传统的3V
另外还加上了复杂性
包括空间维时间维等多种数据复杂性
大数据解决方案
应首先考虑这些问题的出发点
解决这4个方面的问题
只是大数据解决方案的基础
用以支撑起大数据的平台
第二个层次就是
访问权限管理和控制
有很多关于访问权限的问题
大数据的重点问题之一
就是数据交换的所有方式
都以标准的协议来支持的
因为在大数据的时代
数据的来源本身是多样性的
数据的格式甚至是无法管理的
还有很多的数据来自于企业外部
来自于互联网的提供商
到底如何进行这些协议
自动化地将数据传送到数据仓库里面来
这种情况下数据的共享协议
是一个很关键的问题
最上面一个层次
就是质量管理
应该说
是传统数据管理中非常重要的一个方面
上面介绍大数据从12个象限的角度
还只是一个初步
因为里面一些非常基本的问题
到现在还没有解决
大数据的形态有很多
现在仍然是非常雏形的阶段
就拿数据结构来说
各种数据的集成
尤其是跨行业
跨不同的部门
跨各种技术集成起来的机会
还是非常少的
这就是大数据的一个特点
它数据增长日益趋向非结构化
非结构化的数据表明
首先它是一个多主流的大数据
大数据的定义都强调了数据的规模
超过传统方法的处理能力
但真正符合大数据定义的数据规模
没有明确的标准
或者说它的定义不明确
其次说明了利用大数据的过程
充满了各种挑战
这种挑战是令人生畏的
第三
数据的价值会随着时间快速衰减
这个数据是即时的
总之大数据是个动态的定义
不同行业根据其应用的不同
有着不同的理解
其衡量标准也在随着技术的进步而改变
由图可知
未来数据增长80%~90%
是来自于非结构化的数据
或者称为一个半结构化
或者是准结构化
这张图可以告诉我们
所谓大数据是一个综合性概念
它包括因具备3V特征
而难以进行管理的数据
对这些数据进行存储处理分析技术
以及能够通过分析这些数据
获得实用意义和观点的人才和组织
所谓存储处理分析的技术
指的是用于大规模数据
分布式处理的架构
他都具备良好扩展性的NoSQL数据库
以及机器学习和统计分析等
所谓能够通过分析这些数据
获得实用意义和观点的人才和组织
指的是目前十分紧俏的
数据科学家这类人才
以及能够对大数据进行有效运用的组织
现在和过去的区别之一
就是大数据已经不仅产生于特定领域中
而且还产生于我们每天的日常生活中
微信Facebook Twitter等
社交媒体的文本数据
社交媒体的文本数据
就是最好的例子
计算机性价比的提高
磁盘价格的下降
利用通用服务器对大量数据
进行高速处理的软件技术Hadoop的诞生
以及随着云计算的兴起
甚至无需自行搭建这样的大规模环境
上述这些原因
大幅降低了大数据存储和处理的门槛
承担数据处理任务的计算机
其处理能力遵循了摩尔定律
一直在不断进化
这里说的摩尔定律
就是美国英特尔公司共同创始人之一
高登·摩尔
于1965年提出的这样一个观点
即半导体芯片的集成度
大约每18个月会翻一番
这个摩尔定律一直见证
和伴随着科学技术的发展
大数据的处理环境现在有很多情况下
并不一定是自行搭建了
例如
亚马逊的云计算服务
EC2和S3就可以
在无需自行搭建大规模数据环境下
按用量付费的方式
来使用由计算机集群组成的
计算处理环境和大规模数据存储环境
大数据作为BI
就是商业智能的进化形式
充分利用后不仅能够高效地预测未来
也能够提高预测的准确率
右边的这张图告诉我们这一点
要对未来进行预测
我们研究的健康信息学大数据
恰恰就非常需要这点
从庞大的数据中发现有价值的规则
和模式的数据挖掘
是一种非常有用的手段
为了让数据挖掘的执行更加高效
就要使用能够从大量数据中
自动学习知识
和有用规则的机器学习技术
从特性上来说
机器学习对数据的要求是越多越好
也就是说
它和大数据可谓是天生一对
一直以来
机器学习的瓶颈在于
如何存储并高效处理
学习所掌握的大量数据
然而随着磁盘单价的大幅下降
Hadoop的诞生
以及云计算的普及
这些问题正逐步得以解决
现实中
对大数据应用机器学习的实例
正不断涌现
基于大规模数据的系列应用
正在悄然推动着IT基础设施的发展
尤其是大数据对海量高速存储的需求
为了对大规模数据进行有效的计算
必须最大限度地利用计算和网络资源
计算虚拟化和网络虚拟化对分布式
异构的计算 存储
和网络资源进行有效的管理
云计算为我们提供了一个跨地域
高可靠
按需付费
所见即所得
快速部署等能力
这些都是长期以来IT行业所追寻的
随着云计算的发展
大数据正成为云计算
面临的一个重大考验
云计算是一种基于互联网的计算方式
这种方式共享的软硬件资源和信息
可以按需求提供给计算机和其他设备
维基的定义是
云计算是一种通过互联网
以服务的方式提供动态可伸缩的
虚拟化的资源的计算模式
美国国家标准与技术研究院的定义是
云计算是一种按使用量付费的模式
这种模式提供可用的便捷的
按需的网络访问
进入可配置的计算资源共享池
包括网络服务器存储
软硬件 服务
这些资源能够被快速提供
只需投入很少的管理工作
或与服务供应商进行很少的交互
简单地概括
云计算和大数据之间的关系
在很大程度上它们是相辅相成的
云计算是你在做的事情
而大数据是你所拥有的东西
云计算为基础的信息存储
分享和挖掘手段
分享和挖掘手段
为知识生产提供了工具
而通过对大数据的分析
预测会使得决策更加精准
两者相得益彰
从另一个角度来讲
云计算是一种IT理念
技术架构和标准
而云计算也不可避免地产生大量的数据
所以说
大数据技术与云计算的发展密切相关
大型的云计算应用
不可或缺的就是计算中心的建设
大数据技术是云计算技术的延伸
右边这个图是
大数据平台在医疗领域的应用
包括了软件即服务 平台即服务
基础架构即服务的功能
具体图上显示
平台即服务功能上的数据库云
和分布式文件存储
包括了结构化和非结构化的数据
在软件即服务方面可以看到电子病历云
健康档案云
和远程医疗云等
对于目前的大数据潮流
在技术层面上提供了一个支撑
是一个开源分布式的处理架构Hadoop
一些大厂商的数据仓库产品
也正在加强与Hadoop之间的联动
Hadoop对海量非结构化数据的批处理
能够发挥巨大的作用
这里说道分布式系统
如图 智能医疗
是建立在网络之上的软件系统
正是因为软件的特性
所以分布式系统
具有高度的内聚性和透明性
因此
网络和分布式系统之间的区别
更多的在于系统软件
特别是操作系统而不是硬件
我们需要的是能够对不断流入的
大量流数据进行实时处理技术
流数据处理技术
也叫事件流处理技术
或者是CEP 叫复合事件处理
是与关系型数据库
从根本上完全不同的一个数据处理技术
因此
智慧医疗大数据是多部门
多机构的协同合作
大量的实时处理的流数据处理技术
需要分布式系统来支持
健康医疗大数据这种类型
就是这方面的技术应用
就是这方面的技术应用
健康医疗大数据的类型
包括了一下几个方面
1院内医疗大数据
包括门诊 急诊记录
住院记录
影像记录
检验 处方 手术记录
随访记录和付费数据
第二个就是公共卫生健康大数据
如来自社交媒体的微信
微博 连锁药店
超市的卫生健康相关的销售记录
另外还有一些流行性传染病的实时监测
第三就是移动互联网健康大数据
可穿戴设备的大量普及
带来的大量用户患者产生的健康医疗数据
第四个就是生物医学基因大数据
就是分析人类基因组
所产生的各种基因情况
能够根据阈值
身体患某种疾病如癌症的风险
解释致命突变的可能
并诊断疾病
也可以用于疾病风险的预测
从而通过改善自己的生活环境
和生活习惯等
避免或延缓疾病的发生
因此
这些健康信息数据流管理
来自于一个概念
就是数据的价值随着时间的流逝而降低
所以需要在事件发生后尽快进行处理
最好是在事件发生时
就能够进行处理
对事件进行一个接着一个处理
而不是缓存起来进行批处理
在数据流管理中
需要处理的输入数据
并不存储在随机访问的磁盘或内存中
它们以数据流的方式源源不断的到达
这张图就告诉我们
在医疗级的大数据
目前的话我们也面临一些困难
这些困难主要就是数据的接口量
工作量非常大
接口的开发成本非常高
接口的周期也非常长
协调的厂家也非常多
需要大家互相配合
现在的这种技术的话
已经阻碍在我们大数据发展的前面的一个障碍
那么需要我们去一一来克服
把这些问题给解决
所以医疗大数据的接口问题
是必须要很好的解决的
所以现在有些厂商
已经在做这方面的一些工作
进行异构数据的一个采集
这个能够把一些不同的厂商
之间的一些信息
通过一些无需厂商的接口
通过一些技术方法
能够让这些数据
汇集在一个公共的平台上
使得这些数据能够很实时的
很高效的被我们采集到
这种技术
我们常说的就是无需软件厂商的接口
能够实现软件和数据的一个分离
将各种软件的数据
汇集到一个指定的平台上
这样对于一些大数据的采集
能够很迅速的高效地
汇聚在一个公共的平台上
对我们这个大数据的技术的应用
得到非常大的一个帮助
今天的课就上到这里
谢谢大家的收看
再会
-1.0我国古代对健康信息学的智慧贡献
-1.1新一代信息技术在人类健康管理中的应用
-1.2健康信息学迎来发展机遇
--Video
-1.3人类智能技术AI在中医药领域的应用
--Video
-章节测试
--外部链接
-第一章 导论--章节测试
-2.1中医师如何利用健康信息治病(一)
-2.2中医师如何利用健康信息治病(二)
-2.3健康信息在中医养生中的应用(一)
-2.4健康信息在中医养生中的应用(二)
-2.5中医望诊在收集健康信息中的应用
-2.6中医舌诊在收集健康信息中应用
-2.7中医问诊在收集健康信息应用
-2.8中医脉诊在收集健康信息中应用
-2.9粪便分析在收集健康信息中的应用
-第二章 中医四诊的健康信息分析与应用--章节测试
-3.1云计算时代对人类健康管理的意义
-3.2大数据时代对人类健康管理的意义
-3.3健康信息的大数据及云平台的发展现状(一)
-3.4健康信息的大数据及云平台的发展现状(二)
-3.5移动健康医疗APP的主要分类及设计原则
-3.6移动医疗的可穿戴设备技术发展
-3.7移动医疗的可穿戴设备技术及其应用案例(一)
-3.8移动医疗的可穿戴设备技术及其应用案例(二)
-章节测试--作业
-4.1健康信息可视化概述
-4.2可视化实例1
-4.3可视化实例2
-4.4可视化实例3
-第四章 健康信息学的可视化技术--章节测试
-5.1证素辨证原理研究
-5.2中医证素辨证原理1
-5.3中医证素辨证原理2
-5.4基于证素辨证原理的中医健康管理系统 编辑
-5.5中医健康相关数据的分析与知识发现
-5.6健康危险因素评估1
-5.7健康危险因素评估2
-章节测试--作业
-6.1基因健康信息学的原理及人类基因相关知识
-6.2基因检测技术及其意义
-6.3人体第二健康信息基因组——人体肠道菌群
-6.4肠道菌群的相关信息与人的关系——互利共生
-6.5中医药诊疗过程中肠道菌群的变化信息
-章节测试--作业