3.2大数据时代对人类健康管理的意义慕课视频播放-健康信息学-MOOC慕课视频教程-柠檬大学

欢迎大家来收看健康心理学这门课

今天我们要讲什么是大数据

大数据时代对人类健康管理的意义

首先介绍大数据平台

根据互联网数据中心

IDC 研究项目的统计

2010年全球数字世界的规模

首次达到了1.227ZB级别

先给大家普及一下数量级的概念

1MB多大

相对于一个20页的PPT

或一本小书

1GB = 1024MB

相当于书架上9米长的书

1TB =1024GB

相当于300小时的优质视频

美国国会图书馆存储容量的十分之一

1PB = 1024TB

相当于35万张数字照片

1EB = 1024PB

相当于1999年全球生成的信息的一半

1ZB = 1024EB

暂时无法想象

根据互联网数据中心的报告

2012年全球的数据总量在2.7Zb

1Zb相当于十万亿亿字节

预计到2020年

全球的数据总量将达到35Zb

而2005年这个数字只有130EB

基本上5年增长了10倍

这种爆炸式的增长

意味着到2020年

数字世界的规模将达到40ZB

即15年增长300倍

如果单就数量而言

40ZB相当于地球上

所有海滩上的沙粒数量的57倍

如果用蓝光光盘保存这些40ZB的数据

这些光盘的重量

相当于424艘尼米兹级航空母舰的重量

尼米兹级航空母舰的重量是10万吨

或者相当于世界上

每个人拥有5247GB的数据

无疑我们已经进入了一个大数据时代

研究机构Gartner给出了这样的定义

大数据是需要新的处理模式

才能使你具有更强的决策力洞察力

和流程优化能力的海量

高增长率和多样化的信息资产

在维克托和肯尼斯编写的大数据时代中

书里面写到

大数据指不用随机分析法或者抽样法

这样的捷径

而采用所有数据进行分析处理

大数据的5V特点就是

大量高速多样

价值和真实性

IBM说

可以用3个特征相结合来定义大数据

数量种类速度

或者就是简单的3V

即庞大的容量

极速的速度

和种类丰富的数据

大数据一词是如何风靡世界

2011年5月美国麦肯锡全球研究院

发表了一篇文章叫Big data

这个文章

就是大数据未来创新竞争

生产力的指向标的研究报告

大数据这个关键词

便由此让大家记忆犹新

2012年3月29日

奥巴马政府宣布投资2亿美元

启动大数据研究和发展计划

可见美国政府已经把大数据

上升到了国家战略的层面来推进

华尔街日报更是将大数据

智能制造和无线网络

并列为当代三大技术变革

IDC说

大数据是一个貌似

不知道从哪里冒出来的一个动力

但是实际上大数据并不是新生事物

然而

它确实正在进入一个主流

并得到重大关注

这是有原因的

廉价的存储

传感器和数据采集技术的快速发展

通过云和虚拟化存储设施

增加了信息链路

以及创新软件和分析工具

正在驱动着大数据

大数据不是一个事物

而是一个跨多个信息技术领域的动力活动

大数据技术描述了新一代的技术和架构

其被设计用于通过使用高速的采集

发现和分析

从超大容量的多样的数据中

经济地提取价值

这个定义除了揭示大数据的

3V基本特征

即大容量多样化高速

还增添了一个新特征

就是价值

一个大数据实现的主要价值

可以基于下面3个评价准则中的

1个或多个进行评价

它提供了更有用的信息吗

它改进了信息的精确性吗

它改进了响应的及时性吗

事实上

大数据或者说极限信息

具有12个维度

该图展示了极限信息

管理的3个层次和12个维度

象限

第一层就是量化指标

指的是大数据的一个基本特征

即大数据量多样性高速

即传统的3V

另外还加上了复杂性

包括空间维时间维等多种数据复杂性

大数据解决方案

应首先考虑这些问题的出发点

解决这4个方面的问题

只是大数据解决方案的基础

用以支撑起大数据的平台

第二个层次就是

访问权限管理和控制

有很多关于访问权限的问题

大数据的重点问题之一

就是数据交换的所有方式

都以标准的协议来支持的

因为在大数据的时代

数据的来源本身是多样性的

数据的格式甚至是无法管理的

还有很多的数据来自于企业外部

来自于互联网的提供商

到底如何进行这些协议

自动化地将数据传送到数据仓库里面来

这种情况下数据的共享协议

是一个很关键的问题

最上面一个层次

就是质量管理

应该说

是传统数据管理中非常重要的一个方面

上面介绍大数据从12个象限的角度

还只是一个初步

因为里面一些非常基本的问题

到现在还没有解决

大数据的形态有很多

现在仍然是非常雏形的阶段

就拿数据结构来说

各种数据的集成

尤其是跨行业

跨不同的部门

跨各种技术集成起来的机会

还是非常少的

这就是大数据的一个特点

它数据增长日益趋向非结构化

非结构化的数据表明

首先它是一个多主流的大数据

大数据的定义都强调了数据的规模

超过传统方法的处理能力

但真正符合大数据定义的数据规模

没有明确的标准

或者说它的定义不明确

其次说明了利用大数据的过程

充满了各种挑战

这种挑战是令人生畏的

第三

数据的价值会随着时间快速衰减

这个数据是即时的

总之大数据是个动态的定义

不同行业根据其应用的不同

有着不同的理解

其衡量标准也在随着技术的进步而改变

由图可知

未来数据增长80％~90％

是来自于非结构化的数据

或者称为一个半结构化

或者是准结构化

这张图可以告诉我们

所谓大数据是一个综合性概念

它包括因具备3V特征

而难以进行管理的数据

对这些数据进行存储处理分析技术

以及能够通过分析这些数据

获得实用意义和观点的人才和组织

所谓存储处理分析的技术

指的是用于大规模数据

分布式处理的架构

他都具备良好扩展性的NoSQL数据库

以及机器学习和统计分析等

所谓能够通过分析这些数据

获得实用意义和观点的人才和组织

指的是目前十分紧俏的

数据科学家这类人才

以及能够对大数据进行有效运用的组织

现在和过去的区别之一

就是大数据已经不仅产生于特定领域中

而且还产生于我们每天的日常生活中

微信Facebook Twitter等

社交媒体的文本数据

就是最好的例子

计算机性价比的提高

磁盘价格的下降

利用通用服务器对大量数据

进行高速处理的软件技术Hadoop的诞生

以及随着云计算的兴起

甚至无需自行搭建这样的大规模环境

上述这些原因

大幅降低了大数据存储和处理的门槛

承担数据处理任务的计算机

其处理能力遵循了摩尔定律

一直在不断进化

这里说的摩尔定律

就是美国英特尔公司共同创始人之一

高登·摩尔

于1965年提出的这样一个观点

即半导体芯片的集成度

大约每18个月会翻一番

这个摩尔定律一直见证

和伴随着科学技术的发展

大数据的处理环境现在有很多情况下

并不一定是自行搭建了

例如

亚马逊的云计算服务

EC2和S3就可以

在无需自行搭建大规模数据环境下

按用量付费的方式

来使用由计算机集群组成的

计算处理环境和大规模数据存储环境

大数据作为BI

就是商业智能的进化形式

充分利用后不仅能够高效地预测未来

也能够提高预测的准确率

右边的这张图告诉我们这一点

要对未来进行预测

我们研究的健康信息学大数据

恰恰就非常需要这点

从庞大的数据中发现有价值的规则

和模式的数据挖掘

是一种非常有用的手段

为了让数据挖掘的执行更加高效

就要使用能够从大量数据中

自动学习知识

和有用规则的机器学习技术

从特性上来说

机器学习对数据的要求是越多越好

也就是说

它和大数据可谓是天生一对

一直以来

机器学习的瓶颈在于

如何存储并高效处理

学习所掌握的大量数据

然而随着磁盘单价的大幅下降

Hadoop的诞生

以及云计算的普及

这些问题正逐步得以解决

现实中

对大数据应用机器学习的实例

正不断涌现

基于大规模数据的系列应用

正在悄然推动着IT基础设施的发展

尤其是大数据对海量高速存储的需求

为了对大规模数据进行有效的计算

必须最大限度地利用计算和网络资源

计算虚拟化和网络虚拟化对分布式

异构的计算存储

和网络资源进行有效的管理

云计算为我们提供了一个跨地域

高可靠

按需付费

所见即所得

快速部署等能力

这些都是长期以来IT行业所追寻的

随着云计算的发展

大数据正成为云计算

面临的一个重大考验

云计算是一种基于互联网的计算方式

这种方式共享的软硬件资源和信息

可以按需求提供给计算机和其他设备

维基的定义是

云计算是一种通过互联网

以服务的方式提供动态可伸缩的

虚拟化的资源的计算模式

美国国家标准与技术研究院的定义是

云计算是一种按使用量付费的模式

这种模式提供可用的便捷的

按需的网络访问

进入可配置的计算资源共享池

包括网络服务器存储

软硬件服务

这些资源能够被快速提供

只需投入很少的管理工作

或与服务供应商进行很少的交互

简单地概括

云计算和大数据之间的关系

在很大程度上它们是相辅相成的

云计算是你在做的事情

而大数据是你所拥有的东西

云计算为基础的信息存储

分享和挖掘手段

为知识生产提供了工具

而通过对大数据的分析

预测会使得决策更加精准

两者相得益彰

从另一个角度来讲

云计算是一种IT理念

技术架构和标准

而云计算也不可避免地产生大量的数据

所以说

大数据技术与云计算的发展密切相关

大型的云计算应用

不可或缺的就是计算中心的建设

大数据技术是云计算技术的延伸

右边这个图是

大数据平台在医疗领域的应用

包括了软件即服务平台即服务

基础架构即服务的功能

具体图上显示

平台即服务功能上的数据库云

和分布式文件存储

包括了结构化和非结构化的数据

在软件即服务方面可以看到电子病历云

健康档案云

和远程医疗云等

对于目前的大数据潮流

在技术层面上提供了一个支撑

是一个开源分布式的处理架构Hadoop

一些大厂商的数据仓库产品

也正在加强与Hadoop之间的联动

Hadoop对海量非结构化数据的批处理

能够发挥巨大的作用

这里说道分布式系统

如图智能医疗

是建立在网络之上的软件系统

正是因为软件的特性

所以分布式系统

具有高度的内聚性和透明性

因此

网络和分布式系统之间的区别

更多的在于系统软件

特别是操作系统而不是硬件

我们需要的是能够对不断流入的

大量流数据进行实时处理技术

流数据处理技术

也叫事件流处理技术

或者是CEP 叫复合事件处理

是与关系型数据库

从根本上完全不同的一个数据处理技术

因此

智慧医疗大数据是多部门

多机构的协同合作

大量的实时处理的流数据处理技术

需要分布式系统来支持

健康医疗大数据这种类型

就是这方面的技术应用

健康医疗大数据的类型

包括了一下几个方面

1院内医疗大数据

包括门诊急诊记录

住院记录

影像记录

检验处方手术记录

随访记录和付费数据

第二个就是公共卫生健康大数据

如来自社交媒体的微信

微博连锁药店

超市的卫生健康相关的销售记录

另外还有一些流行性传染病的实时监测

第三就是移动互联网健康大数据

可穿戴设备的大量普及

带来的大量用户患者产生的健康医疗数据

第四个就是生物医学基因大数据

就是分析人类基因组

所产生的各种基因情况

能够根据阈值

身体患某种疾病如癌症的风险

解释致命突变的可能

并诊断疾病

也可以用于疾病风险的预测

从而通过改善自己的生活环境

和生活习惯等

避免或延缓疾病的发生

因此

这些健康信息数据流管理

来自于一个概念

就是数据的价值随着时间的流逝而降低

所以需要在事件发生后尽快进行处理

最好是在事件发生时

就能够进行处理

对事件进行一个接着一个处理

而不是缓存起来进行批处理

在数据流管理中

需要处理的输入数据

并不存储在随机访问的磁盘或内存中

它们以数据流的方式源源不断的到达

这张图就告诉我们

在医疗级的大数据

目前的话我们也面临一些困难

这些困难主要就是数据的接口量

工作量非常大

接口的开发成本非常高

接口的周期也非常长

协调的厂家也非常多

需要大家互相配合

现在的这种技术的话

已经阻碍在我们大数据发展的前面的一个障碍

那么需要我们去一一来克服

把这些问题给解决

所以医疗大数据的接口问题

是必须要很好的解决的

所以现在有些厂商

已经在做这方面的一些工作

进行异构数据的一个采集

这个能够把一些不同的厂商

之间的一些信息

通过一些无需厂商的接口

通过一些技术方法

能够让这些数据

汇集在一个公共的平台上

使得这些数据能够很实时的

很高效的被我们采集到

这种技术

我们常说的就是无需软件厂商的接口

能够实现软件和数据的一个分离

将各种软件的数据

汇集到一个指定的平台上

这样对于一些大数据的采集

能够很迅速的高效地

汇聚在一个公共的平台上

对我们这个大数据的技术的应用

得到非常大的一个帮助

今天的课就上到这里

谢谢大家的收看

再会

健康信息学课程列表：

第一章导论

-1.0我国古代对健康信息学的智慧贡献

--1.0我国古代对健康信息学的智慧贡献

-1.1新一代信息技术在人类健康管理中的应用

--1.1新一代信息技术在人类健康管理中的应用

-1.2健康信息学迎来发展机遇

--Video

-1.3人类智能技术AI在中医药领域的应用

--Video

-章节测试

--外部链接

-第一章导论--章节测试

第二章中医四诊的健康信息分析与应用

-2.1中医师如何利用健康信息治病（一）

--2.1中医师如何利用健康信息治病（一）

-2.2中医师如何利用健康信息治病（二）

--2.2中医师如何利用健康信息治病（二）

-2.3健康信息在中医养生中的应用（一）

--2.3健康信息在中医养生中的应用（一）

-2.4健康信息在中医养生中的应用（二）

--2.4健康信息在中医养生中的应用（二）

-2.5中医望诊在收集健康信息中的应用

-2.6中医舌诊在收集健康信息中应用

-2.7中医问诊在收集健康信息应用

-2.8中医脉诊在收集健康信息中应用

-2.9粪便分析在收集健康信息中的应用

-第二章中医四诊的健康信息分析与应用--章节测试

第三章健康信息与健康大数据

-3.1云计算时代对人类健康管理的意义

--3.1云计算时代对人类健康管理的意义

-3.2大数据时代对人类健康管理的意义

--3.2大数据时代对人类健康管理的意义

-3.3健康信息的大数据及云平台的发展现状（一）

--3.3健康信息的大数据及云平台的发展现状（一）

-3.4健康信息的大数据及云平台的发展现状（二）

--3.4健康信息的大数据及云平台的发展现状（二）

-3.5移动健康医疗APP的主要分类及设计原则

--3.5移动健康医疗APP的主要分类及设计原则

-3.6移动医疗的可穿戴设备技术发展

--3.6移动医疗的可穿戴设备技术发展

-3.7移动医疗的可穿戴设备技术及其应用案例（一）

--3.7移动医疗的可穿戴设备技术及其应用案例（一）

-3.8移动医疗的可穿戴设备技术及其应用案例（二）

--3.8移动医疗的可穿戴设备技术及其应用案例（二）

-章节测试--作业

第四章健康信息学的可视化技术

-4.1健康信息可视化概述

-4.2可视化实例1

-4.3可视化实例2

-4.4可视化实例3

-第四章健康信息学的可视化技术--章节测试

第五章中医证素辨证原理与健康危险因素评估

-5.1证素辨证原理研究

--5.1证素辨证原理研究

-5.2中医证素辨证原理1

--5.2中医证素辨证原理1

-5.3中医证素辨证原理2

--5.3中医证素辨证原理2

-5.4基于证素辨证原理的中医健康管理系统编辑

--5.4基于证素辨证原理的中医健康管理系统编辑

-5.5中医健康相关数据的分析与知识发现

--5.5中医健康相关数据的分析与知识发现

-5.6健康危险因素评估1

--5.6健康危险因素评估1

-5.7健康危险因素评估2

--5.7健康危险因素评估2

-章节测试--作业

第六章基因健康信息学

-6.1基因健康信息学的原理及人类基因相关知识

--6.1基因健康信息学的原理及人类基因相关知识

-6.2基因检测技术及其意义

--6.2基因检测技术及其意义

-6.3人体第二健康信息基因组——人体肠道菌群

--6.3人体第二健康信息基因组——人体肠道菌群

-6.4肠道菌群的相关信息与人的关系——互利共生

--6.4肠道菌群的相关信息与人的关系——互利共生

-6.5中医药诊疗过程中肠道菌群的变化信息

--6.5中医药诊疗过程中肠道菌群的变化信息

-章节测试--作业

3.2大数据时代对人类健康管理的意义在线视频