当前课程知识点:健康信息学 >  第五章 中医证素辨证原理与健康危险因素评估 >  5.5中医健康相关数据的分析与知识发现 >  5.5中医健康相关数据的分析与知识发现

返回《健康信息学》慕课在线视频课程列表

5.5中医健康相关数据的分析与知识发现在线视频

5.5中医健康相关数据的分析与知识发现

下一节:5.6健康危险因素评估1

返回《健康信息学》慕课在线视频列表

5.5中医健康相关数据的分析与知识发现课程教案、知识点、字幕

各位同学大家好

欢迎大家继续跟随我

这一单元的学习

在这一单元中

我将向大家介绍

中医健康相关数据的数据分析

与知识发现

这一单元

围绕我们搜集的

7882份中医体质辨识报告

睡眠和饮食习惯的调查问卷表等

中医健康相关的数据

介绍

在中医健康数据上

可以开展

哪些数据分析

和知识发现研究

在本章节

我们主要介绍的内容

包括以下三个方面

首先

先来介绍一下中医健康相关数据

接下来

介绍一下

在中医健康相关数据下

我们可以做哪些数据分析

最后

介绍一下

在中医健康相关数据下

可以做哪些

知识发现相关的研究

首先我们来介绍一下

中医健康相关数据

这一部分数据

是我们

选择了2013年

这一整年中

在福建中医药大学

附属第二人民医院体检中心

进行健康体检

也包括了中医体质辨识的人群

将其作为调查对象

我们共搜集了

7882份中医体质辨识报告

睡眠和饮食习惯调查问卷表

其中

体质辨识参考了

中医体质国家标准

体质类型分为

平和质 气虚质 阳虚质

因虚质 痰湿质 湿热质

血瘀质 气郁质 特禀质

共9种类型

每一种体质

都可能辨识为

是 倾向是 和否

三个等级

且允许

存在每一个人

多种体质同时兼杂并现的情形

接下来

在这个数据集之上

我们概要的介绍一下

在中医健康相关数据集上

可以开展的数据分析

和知识发现研究

首先

来看一下

数据分析

数据分析

就是采用统计学等一切可以采用的方法

完成对大量数据的理解

归纳和总结的过程

而在数据分析的概念中

其中涉及到统计学

统计学就是应用数学的原理和方法

研究数据的搜集 整理与分析的科学

可以对一些不确定性的数据做出科学的推断

在数据分析中

我们常用图表的方式

对数据

进行简单的描述

这是一种直观地展示

比如说频数表

占比

均数

标准差等等

在本项研究中

我们以7882份中医体质辨识报告中统计的

体质辨识结果为例

左上角

采用表格的方式

展示数据

表格的方式最大的优点

就是数值准确

那么

右侧

我们用分类条形图的方式

展示数据

这种图形的方式在展示数据的时候

他最大的优点就是直观

在统计分析中

图表

是最常用的分析方法

接下来

数据分析

另一类常用的方法

就是假设检验

具体包括T检验 方差分析

非参数检验

卡方检验 相关分析 回归等等

还有很多高级的统计分析方法

在此

我们以2016年

本研究团队发表在

辽宁中医药大学学报上的文章为例

来介绍一下假设检验中的

相关分析如何进行

这是我们发表的文章

文章题目是睡眠及饮食习惯

与中医体检人群体质的相关性研究

在题目中

已经体现了

我们所采用的主要的

分析方法是相关分析

文章对睡眠质量

与中医体质之间

进行了相关性分析

体质判定为是 倾向是 否三个等级

分别赋值为2 1 0

睡眠质量分为差

一般 好三个等级

各自赋值为

-1 0和1

因此

所有的数值

都是等级资料

我们可以采用4pr等级相关分析

计算相关系数

因所有的相关系数概率均小于0.05

因此

假设检验均具有统计学意义

只是

平和质与睡眠质量

存在正相关

而其他偏颇体质

均与睡眠质量存在负相关

即体质偏颇越严重

睡眠质量越差

接下来

我们介绍一下中医健康相关数据中的知识发现

知识发现

也可以称之为

数据库中的知识发现

或数据挖掘

他是在20世纪80年代末

为摆脱数据丰富

但信息贫乏这一困境而兴起的一种

信息技术

知识发现

就是从大量的数据中

提取或挖掘知识

又叫做数据库中的知识发现

英文的缩写是KDD

数据挖掘

广义上则与数据库中的知识发现是一致的

而狭义的数据挖掘的定义就是

仅仅是指KDD过程中的一个步骤

从技术层面定义

数据挖掘就是从

大量的不完全的有噪声的模糊的

随机的实际应用数据中

提取隐含在其中的

人们事先不知道

但又是潜在有用的信息

和知识的过程

接下来

我们介绍一下

有关数据挖掘和知识发现的定义中

涉及的若干个基本概念

在刚才的若干个定义中

我们频繁地看到了数据 信息 知识

这三个概念

那么另外

我们通过这样一个知识金字塔

来体现

数据信息知识

甚至包括智慧

这四个相关概念

它的层次关系

左侧

就是知识金字塔

自底向下分别是数据

信息 知识 智慧四个层次

那么到底这四个概念

有什么区别呢

数据就是对事实的记录

比如说

记录症状A等于2

B等于2

C等于3

这是对症状数据的一个记录

也就是符号

信息

则是赋予了意义的数据

如果我们

确定A为发热恶寒这个症状

B为咳嗽这个症状

C为流清涕这个症状

0

为无这个程度

1 2 3分别为轻 中 重三个程度

那么这个时候

刚才的那一串符号就有了意义

接下来我们来看一下知识

知识是指解决问题的技能

比如说下面有一串符号

一条规则

假如A大于等于2

AND B大于等于2

AND C大于等于2

那么诊断为

风寒束表证

这是一条规律

也是一个规则

因此可以把它叫做

知识

其中的ABC

分别就是指的症状

数值指的就是各个症状的轻重程度

那智慧是什么呢

智慧则是对大量知识的选择

是应对的行动方案

可能有多种

但选择哪一个靠的是智慧

比如说我们中医的学生

会学习很多的病症诊断规则

在内科学 外科学 儿科学中

学到了很多的病症诊断规则

那么到临床上去

碰到一个病人

到底选择哪条诊断规则

来对临床的病人作出诊断

这则是每一位临床医生的智慧

因此智慧是最高层面的

它是对知识的选择

那么通过这个知识金字塔

我们就对前面的

知识发现

和数据挖掘中所涉及到的

几个基本概念

做了一些解读

接下来我们来看一下知识发现

一般的过程

它有哪些步骤

主要包括

六个步骤

第一

是数据清理

主要是消除数据中的噪声

和不一致的数据

第二步

是数据集成

可以将多个异构数据源的数据组合在一起

进行分析和挖掘

第三步

是数据选择

则是可以从

多个数据库中

检索

与自己所要开展的分析

和挖掘任务相关的数据

因此叫做数据选择

第四步

是数据转换

就是将数据

统一变换为适合挖掘的形式

可以是汇总的聚集的数据

总之不同的挖掘方法

可能需要不同的数据格式

数据挖掘

第五步

就是使用智能的方法

提取数据中的模式和隐含的知识

在这里

这一步骤所体现的数据挖掘

就是狭义的数据挖掘的概念

就是狭义的数据挖掘的概念

模式评估

则是根据某种兴趣度度量

识别真正有趣的模式

最终作为知识

其中

刚才我们也介绍了第五步

就是指狭义的数据挖掘

而这六步整个的过程

是数据挖掘广义的概念

也就是知识发现的概念

接下来

我们来总结一下

对知识发现刚才介绍的步骤

进行一个解读

在一个完整的数据挖掘过程中

一般来讲

数据预处理

也就是前四步

需要常常花费我们60%的

时间和工作量

时间和工作量

也就是最大的工作量

我们都会筹入到第一部到第四步

那么建模实现数据挖掘

仅占整个过程的10%左右的时间和工作量

当你方法准备比较充分了

在这一步

相对比较快

那么对模式和知识的评估

以及选择

占整个知识发现过程的30%左右

而在这个过程

单纯的数据挖掘专家

是不可能完成的

它必须要跟专业领域的人员对接

比如说

我们挖掘的数据是中医药的数据

那么就可能需要

中医药临床的专业人员

或者是中药专业的人员来参与

帮我们解读挖掘出来的结果

接下来我们来介绍一下

在知识发现中常用的方法

主要分为两大类

一类叫

有目标的方法

一类叫

无目标的方法

有无目标的区分

主要看是否有目标预测变量

目标分类变量

因此有目标的知识发现方法

主要解决的是预测和分类问题

而无目标的知识发现方法

主要解决的是聚类和关联问题

有目标分类变量

且目标分类变量是名义变量

则需要用到知识发现中的

分类方法

比如说决策树

贝叶斯分类

人工神经元网络

或分类关联规则挖掘

若目标分类变量是连续性变量

则需要用到知识发现中的

预测方法

预测方法

比如说

回归 人工神经元网络等等

无目标变量时

我们常使用

聚类和关联分析两大类方法

聚类又可以分为行聚类

也就是对记录进行聚类和列聚类

也就是对变量进行聚类

具体的聚类方法有很多种

比如说层次聚类

K-均值聚类两步智能聚类等

另一类则用来解决关联问题

包括关联规则挖掘

相关分析

偏相关分析等等

其中

关联规则挖掘

是知识发现方法中

最具有特色的方法

接下来

我们举一个针对

健康相关数据的

关联规则挖掘的例子

在我们2016年

于山东中药大学学报公开发表的论文中

研究了中医体质类型分布

及兼杂规律

在这篇文章中

我们采用了IBM Spss

clementine14.1中的Apriori方法

对中医体质类型的兼杂规律

进行了关联规则挖掘

以下是对中医体质兼杂规律分析的结果

先采用表格的方式

列出了体质类型

兼杂频数分布表

这属于

统计分析方法

其中第一行

无明确体质类型的占比

为23.14%

这种情况的出现源于

现有60问的体制问卷表

基于该表计算规则

目前

还有23%左右的人群

其体质类型是无法辨识的

除此之外

人群中占比最高的

单一体质类型的情况

是37.59%

其次

则是两种体质兼杂

和三种体质兼杂的情况

进一步

我们对三种体质兼杂的情况

采用了关联规则挖掘的方法

设置的最小支持度阈值为6%

最小置信度与值为80%

提升度均大于一

挖掘出来的结果如右侧表格所示

一条关联规则

是由规则前件和规则后件组成的

表中的第一条规则

就可以写成

痰湿质

阳虚质

推导出气虚质

实例数等于617

就是数据案例中

有617人出现了这三种体质兼杂的情况

支持度

就是出现这三种体质兼杂的人数占比

也就是617

比上总人数

7882人乘以百分之百

置信度为84.9%

表示

具有痰湿质 阳虚质两种体质的人中

有84.9%的人兼杂了气虚质

提升度为2.898

是指

该条规则置信度

与规则后件气虚质

出现概率的比值

该比值必须大于一

而且越大

说明规则前件后件之间的关系越为密切

这是我们在

中医体质兼杂方面

采用数据挖掘方法研究的结果

这个单元

我们就学习到这里

感谢您的聆听

再见

健康信息学课程列表:

第一章 导论

-1.0我国古代对健康信息学的智慧贡献

--1.0我国古代对健康信息学 的智慧贡献

-1.1新一代信息技术在人类健康管理中的应用

--1.1新一代信息技术在人类健康管理中的应用

-1.2健康信息学迎来发展机遇

--Video

-1.3人类智能技术AI在中医药领域的应用

--Video

-章节测试

--外部链接

-第一章 导论--章节测试

第二章 中医四诊的健康信息分析与应用

-2.1中医师如何利用健康信息治病(一)

--2.1中医师如何利用健康信息治病(一)

-2.2中医师如何利用健康信息治病(二)

--2.2中医师如何利用健康信息治病(二)

-2.3健康信息在中医养生中的应用(一)

--2.3健康信息在中医养生中的应用(一)

-2.4健康信息在中医养生中的应用(二)

--2.4健康信息在中医养生中的应用(二)

-2.5中医望诊在收集健康信息中的应用

--2.5中医望诊在收集健康信息中的应用

-2.6中医舌诊在收集健康信息中应用

--2.6中医舌诊在收集健康信息中应用

-2.7中医问诊在收集健康信息应用

--2.7中医问诊在收集健康信息应用

-2.8中医脉诊在收集健康信息中应用

--2.8中医脉诊在收集健康信息中应用

-2.9粪便分析在收集健康信息中的应用

--2.9粪便分析在收集健康信息中的应用

-第二章 中医四诊的健康信息分析与应用--章节测试

第三章 健康信息与健康大数据

-3.1云计算时代对人类健康管理的意义

--3.1云计算时代对人类健康管理的意义

-3.2大数据时代对人类健康管理的意义

--3.2大数据时代对人类健康管理的意义

-3.3健康信息的大数据及云平台的发展现状(一)

--3.3健康信息的大数据及云平台的发展现状(一)

-3.4健康信息的大数据及云平台的发展现状(二)

--3.4健康信息的大数据及云平台的发展现状(二)

-3.5移动健康医疗APP的主要分类及设计原则

--3.5移动健康医疗APP的主要分类及设计原则

-3.6移动医疗的可穿戴设备技术发展

--3.6移动医疗的可穿戴设备技术发展

-3.7移动医疗的可穿戴设备技术及其应用案例(一)

--3.7移动医疗的可穿戴设备技术及其应用案例(一)

-3.8移动医疗的可穿戴设备技术及其应用案例(二)

--3.8移动医疗的可穿戴设备技术及其应用案例(二)

-章节测试--作业

第四章 健康信息学的可视化技术

-4.1健康信息可视化概述

--4.1健康信息可视化概述

-4.2可视化实例1

--4.2可视化实例1

-4.3可视化实例2

--4.3可视化实例2

-4.4可视化实例3

--4.4可视化实例3

-第四章 健康信息学的可视化技术--章节测试

第五章 中医证素辨证原理与健康危险因素评估

-5.1证素辨证原理研究

--5.1证素辨证原理研究

-5.2中医证素辨证原理1

--5.2中医证素辨证原理1

-5.3中医证素辨证原理2

--5.3中医证素辨证原理2

-5.4基于证素辨证原理的中医健康管理系统 编辑

--5.4基于证素辨证原理的中医健康管理系统 编辑

-5.5中医健康相关数据的分析与知识发现

--5.5中医健康相关数据的分析与知识发现

-5.6健康危险因素评估1

--5.6健康危险因素评估1

-5.7健康危险因素评估2

--5.7健康危险因素评估2

-章节测试--作业

第六章 基因健康信息学

-6.1基因健康信息学的原理及人类基因相关知识

--6.1基因健康信息学的原理及人类基因相关知识

-6.2基因检测技术及其意义

--6.2基因检测技术及其意义

-6.3人体第二健康信息基因组——人体肠道菌群

--6.3人体第二健康信息基因组——人体肠道菌群

-6.4肠道菌群的相关信息与人的关系——互利共生

--6.4肠道菌群的相关信息与人的关系——互利共生

-6.5中医药诊疗过程中肠道菌群的变化信息

--6.5中医药诊疗过程中肠道菌群的变化信息

-章节测试--作业

5.5中医健康相关数据的分析与知识发现笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。