当前课程知识点:健康信息学 > 第五章 中医证素辨证原理与健康危险因素评估 > 5.5中医健康相关数据的分析与知识发现 > 5.5中医健康相关数据的分析与知识发现
各位同学大家好
欢迎大家继续跟随我
这一单元的学习
在这一单元中
我将向大家介绍
中医健康相关数据的数据分析
与知识发现
这一单元
围绕我们搜集的
7882份中医体质辨识报告
睡眠和饮食习惯的调查问卷表等
中医健康相关的数据
介绍
在中医健康数据上
可以开展
哪些数据分析
和知识发现研究
在本章节
我们主要介绍的内容
包括以下三个方面
首先
先来介绍一下中医健康相关数据
接下来
介绍一下
在中医健康相关数据下
我们可以做哪些数据分析
最后
介绍一下
在中医健康相关数据下
可以做哪些
知识发现相关的研究
首先我们来介绍一下
中医健康相关数据
这一部分数据
是我们
选择了2013年
这一整年中
在福建中医药大学
附属第二人民医院体检中心
进行健康体检
也包括了中医体质辨识的人群
将其作为调查对象
我们共搜集了
7882份中医体质辨识报告
睡眠和饮食习惯调查问卷表
其中
体质辨识参考了
中医体质国家标准
体质类型分为
平和质 气虚质 阳虚质
因虚质 痰湿质 湿热质
血瘀质 气郁质 特禀质
共9种类型
每一种体质
都可能辨识为
是 倾向是 和否
三个等级
且允许
存在每一个人
多种体质同时兼杂并现的情形
接下来
在这个数据集之上
我们概要的介绍一下
在中医健康相关数据集上
可以开展的数据分析
和知识发现研究
首先
来看一下
数据分析
数据分析
就是采用统计学等一切可以采用的方法
完成对大量数据的理解
归纳和总结的过程
而在数据分析的概念中
其中涉及到统计学
统计学就是应用数学的原理和方法
研究数据的搜集 整理与分析的科学
可以对一些不确定性的数据做出科学的推断
在数据分析中
我们常用图表的方式
对数据
进行简单的描述
这是一种直观地展示
比如说频数表
占比
均数
标准差等等
在本项研究中
我们以7882份中医体质辨识报告中统计的
体质辨识结果为例
左上角
采用表格的方式
展示数据
表格的方式最大的优点
就是数值准确
那么
右侧
我们用分类条形图的方式
展示数据
这种图形的方式在展示数据的时候
他最大的优点就是直观
在统计分析中
图表
是最常用的分析方法
接下来
数据分析
另一类常用的方法
就是假设检验
具体包括T检验 方差分析
非参数检验
卡方检验 相关分析 回归等等
还有很多高级的统计分析方法
在此
我们以2016年
本研究团队发表在
辽宁中医药大学学报上的文章为例
来介绍一下假设检验中的
相关分析如何进行
这是我们发表的文章
文章题目是睡眠及饮食习惯
与中医体检人群体质的相关性研究
在题目中
已经体现了
我们所采用的主要的
分析方法是相关分析
文章对睡眠质量
与中医体质之间
进行了相关性分析
体质判定为是 倾向是 否三个等级
分别赋值为2 1 0
睡眠质量分为差
一般 好三个等级
各自赋值为
-1 0和1
因此
所有的数值
都是等级资料
我们可以采用4pr等级相关分析
计算相关系数
因所有的相关系数概率均小于0.05
因此
假设检验均具有统计学意义
只是
平和质与睡眠质量
存在正相关
而其他偏颇体质
均与睡眠质量存在负相关
即体质偏颇越严重
睡眠质量越差
接下来
我们介绍一下中医健康相关数据中的知识发现
知识发现
也可以称之为
数据库中的知识发现
或数据挖掘
他是在20世纪80年代末
为摆脱数据丰富
但信息贫乏这一困境而兴起的一种
信息技术
知识发现
就是从大量的数据中
提取或挖掘知识
又叫做数据库中的知识发现
英文的缩写是KDD
数据挖掘
广义上则与数据库中的知识发现是一致的
而狭义的数据挖掘的定义就是
仅仅是指KDD过程中的一个步骤
从技术层面定义
数据挖掘就是从
大量的不完全的有噪声的模糊的
随机的实际应用数据中
提取隐含在其中的
人们事先不知道
但又是潜在有用的信息
和知识的过程
接下来
我们介绍一下
有关数据挖掘和知识发现的定义中
涉及的若干个基本概念
在刚才的若干个定义中
我们频繁地看到了数据 信息 知识
这三个概念
那么另外
我们通过这样一个知识金字塔
来体现
数据信息知识
甚至包括智慧
这四个相关概念
它的层次关系
左侧
就是知识金字塔
自底向下分别是数据
信息 知识 智慧四个层次
那么到底这四个概念
有什么区别呢
数据就是对事实的记录
比如说
记录症状A等于2
B等于2
C等于3
这是对症状数据的一个记录
也就是符号
信息
则是赋予了意义的数据
如果我们
确定A为发热恶寒这个症状
B为咳嗽这个症状
C为流清涕这个症状
0
为无这个程度
1 2 3分别为轻 中 重三个程度
那么这个时候
刚才的那一串符号就有了意义
接下来我们来看一下知识
知识是指解决问题的技能
比如说下面有一串符号
一条规则
假如A大于等于2
AND B大于等于2
AND C大于等于2
那么诊断为
风寒束表证
这是一条规律
也是一个规则
因此可以把它叫做
知识
其中的ABC
分别就是指的症状
数值指的就是各个症状的轻重程度
那智慧是什么呢
智慧则是对大量知识的选择
是应对的行动方案
可能有多种
但选择哪一个靠的是智慧
比如说我们中医的学生
会学习很多的病症诊断规则
在内科学 外科学 儿科学中
学到了很多的病症诊断规则
那么到临床上去
碰到一个病人
到底选择哪条诊断规则
来对临床的病人作出诊断
这则是每一位临床医生的智慧
因此智慧是最高层面的
它是对知识的选择
那么通过这个知识金字塔
我们就对前面的
知识发现
和数据挖掘中所涉及到的
几个基本概念
做了一些解读
接下来我们来看一下知识发现
一般的过程
它有哪些步骤
主要包括
六个步骤
第一
是数据清理
主要是消除数据中的噪声
和不一致的数据
第二步
是数据集成
可以将多个异构数据源的数据组合在一起
进行分析和挖掘
第三步
是数据选择
则是可以从
多个数据库中
检索
与自己所要开展的分析
和挖掘任务相关的数据
因此叫做数据选择
第四步
是数据转换
就是将数据
统一变换为适合挖掘的形式
可以是汇总的聚集的数据
总之不同的挖掘方法
可能需要不同的数据格式
数据挖掘
第五步
就是使用智能的方法
提取数据中的模式和隐含的知识
在这里
这一步骤所体现的数据挖掘
就是狭义的数据挖掘的概念
就是狭义的数据挖掘的概念
模式评估
则是根据某种兴趣度度量
识别真正有趣的模式
最终作为知识
其中
刚才我们也介绍了第五步
就是指狭义的数据挖掘
而这六步整个的过程
是数据挖掘广义的概念
也就是知识发现的概念
接下来
我们来总结一下
对知识发现刚才介绍的步骤
进行一个解读
在一个完整的数据挖掘过程中
一般来讲
数据预处理
也就是前四步
需要常常花费我们60%的
时间和工作量
时间和工作量
也就是最大的工作量
我们都会筹入到第一部到第四步
那么建模实现数据挖掘
仅占整个过程的10%左右的时间和工作量
当你方法准备比较充分了
在这一步
相对比较快
那么对模式和知识的评估
以及选择
占整个知识发现过程的30%左右
而在这个过程
单纯的数据挖掘专家
是不可能完成的
它必须要跟专业领域的人员对接
比如说
我们挖掘的数据是中医药的数据
那么就可能需要
中医药临床的专业人员
或者是中药专业的人员来参与
帮我们解读挖掘出来的结果
接下来我们来介绍一下
在知识发现中常用的方法
主要分为两大类
一类叫
有目标的方法
一类叫
无目标的方法
有无目标的区分
主要看是否有目标预测变量
或
目标分类变量
因此有目标的知识发现方法
主要解决的是预测和分类问题
而无目标的知识发现方法
主要解决的是聚类和关联问题
有目标分类变量
且目标分类变量是名义变量
则需要用到知识发现中的
分类方法
比如说决策树
贝叶斯分类
人工神经元网络
或分类关联规则挖掘
若目标分类变量是连续性变量
则需要用到知识发现中的
预测方法
预测方法
比如说
回归 人工神经元网络等等
无目标变量时
我们常使用
聚类和关联分析两大类方法
聚类又可以分为行聚类
也就是对记录进行聚类和列聚类
也就是对变量进行聚类
具体的聚类方法有很多种
比如说层次聚类
K-均值聚类两步智能聚类等
另一类则用来解决关联问题
包括关联规则挖掘
相关分析
偏相关分析等等
其中
关联规则挖掘
是知识发现方法中
最具有特色的方法
接下来
我们举一个针对
健康相关数据的
关联规则挖掘的例子
在我们2016年
于山东中药大学学报公开发表的论文中
研究了中医体质类型分布
及兼杂规律
在这篇文章中
我们采用了IBM Spss
clementine14.1中的Apriori方法
对中医体质类型的兼杂规律
进行了关联规则挖掘
以下是对中医体质兼杂规律分析的结果
先采用表格的方式
列出了体质类型
兼杂频数分布表
这属于
统计分析方法
其中第一行
无明确体质类型的占比
为23.14%
这种情况的出现源于
现有60问的体制问卷表
基于该表计算规则
目前
还有23%左右的人群
其体质类型是无法辨识的
除此之外
人群中占比最高的
单一体质类型的情况
是37.59%
其次
则是两种体质兼杂
和三种体质兼杂的情况
进一步
我们对三种体质兼杂的情况
采用了关联规则挖掘的方法
设置的最小支持度阈值为6%
最小置信度与值为80%
提升度均大于一
挖掘出来的结果如右侧表格所示
一条关联规则
是由规则前件和规则后件组成的
表中的第一条规则
就可以写成
痰湿质
阳虚质
推导出气虚质
实例数等于617
就是数据案例中
有617人出现了这三种体质兼杂的情况
支持度
就是出现这三种体质兼杂的人数占比
也就是617
比上总人数
7882人乘以百分之百
置信度为84.9%
表示
具有痰湿质 阳虚质两种体质的人中
有84.9%的人兼杂了气虚质
提升度为2.898
是指
该条规则置信度
与规则后件气虚质
出现概率的比值
该比值必须大于一
而且越大
说明规则前件后件之间的关系越为密切
这是我们在
中医体质兼杂方面
采用数据挖掘方法研究的结果
好
这个单元
我们就学习到这里
感谢您的聆听
再见
-1.0我国古代对健康信息学的智慧贡献
-1.1新一代信息技术在人类健康管理中的应用
-1.2健康信息学迎来发展机遇
--Video
-1.3人类智能技术AI在中医药领域的应用
--Video
-章节测试
--外部链接
-第一章 导论--章节测试
-2.1中医师如何利用健康信息治病(一)
-2.2中医师如何利用健康信息治病(二)
-2.3健康信息在中医养生中的应用(一)
-2.4健康信息在中医养生中的应用(二)
-2.5中医望诊在收集健康信息中的应用
-2.6中医舌诊在收集健康信息中应用
-2.7中医问诊在收集健康信息应用
-2.8中医脉诊在收集健康信息中应用
-2.9粪便分析在收集健康信息中的应用
-第二章 中医四诊的健康信息分析与应用--章节测试
-3.1云计算时代对人类健康管理的意义
-3.2大数据时代对人类健康管理的意义
-3.3健康信息的大数据及云平台的发展现状(一)
-3.4健康信息的大数据及云平台的发展现状(二)
-3.5移动健康医疗APP的主要分类及设计原则
-3.6移动医疗的可穿戴设备技术发展
-3.7移动医疗的可穿戴设备技术及其应用案例(一)
-3.8移动医疗的可穿戴设备技术及其应用案例(二)
-章节测试--作业
-4.1健康信息可视化概述
-4.2可视化实例1
-4.3可视化实例2
-4.4可视化实例3
-第四章 健康信息学的可视化技术--章节测试
-5.1证素辨证原理研究
-5.2中医证素辨证原理1
-5.3中医证素辨证原理2
-5.4基于证素辨证原理的中医健康管理系统 编辑
-5.5中医健康相关数据的分析与知识发现
-5.6健康危险因素评估1
-5.7健康危险因素评估2
-章节测试--作业
-6.1基因健康信息学的原理及人类基因相关知识
-6.2基因检测技术及其意义
-6.3人体第二健康信息基因组——人体肠道菌群
-6.4肠道菌群的相关信息与人的关系——互利共生
-6.5中医药诊疗过程中肠道菌群的变化信息
-章节测试--作业