当前课程知识点:大数据管理与挖掘 > 第12章 大数据技术应用 > 12.1 数字挖掘技术的应用 > 12.1 数字挖掘技术的应用
同学们好
这节课呢我们具体主要讲
数据挖掘技术的具体应用
我们首先以纺织企业的质量控制
这个过程来进行具体的分析
首先
我们整个数据过程当中
我们如何把数据挖掘机技术
用在质量控制当中
我们进行解释下
首先我给大家介绍一下我们整个纺织过当中
为什么所有数据比较难而且数据比较多
原因在什么地方呢
主要从三个方面进行给大家解释
第一个是我们整个纺纱过程中
所有数据的维度比较高
而且数据之间的关联度比较低
第二个就是我们整个纺纱过程中
所有数据的
它们的关联度的低的基础上
影响纺纱质量的因素比较多
导致整个过程当中所有的数据难以识别
难以获取
第三个就是我们整个纺纱过程当中
所有数据的关联度是比较低的
所以在这里面对整个数据的控制
数据的处理和质量的控制难以识别
具体我主要从以下方面进行说一下
首先国外对整个过程当中的研究
是比较完善的甚至说比较先进的
尤其是在国外
比方说美国日本等国家
他们目前对所有数据的处理
主要采用协同控制的方式
或者说采用多工序递进这种方式进行数据处理
由其对纺纱过程的高维数据的处理
这里面最典型的是澳大利亚
他们研究的一些YARNSPEC系统
他们通过数据融合
数字集成的方式实现整个纱线过程数据处理
那么我们在这里面
如何对我们的纺纱数据处理
我们国内目前一些企业
比如说华兴集团 江苏大生
他们建立的数字化纺纱车间
实现整个生产数据的集中化采集和处理
但问题是
他们现在的所有数据处理更多面向
单一工序的数据的可视化处理
或者说数据的各种报表生成
和数据驱动的质量的控制
由此来这个过程当中
很少使用现有的数据挖掘方式
对整个纱线质量来进行控制
那么
我们以这个为例子进行研究
研究过当中
我们主要首先从纤维到
整个成纱过程当中的数据入手
研究一些相关的数据的采集 集成
处理 融合
然后再研究数字之间的关联性 关联度
然后建立一个模型
由此形成了我们基于多维度
多数据关联的质量控制记忆
多维度多数据关联的质量控制理论与方法
具体应用过程如下
首先我们研究一种
基于D-S证据的数据融合技术
具体的过程我们从下面图可以看一下
在这里面
围绕整个纺纱流程
对所有的数据进行采集和处理
这样的话在设备互联基础上
实现各种设备数据的采集 传输和存储
在建立各种数据平台的基础上
我们研发面向整个纺纱过程中数据采集装置
数据采集平台
数据存储平台和数据采集卡
在研究这个的基础上我们进行
所有数据的集成处理
大家从右图可以看下
这里面我们分了两个层面
第一个就是我们的外部数据的处理
第二是我们内部数据处理
内部我们首先刚才我给同学们讲了
我们首先研发了各种数据采集装置
数据采集 数据采集板
然后在数据采集板 数据采集装置基础上
实现所有设备的互联 在互联的基础上
我们研发了面向所有设备
所有车间的通讯协议
这个通讯协议目的干什么呢
我们最主要是通过这通讯协议
把各个车间的所有数据收集回来
收集回来以后建立一个大的数据平台
在数据平台上我们实现设备的互联
设备与系统的互联 系统与网络的互联
从而实现设备与网络的互联
这是我们的内部结构
外部结构我们通过研发一个网络装置
这个网络装置我们叫做网关
通过网关我们实现网络与我们设备的互联
由此实现了所有数据
所有设备的互联互通
然后
我们进行了所有数据的处理或者说
在这里面我们通过数据挖掘的方式进行
纺纱设备的质量控制
我们首先要做的第一件事情就是
研发相应的数据平台
在这个基础上
我们研发面向各个车间各个工序的
各种数据采集平台
通过这些采集平台
我们对所有的数据进行训练
这个训练方式上节课我们大家讲过的一些方法
比方说K均值 我们的K中心点
各种层次分析方法等等进行训练
这个训练过程
大家可以从右图可以看下
在这里面
我们首先围绕整个纤维的指标数据
还有我们纱线的质量数据
形成它们间的关联关系
由此来建立面向整个纺织过程的系统或平台
实现我们所有数据从机子上拿回来
拿回来以后
我们进行数据处理
处理完以后通过这些数据能实现纤维的内部结构
内部形态 纱线的内部结构表面形态
甚至到我们现在的织物的表面结构
织物的形态的数据处理
形成了我们基于设备互联的
整个纺纱过程的数据挖掘知识
在这基础上我们进行
所有数据的统一形式化表示
原因在什么地方呢
最主要在于我们把数据拿回来
并不是随时都能够用
这我们在第二章给大家讲过我们所有的数据
拿回来以后还要做一些数据的处理
比方说这里面的缺陷值空缺值的处理
然后围绕整个纺纱流程
我们进行所有数据的统一形式化表示和表达
这个表达必须要建立一种规则
这个规则就是围绕整个流程实现
所有数据的统一格式化
这个格式就是我们以前给大家讲过的
基于我们的输入输出代反馈的这种模型
通过这个模型
我们建立所有数据的统一格式化形式
将这格式化形式来进行存储
这样的话当所有数据来的时候
我们通过这种形式来把它们进行表示
形成我们后面要进行的数据分析数据挖掘
甚至数据表示的这种格式
这个过程当中
我们进行数据缺陷处理以后
我们还需要对所有数据进行融合
从这个融合过程
我们从右图可以看一下
我们分了两个过程
第一个就是我们对所有数据拿回来处理
处理完以后还要进行按照规则进行表示
这个表示我们主要在这个过程当中
按照数据挖掘的方式采用的
就是D-S证据理论的这个方式
将面向整个车间的所有数据进行融合
和规则的表示 表示完以后
进行所有数据的概率分布的这些处理
处理完以后形成了我们D-S证据理论的这种方式
然后把它存入数据库当中
形成了我们后期要建立的各种数据平台
或者纺纱数据的大系统平台
实现了我们所有数据的融合
获取数据的基础上
我们进行各类纺纱质量关键指标的提取
这就涉及到我们现在要讲的
所有挖掘过程中相关数据的提取
这个提取
我们对所有的纺纱数据进行训练
训练的时候
我们对各种离群数据
或者说对异常数据进行分析
分析它们跟我们纺纱质量指标之间的关联度
关联系数 通过这个关联系数 关联度
我们计算出
哪些指标或者说哪些关键数据
对我们整个成纱质量产生的影响
通过我们前期的训练得到了如右图所示
这个图形 从这个图形我们可以看下
我们的整个关联指标里面
断裂强度是最为显著的
也就是说
在这里面断裂强度与其他指标之间
呈现的正相关关系
也就是意味着通过我们的断裂强度这个指标
我们可以进行所有数据的提取
那么提取呢
我们这里面在我们学习K均值的基础上
我们提出来DK-means这种数据处理算法
通过这个算法的构造
我们实现了所有数据特征的提取
当然
这个基础上我们还做了一个实验
我首先选择了六台机台
而且每个机台采取了一百个进程
对整个数据或者说我们海量数据进行分组
我们在这个实验过程当中分三个组进行测试
测试结果表明
我们所有的这些数据
在我们数据量特别大 维度比较高的时候
我们DK-means算法产生效果比较明显的
因为它们传输速度比较快
而且整个系统的开销比较小
所以说在这里面
我们整个通过数据挖掘的方式
可以有利于整个纺纱质量的控制和实现
当然这里面有个最主要特征
是我们数据量大小不同
当我们数据量越大的时候 维度越高的时候
我们整个聚类效果会更加的明显
在这个基础上
我们构造一种
基于网络的这种纺纱质量控制模型
这个控制模型也是基于我们的数据模型
或者我们刚才构建的DK-means算法的模型
在这里面
我们通过纤维的各种指标
用通过纤维指标建立
我们的纱线质量的这种模型
这个模型
我们中间大家可以从左上角可以看下
有个黄色的图标
这个图标是我们的模型
通过模型将我们的数据进行训练
训练过程我们可以从黄色这个下面
可以看下有一个训练的模型
这个模型里面就是把所有的数据模型输进去
输进去以后进行处理
处理的过程就是我们刚才说的DK-means算法
处理完以后对我们的数据进行训练
得到下面所示的整个图表
这个图表里面对我们线性数据进行处理
处理的时候
我得到了这样一个如右下角所示的这种结果
这个结果里面就是把
所有的输入数据 输出数据形成了线性化
也就是说我们的纤维指标数据
跟我们的纱线质量数据成一个线性关系
这样的话我们把纺纱过程当中的
所有的波动原因
甚至说影响纺纱质量的
各种因素之间的关系表达清楚
由此在这过程中提取
影响纺纱质量的关键因素
具体我们从下面可以看一下
在这里面
我们把纤维指标和各种影响因素之间的关系
建立好以后
我们采用我们数据挖掘里面前期学的一个
关联分析方法进行训练
建立各种纤维指标
和影响因素之间的关联关系
通过这个关联关系
我们可以计算出它们之间的
显著特征和非显著特征
如我们右面所示
在右面我们可以看
通过对强度这个关键特征进行训练
训练结果我们以能量图的形式
给大家展示出来
在这个图上 大家可以看一下
在这里面
我们的蓝色部分表示它们之间的关系是比较弱的
而我们的红色部分表示
我们关系的比较强的
而且在这里面把各种因素呢
我们也进行了分类 分类的过程和原理
就是说我们采取人 机 工程 方法 工艺等
这样的形式来分成几大类
这就是我们以前学的各种因素的簇
或者说叫做聚类结果
这样的话
把我们的各种因素跟我们的关联质量特征
进行了关联起来
形成它们间的线性关系
与我们右面所示的
在这里面
我们右下图可以看到整个图像是个蓝色
而我们的左上图大部分颜色是红色
呈现出表示结果
我们左上图显示结果是它是最显著特征
或说最关键的因素
这样的话我们就可以
把我们影响纱线质量的各种因素
通过数据关联的方式或数据挖掘方式
把它提取了
由此得到了影响纱线质量的关键因素
好 接下来我们来给大家解释一下
在这里面我们怎么样去进行纱线质量的控制
当然控制是我们下节课的主要内容
这节课
我们主要讲到这个地方
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论