当前课程知识点：大数据管理与挖掘 > 第4章大数据分析 > 4.1 大数据的实时分析 > 4.1 大数据的实时分析

返回《大数据管理与挖掘》慕课在线视频课程列表

4.1 大数据的实时分析在线视频

下一节:4.2 大数据的交互式分析

返回《大数据管理与挖掘》慕课在线视频列表

4.1 大数据的实时分析课程教案、知识点、字幕

大家好

我是西安工业大学

管理学院的邵景峰教授

我们今天讲解

我们第四章内容

大数据分析

我主要讲以下四方面内容

一数据的实时分析

二交互式分析

三云在线数字聚集

四就是我们数据的智能分析

我们今天主要讲第一节

我们大数据的实时分析

从整个大数据的实时分析背景来讲

我们大数据的出现

不仅带来了数据量的快速增长

也给我们传统数据管理与挖掘分析

带来了巨大挑战

以关系数据库为核心的传统数据库管理

和分析技术已经越来越难满足我们实际的应用需求

那么在自然杂志上也指出

对大数据进行分析

并挖掘其所隐含的各种数据信息

也是我们将来所解决各种实际问题的关键所在

在此基础上我们开展如下所示的大数据分析技术

一我们的聚类分析

二叫做AB测试

三就是我们的量子分析

四就是我们的统计分析

五就是我们的相关性分析

六就是我们的数据挖掘

第七就是我们的回归分析

这个基础上我们主要讲讲大数据的分析方法

第一个就是我们实时与离线的分析

大数据分析按照实时性要求

我们可以分为实时分析和离线分析两大类

对实时分析而言

它主要应用于电子商务或者说金融业

因为这类行业数据的要求的变化比较大

而且反应速度比较快

这样的话

对快速的要求分析或者说快速的数据分析

是必须的

而且分析数据当中

它们从这一些关键因素

也给我们的大数据分析带来了挑战

在这基础上

分析结果也必须要尽快的返回

不能有太多的延迟

大数据实时分析的主要结构

目前来说分两大类

第一个就是说

利用传统的关系型数据库进行并行处理

第二个是基于内存的计算平台

比方说我们的EMC的greenplun

还有SAP的实时数据分析结构等等

第二个就是我们的交互式分析

大数据的交互式分析目的主要在于

利用计算机自动化分析能力

通过这种分析能力

充分挖掘人们对信息的认知能力

将人机的各自强势进行有机的结合

借助人机交互的分析方法和交换技术

辅助人们更为直接和高效的

洞察大数据背后的信息和知识

具体来讲

数据流的海量性导致了

我们现在整个制造过程中

所有数据的独特性与空间的限制性

使得许多比方说查询设计

或者说查询处理数据的操作

数据挖掘算法等等

需要有高效的执行能力

在这种高效执行的过程当中

还需要很多的高速数据流的完成

所以说

我们大数据的实时分析

更主要是面向数据流的分析

这个基础上我们需要

概要构建我们上述的数据分析方法

它可以在整个数据流的处理过程当中

结合多种数据挖掘和查询技术进行处理

其目的主要在于通过

采样小波变换概要和直观分析

开展数据的实时分析

这个基础上我们主要讲第四个

叫做智能分析

随着我们产业界和科学界

数据量的爆炸式增长

大数据的相关技术和应用

已经引起了众多的关注

比方说

如何分析大数据

充分挖掘大数据的潜在的价值

已成为科学界和财者探讨的热点课题

而智能分析和计算

是科学界研究和探讨工程问题的

主要的有效手段

在这里面

人工智能技术核心是科学

为大数据的分析提供了很好的重要方向

应用计算智能方法进行大数据分析

具有很好的潜力所在

这个基础上

我们对几个大数据过程进行分析

在这基础上

我们通过大数据采集处理和分析

从而开展我们大数据的

在线实时分析和数据流的分析

而大数据的实时分析

我们主要采取了以下几种方式

大数据的实时分析里面

我们数据来源多种多样

比方说我们的科学实验

传感系统

社会网络活动

电信数据摄像与监控系统

目前我们的日常交易与物流信息等等

这些都是产生了海量数据即数据量非常巨大

而且随着时间的不断的积累和增大

在这里面

它的产生方式都是实时的

往往都是具有时效性

从这些数据中分析出最有价值的信息

使得我们大数据分析变得更加迫切

而企业在这里面

我们大数据实时分析提供了

一种解决现实问题的基本工具

大数据的实时分析

是我们对大规模数据进行分析

利用大数据分析技术

高效快速完成分析任务

从而达到近似的实时效果

以便于及时反映数据中层次的有用价值和意义所在

大数据实时分析

具体可以从这个图上可以看到

我们数据分析的基础操作就是数据的读写

实时分析就要求实时存取

大数据的实时存取需要在

分布式网络中心中不同的节点上完成

而且需要动态的

所以说我们整个数据的服务

以提高我们的数据的存取效率

大数据的实时分析

为了提高我们的分析效率

在传统技术的基础上

还需要进一步提高

我们数据分析的速度与处理能力

采取了基于计算框架结构的制作模式

一般可以分为以下三种

第一种是利用传统的关系数据库并行处理

第二个是基于内存数据的我们的平台计算

或者说基于内存数据的计算平台

第三个是基于数据流的处理框架

大数据实时分析

目前所面临的主要问题在于

第一个实时事件的传输

大数据的实时应用事件产生后

需要及时查处相关的处理节点

而且这个节点主要分布在以中心节点为目的

和我们的分布式结构当中去

以完成治理过程中的那些事件

处理过程中也分别对应为我们的预定义处理

比方说我们的闭环操作

和交互式处理比方说我们的开环操作等

而我们的实时情境发现

也是我们大数据分析一个表现

在这里面其主要设计用来检验

实时交易实时操作异常事件等情景

比如市场交易过程中的股票价格波动

或者说城市某区域交通发生拥堵的现象等等

这需要对相关领域

预先设置一些规则来帮助检验

进一步可能还需要设计

能够改变或者调整

有些规则的实时分析模式

以我们的实时分析过程当中

在这里面可以涉及单个或多个综合分析服务

这些服务应该能够对某些规则

或者业务情境或情景改变

做出了相应的选择和评判

同时

它也需要部署某些快速的算法

使其能够在有限的资源基础上

或时间范围内

提供最佳和最有效的服务

第四个叫我们的实时决策

在这里面基于实时分析的结果

它可以选择改进当我们的操作规则

或者我们的方案发生改变时

给予最佳的方案

并对其做出最佳

最适合的响应

同时在这其中

我们如何定义我们的业务和操作规则

来实现我们定义或者我们最终的决策

这涉及到对实时决策过程的定义

或者说行为的启动执行和监管

其过程通常需要可靠和及时的

与其他分布式的这种系统结构

或者说分布式的系统交互的执行任务

大数据实质分析往往还会遇到

时间与空间的限制

比方说这里面的产生的一些数据特点

给我们的时间和空间带来些约束

这里面比方说

我们数据是无限的数据是实时的

而且数据是按某种顺序流程来形成的

接下来

我们大家讲解滑动窗口计算模型

在这里面滑动窗口计算模型

在给定了一个数据流里面

它这里面具体来

通过最近数据的变化

以及以往数据变换能更加的反应

我们数据模型

也就说你最近的数据比以往的数据

更有效更有用来建立模型

回应我们的查询所需要的访问时间和数据

这里面只包括最后几个最近的数据元素

即可以实现我们的模式的构建

这个基础上通过这种计算模型也十分有效的

在规定时间内把我们的时间与空间

有效的结合在一起

来完成一定的任务的指示要求

而我们的滑动窗口

由基于顺序和局域时间两种定义模式

对于我们前者来讲

它主要定义是滑动窗口

是在窗口内保存最近到来的K个元组

其大小比较固定

是在窗口类保存最近到来的K个元组其大小比较固定

而后者主要定义滑动窗口

则是存储最近T个时间内的到达的元组

其大小可变

比方说这里能查到一个数据流值的最大值时

滑动窗口查询其主要计算N个元素中

最大值就需要的时间和空间

而随着新数据的到来

滑动窗口中的旧数据就需要被淘汰掉

如果当前窗口中的最大值在某一时刻移出了窗口

那么就要找出一个新的最大值来进行替换

滑动窗口问题还会设置更多的问题

比方说这里面的基本计算问题

求和问题相似计算和摘要问题等

所以可以把很多传统的查询问题和分析方法

引入到滑动窗口模型中来

目前很多工作都集中在滑动窗的连接

多滑动窗口查询优化

以及滑动窗口中数据的挖掘等等方面

在这个基础上

我们流数据的立方用来建立它的模式

因为我们流数据现在是我们

整个生产过程加工过程中经常产生数据量的

最主要的是数据流

而我们数据流的特点在于动态性

瞬时性多元维度性

在这里面大多数数据流

目前处于一个多维空间

和相对低的抽象层次方面

和相对低的抽象层次方面

而大多数数据分析人员对部分维度的数据融合

和相关的高层次的动态数据变化还比较感兴趣

也是近几年来的研究热点

因为只有我们流数据进行过多层次

多维度的联机分析处理后才能发现高层次的

动态变化和不断变化的特点

这就需要研究

便于多维数据流联机分析处理的新体系结构

而我们的流数据立方计算模型里面

我们首先讲解一个倾斜时间框架模型

它主要用来在多分辨率模型中

记录时间相关的数据

进行记录我们数据结果

在这里面记录我们数据越精细越好

而且越远的数据记录

在我们的越粗糙的数据里面

它是不是很明显的

而我们这种模型目前有三个结构

即我们的自然倾斜时间框架模型

对数尺度倾斜时间框架模型

和临近时间倾斜时间框架模型三类

对我们的自然倾斜时间模型来讲

按照自然时间的各种粒度来进行组织

从最近的15分钟 45分钟 24小时直到7天

甚至更远具体也可以从舆窗图

可以所示

对于我们对数尺度倾斜时间框架模型来讲

它依据对数尺度对时间进行组织

从一个15分钟到两个15分钟

再到四个15分钟

如此按照指数级的增长方式来进行增长

具体可以从左上图可以所示

而我们的流数据立方体模型里面

一个有效的流数据

立方体算法来讲

因为流数据立方算法

是针对在线计算和查询处理而设计的

所以它需要沿一个普通的路径的计算

通过这种路径计算

我们可以得到层次与层次间的关系

而且这个关系表现为使用独立结构

流数据立方体可以以合理的存储空间

计算代价和查询响应时间

来增量式的构建我们的维度

或者说来构建和维持

由于我们的网络中的数据是连续的到达

快速的单遍扫描对我们的整个数据查询

和实时查询处理都显得尤为重要

但是传统方法目前无法解决这种

分布式计算和智能处理方式的要求

在这里面

分布式数据挖掘则

主要呈现在我们面前

这里面它主要解决我们数据分析中

与分布结构的计算过程

分布式的计算

存储交流和我们的

整个过程有相关性由此

我们的传统的中心化的这种系统结构

跟我们分布的数据挖掘

还有点不同

而我们的分布式挖掘

它主要提供了无须对数据集到一个单元中的

分布式解决方案

具体我们可以从右边这个图可以看到

在这里面分布式计算节点

更贴近于我们分布式数据源

而我们的分布式计算与分布式挖掘

它有个三个好处

第一个就是可以通过分布式计算节点的提高

我们高维导致的并行程序

从而

以最短时间来响应我们的计算结果

第二个可以让我们本地模型进行通信

从而减少因为通信导致了我们系统模型

或者说带来的一些不便

不利于条件

第三个有利于节约我们的能耗

具体一个典型例子就是我们的网络入侵检测

而我们的网络入侵检测工具

往往是从一组不同的网络上的主机发起的

其形式是分布式的

而我们的互联网式的不同主机的异质性增加

从而导致同一子网之中

我们主机的安全性要求也不一样

移动和我们的无线网络的

动态性也不断增加

从而使我们的动态拓扑结构增加了难度

而我们这种动态拓扑结构

导致很难采取中心化的防护措施

这是我们第一节的内容

大数据管理与挖掘课程列表：

第1章课程概述

-第1章教学目标

--第1章教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章作业

--第1章作业

-第1章讨论

--第1章讨论

第2章大数据融合

-第2章教学目标

--第2章教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

-第2章作业

--第2章作业

-第2章讨论

--第2章讨论

第3章大数据存储

-第3章教学目标

--第3章教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

-第3章作业

--第3章作业

-第3章讨论

--第3章讨论

第4章大数据分析

-第4章教学目标

--第4章教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

-第4章作业

--第4章作业

-第4章讨论

--第4章讨论

第5章大数据隐私

-第5章教学目标

--第5章教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

-第5章作业

--第5章作业

-第5章讨论

--第5章讨论

第6章大数据管理系统

-第6章教学目标

--第6章教学目标

-6.1 云计算大数据基础平台与支撑技术

--6.1 云计算大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

-第6章作业

--第6章作业

-第6章讨论

--第6章讨论

第7章数据回归方法

-第7章教学目标

--第7章教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

-第7章作业

--第7章作业

-第7章讨论

--第7章讨论

第8章分类方法

-第8章教学目标

--第8章教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻（KNN）

--8.2 K-近邻（KNN）

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机（SVM）

--8.7 支持向量机（SVM）

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

-第8章作业

--第8章作业

-第8章讨论

--第8章讨论

第9章聚类方法

-第9章教学目标

--第9章教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值（FCM）方法

--9.5 模糊C-均值（FCM）方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

-第9章作业

--第9章作业

-第9章讨论

--第9章讨论

第10章预测方法

-第10章教学目标

--第10章教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

-第10章作业

--第10章作业

-第10章讨论

--第10章讨论

第11章诊断方法

-第11章教学目标

--第十一章教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

-第11章作业

--第11章作业

第12章大数据技术应用

-第12章教学目标

--第12章教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章作业

--第12章作业

-第12章讨论

--第12章讨论

4.1 大数据的实时分析笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。