当前课程知识点:大数据管理与挖掘 >  第1章 课程概述 >  1.5 大数据管理的关键技术 >  1.5 大数据管理的关键技术

返回《大数据管理与挖掘》慕课在线视频课程列表

1.5 大数据管理的关键技术在线视频

下一节:第1章 讨论

返回《大数据管理与挖掘》慕课在线视频列表

1.5 大数据管理的关键技术课程教案、知识点、字幕

欢迎回来

我们继续讲第五节的内容

大数据管理的关键技术

数据的广泛引用在这里面

给我们整个的数据融合带来了不便

由此呢我们主要讲大数据融合技术

随着我们数据的广泛存在

使得数据越来越多地分布于

不同的数据管理系统当中

为了便于进行数据的分析

需要进行数据集成

而数据集成看起来并不是一个新的问题

但在大数据时代的数据集成却有新的要求

因此也面临着新的挑战

我们主要讲我们

大数据融合中的广泛的异构性

传统的数据集成

会面对数据异构的问题

但是在大数据时代

这种异构性出现了新的变化

主要体现在以下几个方面

第一个 数据类型从以前的

结构化数据转化为向结构化

半结构化 非结构化三者结合的模式改变

第二个 数据产生方式 数据产生的多样性

也带来了数据源的变化

第三个 数据存储方式也发生很大变化

由此呢

在这过程当中

我们主要关注数据质量问题

而数据量大不一定就代表信息量

或者数据价值的增大

相反很多时候意味着信息垃圾的泛滥

这主要体现在以下几个方面

一 很难有单个系统能够容纳下

不同数据源集成的海量数据

第二个 如果在集成的过程当中

仅仅采用简单地将数据聚集在一起

而不进行任何数据清洗

会使得过多的无用数据

干扰后续的数据分析过程

在我们大数据时代

数据的清洗过程必须更加谨慎

因为相对细微的有用信息

混杂在庞大的数据库当中

在这里面 如果信息清洗的粒度过细

很容易将有用的信息过滤掉

清洗的粒度过粗

又无法达到真正的清洗效果

因此在质与量之间需要进行

仔细的考量和权衡

我们在这过程当中

整个大数据分析过程还面临如下的冲击和挑战

第一个 数据处理的实时性

随着时间的流逝

数据中所蕴含的价值往往也在衰减

因此很多领域对于数据的实时处理有很高的要求

在实时处理的模式选择里面

主要有三种思路

包括流处理模式

批处理模式以及二者相结合的融合模式

第二个 动态变化环境中索引的设计

大数据时代的数据模式

大数据时代的数据模式

随着数据量的不断变化

可能会处于不断的变化过程当中

这就要求索引结构的设计要简单高效

能够在数据模式方面发生变化时

很快适应或调整过来

在数据模式变更的前提下

设计出新的模式

将是整个大数据时代最主要挑战之一

第三个 我们主要讲先验知识的缺乏

在面对大数据分析时

一方面是半结构化

和非结构化数据的存在

而这些数据很难以

类似结构化数据的方式

构建出其内部的正式关系

另一方面很多数据以流的形式

源源不断地到来

对这些需要实时处理的数据

很难足够先验知识的要求

我给大家再介绍一种隐性的数据暴露问题

很多时候人们会有意识地

将自己的行为隐藏起来

试图达到隐私保护的目的

但是互联网的出现

尤其是社交网络的出现

使得人们在不同的地点

产生越来越多的数据足迹

由此在这过程当中

这种数据具有累积性和关联性

单个地点的信息可能不会

暴露用户的隐私

但是如果有办法将某个人的很多行为

从不同的单独一点聚集起来

他的隐私就很可能会暴露

因为有关他的信息已经足够多了

这种隐性的数据暴露

往往是个人无法预知和控制的

从技术层面来说

可以通过数据抽取和集成

来实现用户隐私的获取

而在现实中通过所谓的人肉搜索

这种方式往往会更加

便利 快捷 快速 准确地得到结果

而这种人肉搜索的方式 实质是众包

大数据时代的隐私保护面临着

技术和人力层面的双重考验

也是我们所需要考虑的问题

在这里面

我们需要解决数据

公开与隐私保护的矛盾

为了保护隐私就将所有的数据加以隐敝

那么数据的价值根本无法体现

数据公开是非常有必要的

大数据时代的隐私性主要体现在

不暴露用户敏感信息的前提下

进行有效的数据挖掘

这有别于传统的信息安全领域

更加关注文件的隐私性等安全属性的情况

接着呢我给大家介绍我们的数据动态性

而大数据时代数据的快速变化

除了要求有新的数据处理技术以外

还要对隐私保护带来了新的挑战

现有隐私保护技术主要基于静态数据集

而在现实中数据模式和数据内容

时刻都在发生着变化

因此实现对动态数据的利用和隐私保护

将显得更加重要

接着呢我给大家介绍

大数据关键技术里面的能耗问题

在能耗价格上面

数据中心存储规模不断扩大的今天

高能耗已逐渐成为

制约大数据快速发展的一个主要原因

在这里面在大数据管理系统当中

能耗主要由两部分组成

硬件能耗和软件能耗

二者之中又以硬件能耗为主

据Google数据中心的调查结果显示

年耗电量达到300万瓦

而Facebook则在60万瓦左右

在这些巨大的能耗当中

只有6%~12%的能耗

被用来响应用户的查询并进行计算

绝大部分的电能耗

以确保服务器处于闲置状态

以应对突如其来的网络流量高峰

这种类型的功耗最高可以占到

数据中心所有能耗的80%

为此呢

采用新型低能耗硬件来解决该问题

来改善大数据能耗问题

新型非易失存储器件的出现

给大数据管理系统带来了新的希望

比方说闪存 PCM等新型存储硬件

具有低能耗的特性

虽然随着系统利用率的提高

闪存 PCM等的能耗也有所升高

但是其总体能耗仍远远低于传统磁盘

为此呢 在这基础上

需要引入可再生的新能源

数据中心所使用的电能耗绝大部分

都是从不可再生的能源中产生的

如果能够在大数据存储和处理过程当中

引入诸如太阳能风能之类的可再生能源

将在很大程度上缓解

不可再生能源所带来的能耗问题

而硬件的快速升级换代

有力地促进了大数据的发展

但是这也在一定程度上

造成了大量的硬件结构共存的问题

为此呢日益复杂的硬件环境

给大数据管理也带来了主要挑战

整个数据中心内部

不同机器之间的性能也会存在明显的差异性

因为不同时期购入的

不同厂商的服务器在IOPS

CPU处理速度等性能方面会有很大的差异性

这就导致了硬件环境的异构性

而这种异构性会给大数据的处理

带来了诸多问题

为此呢

我们新硬件给大数据处理带来的变革

所有的软件系统所构建在

不同的计算机体系结构上面

CPU的发展需要深入研究

如何让软件更好地适应

CPU多核心之间的并发机制

由于闪存的固态硬盘的出现

从硬件层为存储系统结构的改革

提供了支持

为计算机存储技术的发展

和存储能效的提高带来了新的契机

这是我们第五节的内容

我讲到这里

大数据管理与挖掘课程列表:

第1章 课程概述

-第1章 教学目标

--第1章 教学目标

-1.1 大数据的基本概念

--1.1 大数据的基本概念

-1.2 大数据的演变过程

--1.2 大数据的演变过程

-1.3 大数据应用

--1.3 大数据应用

-1.4 大数据的处理模式

--1.4 大数据的处理模式

-1.5 大数据管理的关键技术

--1.5 大数据管理的关键技术

-第1章 作业

--第1章 作业

-第1章 讨论

--第1章 讨论

第2章 大数据融合

-第2章 教学目标

--第2章 教学目标

-2.1 大数据融合的概念

--2.1 大数据融合的概念

-2.2 大数据融合的方法论

--2.2 大数据融合的方法论

-2.3 数据融合技术

--2.3 数据融合技术

-2.4 知识融合技术

--2.4 知识融合技术

-2.5 大数据融合的驱动枢纽

--2.5 大数据融合的驱动枢纽

-2.6 小结

--2.6 小结

-第2章 作业

--第2章 作业

-第2章 讨论

--第2章 讨论

第3章 大数据存储

-第3章 教学目标

--第3章 教学目标

-3.1 大数据存储与管理方法

--3.1 大数据存储与管理方法

-3.2 基于新型存储的大数据管理

--3.2 基于新型存储的大数据管理

-3.3 大数据处理与存储一体化技术

--3.3 大数据处理与存储一体化技术

-3.4 小结

--3.4 小结

-第3章 作业

--第3章 作业

-第3章 讨论

--第3章 讨论

第4章 大数据分析

-第4章 教学目标

--第4章 教学目标

-4.1 大数据的实时分析

--4.1 大数据的实时分析

-4.2 大数据的交互式分析

--4.2 大数据的交互式分析

-4.3 云在线聚集

--4.3 云在线聚集

-4.4 大数据的智能分析

--4.4 大数据的智能分析

-4.5 小结

--4.5 小结

-第4章 作业

--第4章 作业

-第4章 讨论

--第4章 讨论

第5章 大数据隐私

-第5章 教学目标

--第5章 教学目标

-5.1 隐私保护技术

--5.1 隐私保护技术

-5.2 隐私保护技术的应用

--5.2 隐私保护技术的应用

-5.3 大数据隐私管理

--5.3 大数据隐私管理

-5.4 小结

--5.4 小结

-第5章 作业

--第5章 作业

-第5章 讨论

--第5章 讨论

第6章 大数据管理系统

-第6章 教学目标

--第6章 教学目标

-6.1 云计算 大数据基础平台与支撑技术

--6.1 云计算 大数据基础平台与支撑技术

-6.2 批数据与流数据管理系统

--6.2 批数据与流数据管理系统

-6.3 SQL NOSQL与NEWSQL系统

--6.3 SQL NOSQL与NEWSQL系统

-6.4 小结

--6.4 小结

-第6章 作业

--第6章 作业

-第6章 讨论

--第6章 讨论

第7章 数据回归方法

-第7章 教学目标

--第7章 教学目标

-7.1 一元回归

--7.1 一元回归

-7.2 多元回归

--7.2 多元回归

-7.3 逐步回归

--7.3 逐步回归

-7.4 Logistic回归

--7.4 Logistic回归

-7.5 应用实例-多因子选股模型的实现

--7.5 应用实例-多因子选股模型的实现

-7.6 小结

--7.6 小结

-第7章 作业

--第7章 作业

-第7章 讨论

--第7章 讨论

第8章 分类方法

-第8章 教学目标

--第8章 教学目标

-8.1 分类方法概要

--8.1 分类方法概要

-8.2 K-近邻(KNN)

--8.2 K-近邻(KNN)

-8.3 贝叶斯分类

--8.3 贝叶斯分类

-8.4 神经网络

--8.4 神经网络

-8.5 LOGISTIC分类

--8.5 LOGISTIC分类

-8.6 判别分析

--8.6 判别分析

-8.7 支持向量机(SVM)

--8.7 支持向量机(SVM)

-8.8 决策树

--8.8 决策树

-8.9 分类的评判

--8.9 分类的评判

-8.10 小结

--8.10 小结

-第8章 作业

--第8章 作业

-第8章 讨论

--第8章 讨论

第9章 聚类方法

-第9章 教学目标

--第9章 教学目标

-9.1 聚类方法概要

--9.1 聚类方法概要

-9.2 K-means方法

--9.2 K-means方法

-9.3 层次聚类

--9.3 层次聚类

-9.4 神经网络聚类

--9.4 神经网络聚类

-9.5 模糊C-均值(FCM)方法

--9.5 模糊C-均值(FCM)方法

-9.6 高斯混合聚类方法

--9.6 高斯混合聚类方法

-9.7 类别数的确定方法

--9.7 类别数的确定方法

-9.8 应用实例-股票聚类分池

--9.8 应用实例-股票聚类分池

-9.9 小结

--9.9 小结

-第9章 作业

--第9章 作业

-第9章 讨论

--第9章 讨论

第10章 预测方法

-第10章 教学目标

--第10章 教学目标

-10.1 预测方法概要

--10.1 预测方法概要

-10.2 灰色预测

--10.2 灰色预测

-10.3 马尔科夫预测

--10.3 马尔科夫预测

-10.4 实用实例-纺纱质量预测

--10.4 实用实例-纺纱质量预测

-10.5 小结

--10.5 小结

-第10章 作业

--第10章 作业

-第10章 讨论

--第10章 讨论

第11章 诊断方法

-第11章 教学目标

--第十一章 教学目标

-11.1 离群点诊断概要

--11.1 离群点诊断概要

-11.2 基于统计的离群点诊断

--11.2 基于统计的离群点诊断

-11.3 基于距离的离群点诊断

--11.3 基于距离的离群点诊断

-11.4 基于密度的离群点挖掘

--11.4 基于密度的离群点挖掘

-11.5 基于聚类的离群点挖掘

--11.5 基于聚类的离群点挖掘

-11.6 应用实例-纱线断点诊断

--11.6 应用实例-纱线断点诊断

-11.7 小结

--11.7 小结

-第11章 作业

--第11章 作业

第12章 大数据技术应用

-第12章 教学目标

--第12章 教学目标

-12.1 数字挖掘技术的应用

--12.1 数字挖掘技术的应用

-12.2 纺纱质量控制

--12.2 纺纱质量控制

-第12章 作业

--第12章 作业

-第12章 讨论

--第12章 讨论

1.5 大数据管理的关键技术笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。