当前课程知识点:物联网工程导论 >  第五章 智能信息处理技术 >  5.2 基于大数据技术的数据挖掘和知识发现 >  视频单元

返回《物联网工程导论》慕课在线视频课程列表

视频单元在线视频

下一节:图文单元

返回《物联网工程导论》慕课在线视频列表

视频单元课程教案、知识点、字幕

同学们好

我是来自云南大学信息学院的杨艳华

这节课

我们来讨论一下

智能信息处理的第二部分内容

基于大数据技术的数据挖掘

和知识发现

这节课

主要围绕四个方面来讲

大数据及大数据技术

基于大数据的数据挖掘

知识表示及知识发现

物联网数据挖掘举例

我们先来领教一下大数据技术的威力

2016年1月

谷歌研究者开发的人工智能机器人

AlphaGo

以5:0完胜欧洲围棋冠军

职业二段选手樊麾

2016年3月

AlphaGo以4比1

战胜世界围棋冠军李世石

2017年5月

AlphaGo

以3比0的总比分

战胜世界排名第一的围棋冠军柯洁

为什么AlphaGo

会如此厉害呢

根本原因是AlphaGo

拥有棋局大数据

并采用了大数据技术

随着互联网

云计算

物联网

人工智能的飞速发展

和智能化时代的来临

人类社会的

数据产生方式发生了翻天覆地的变化

任何时候

任何人

任何地方

都会产生新的数据

数据量日益庞大

同时

人类的生产生活

也越来越依赖于数据的支持

主要表现在

人类的日常生活已经与数据密不可分

科学研究进入了

数据科学时代

各行各业也越来越依赖于

大数据手段来开展工作

因此

需要采用专门的技术

来对海量数据

或巨量数据进行处理

大数据技术

就是这样的技术

我们先来了解一下什么是大数据

大数据的大

主要体现在数据规模上

我们先来看一下

全球数据总量变化图

2004年

全球的数据总量仅30EB

EB是计算机存储单位

中文名叫艾字节

1EB呢等于1024PB

等于1024的平方TB

2011年

增加到了1800EB

到了2015年猛增到7900EB

预计到2020年

数据总量将增加到35000EB

我们进入了智能化时代

同时我们也进入了大数据时代

由于近年来

数据问题越来越重要

从学术界到产业界

越来越重视大数据问题

百度指数

的数据来源来看

大数据这个词

从2012年才引起关注

之后

搜索量便迅猛增长

那么

什么是大数据呢

大数据有多种多样的定义

这里给出其中的一种定义

大数据

叫Big Data

又称为海量数据

或巨量数据

其规模巨大到无法

通过目前主流的计算机系统

在合理的时间内获取

存储

管理

处理

并提炼以帮助使用者决策

大数据呈现出

4V加1C的特点

第1个v

指的是大数据价值密度低

需要快速采集

发现和分析

提取有价值的信息

第2个V

指的是存储的数据量巨大

PB级别是常态

因而对其分析的计算量也大

第3个V

指的是大数据增长速度快

而且越新的数据价值越高

因而要求对数据的处理速度也要快

第4个V

指的是数据来源及格式多样

除了传统的结构化数据

还包括

半结构化

和非结构化数据

1C

指的是大数据复杂性高

常规的通过数据库

处理

持久存储数据的方式

不再适用于大数据处理

需要有

新的方法来满足异构数据统一接入

和实时数据处理的需求

由于以上特点

对大数据的处理和分析难度较大

需要采用专门的大数据技术

大数据关键技术

涉及到大数据的

数据采集

数据存储和管理

数据处理与分析

数据隐私

和安全等技术层面

在数据采集层面

利用ETL工具

将分布的

异构数据源中的数据

如关系数据

平面数据文件等

抽取到临时中间层后进行清洗

转换

集成

最后加载到数据仓库或数据集市中

成为联机分析处理

数据挖掘的基础

或者也可以把实时采集的数据

作为流计算系统的输入

进行实时处理分析

在数据存储和管理层面

利用分布式文件系统

数据仓库

关系数据库

NoSQL数据库

云数据库等

实现对结构化

半结构化和非结构化

海量数据的存储和管理

在数据处理与分析层面

利用分布式并行编程模型

和计算框架

结合机器学习和数据挖掘算法

实现对海量数据的处理和分析

对分析结果进行可视化呈现

帮助人们更好地理解数据

分析数据

在数据隐私和安全层面

在从大数据中挖掘

潜在的

巨大商业价值和学术价值的同时

构建隐私数据保护体系

和数据安全体系

有效保护个人隐私和数据安全

大数据的

最核心的技术是两个方面

分布式存储和分布式处理

这是能够对大数据进行处理的关键

数据的价值在于应用

在应用之前

需要对数据进行挖掘

数据挖掘

又称数据库中的知识发现

是涉及机器学习

人工智能

数据库理论

以及统计学等

多学科的交叉研究领域

数据挖掘就是从数据库的

大量数据中

挖掘出有用的信息

即从大量的

不完全的

有噪声的

模糊的

随机的实际应用数据中

发现隐含的

规律性的

人们事先未知的

但又是潜在有用的

并且最终可理解的信息

和知识的非平凡过程

数据挖掘的常用方法有

聚类

分类

关联分析

数据总结

偏差检测

预测等

聚类

是将物理

或抽象对象的集合

分成由类似的

对象组成的多个类

或簇

的过程

数据分类

是数据挖掘中的基础

和核心技术

并且在数据挖掘中

被广泛使用

是用于把

具有某些共同点

或相似特征的事物

归属于一个

不确定

集合的逻辑方法

关联分析

是在交易数据

关系数据

或其他信息载体中

查找存在于项文集合

或对象集合之间的频繁模式

关联

相关性

或因果结构

数据总结

是对数据进行浓缩

给出它的紧凑描述

偏差检测是对分析对象的

少数的

极端的

特例的描述

揭示内在的原因

预测方法

是把握分析对象发展的规律

对未来的趋势做出预见

近年来

数据挖掘

吸纳了诸如

统计学

机器学习

模式识别

数据库

和数据仓库

信息检索

可视化

算法分析

高性能计算

等许多领域的

大量技术

与传统的数据挖掘相比

大数据挖掘有自己的特征

这主要表现在三个方面

首先

大数据挖掘在一定程度上

降低了对传统数据挖掘模型

以及算法的依赖

其次

大数据挖掘在一定程度上

降低了因果关系

对传统数据挖掘

结果精度的影响

最后

大数据挖掘

能够在最大程度上

利用互联网上

记录的用户行为数据

进行分析

近年来

大数据挖掘的一些新方法

不断被引入

随着机器学习的发展

深度学习

取得突破

驱动着大数据挖掘

和人工智能的蓬勃发展

其次是

知识计算方法

要对数据进行高端分析

就需要从大数据中

先抽取出有价值的知识

并把它构建成

可支持查询

分析和计算的知识库

基于大数据的知识计算

是大数据分析的基础

也是近年来国内外工业界

学术界研究的一个热点

它包括

知识库的构建

多元知识的融合

和知识库的更新

另外一个新方法是社会计算

广义而言

社会计算

是指面向社会科学的

计算理论和方法

狭义而言

社会计算

是面向社会活动

社会过程

社会结构

社会组织

及其作用和效应的计算理论

和方法

还有一个新方法是大数据

特异群组挖掘

它具有广泛应用背景

在证券交易

智能交通

社会保险

生物医疗

银行金融

和网络社区等领域

都有应用需求

对发挥大数据

在诸多领域的应用价值

具有重要意义

大数据挖掘的最终目的

是从海量数据中

提取出有价值的信息

并加以利用

提到大数据

我们常常会提到两个名词

知识表示和知识发现

知识表示

是知识客体中的知识因子

与知识关联起来

便于人们识别和理解知识

知识表示是知识组织的

前提和基础

任何知识组织方法

都是要建立在知识表示的基础上

知识发现

是所谓"数据挖掘"的一种

更广义的说法

即从各种媒体表示的信息中

根据不同的需求获得知识

知识发现的目的

是向使用者屏蔽

原始数据的繁琐细节

从原始数据中提炼出有意义的

简洁的知识

直接向使用者报告

总之

知识发现

也正是大数据技术

研究的意义所在

随着大数据技术的发展

物联网

与大数据技术结合

应用领域更加广阔

当前我国正在建设的

雪亮工程

是以县

三级综治中心为指挥平台

以综治信息化为支撑

以网格化管理为基础

以公共安全

视频监控联网应用为重点的

群众性治安防控工程

雪亮工程

共享的海量视频资源和基础数据

丰富了

公安图像信息资源

和警务大数据

充分利用物联网

和大数据挖掘技术

为警方治安防控

侦破案件

反恐等工作

提供了支撑和保障

大大提高了预测预警预防

社会治安风险的能力

车联网也是物联网和大数据

结合的典型应用

车联网通过GPS

RFID

传感器

摄像头

图像处理等装置

车辆可以完成

自身环境和状态信息的采集

通过互联网技术

所有的车辆

可以将自身的

各种信息传输汇聚到中央处理器

通过大数据技术

大量车辆的信息可以被分析和处理

从而计算出不同车辆的最佳路线

及时汇报路况

和安排信号灯周期

基于大数据的综合健康服务平台

也是一个典型的应用案例

通过构建覆盖全生命周期

内涵丰富

结构合理的

以人为本

全面连续的综合健康服务体系

利用大数据技术

和物联网技术

提供线上线下

相结合的公众健康服务

实现

未病先防

已病早治

既病防变

愈后防复

满足社会公众多层次

多方位的健康服务需求

提升人民群众的身心健康水平

当前

大数据已经与物联网

云计算

人工智能一起

成为信息技术产业中

最受关注的热点技术领域

人类社会已经步入了

物联网

云计算

大数据

智能化的时代

随着大数据从概念渗透转向应用发展

大数据产业正处于

蓬勃发展的孕育期与机遇期

大数据技术

将在开源环境下不断提升

今天关于大数据技术的内容

就讲到这里

谢谢

物联网工程导论课程列表:

第一章 物联网概述

-1.1 什么是物联网?

--视频单元

--图文单元

--物联网概述(一)作业

--讨论单元

-1.2 物联网的三层结构

--视频单元

--图文单元

--物联网概述(二)作业

--讨论单元

-第一章作业

第二章 信息识别与信息感知

-2.1 自动识别技术之RFID

--视频单元

--图文单元

-2.2 感知技术之传感器

--视频单元

--图文单元

-第二章作业

-讨论单元

第三章 计算机网络及通信技术

-3.1 计算机网络技术

--视频单元

--图文单元

--计算机网络课后作业

--讨论单元

-3.2 物联网无线通信基础

--视频单元

--图文单元

--物联网无线通信基础课后作业

--讨论单元

-3.3 物联网无线通信技术(一)

--视频单元

--图文单元

--物联网无线通信技术(一)作业

--讨论单元

-3.4 物联网无线通信技术(二)

--视频单元

--图文单元

--物联网网络通信技术(二)作业

--讨论单元

第四章 智能硬件与嵌入式系统

-4.1 开源硬件之Arduino(一)

--视频单元

--图文单元

--开源硬件之Arduino(一)课后作业

--讨论单元

-4.2 开源硬件之Arduino(二)

--视频单元

--图文单元

--开源硬件之Arduino(二)课后作业

--讨论单元

-4.3 智能硬件与嵌入式系统(一)

--视频单元

--图文单元

--智能硬件与嵌入式系统(一)课后作业

--讨论单元

-4.4 智能硬件与嵌入式系统(二)

--视频单元

--图文单元

--智能硬件与嵌入式系统(二)课后作业

--讨论单元

第五章 智能信息处理技术

-5.1 基于云计算平台的数据融合和信息处理

--视频单元

--图文单元

-5.2 基于大数据技术的数据挖掘和知识发现

--视频单元

--图文单元

-第五章课后作业

-讨论单元

第六章 软件编程技术

-6.1 移动应用开发技术

--视频单元

--图文单元

-6.2 Web应用开发技术

--视频单元

--图文单元

-第六章课后作业

-讨论单元

第七章 无人机技术

-视频单元

-图文单元

-第七章课后作业

-讨论单元

第八章 科技制作、创新创业及竞赛活动

-8.1 物联网应用实例

--视频单元

--图文单元

--物联网应用实例课后作业

--讨论单元

-8.2 物联网导论竞赛

--视频单元

--图文单元

--物联网导论科技制作竞赛课后作业

--讨论单元

第九章 云南大学信息学院及物联网工程专业介绍

-视频单元

-图文单元

-第九章课后作业

-讨论单元

视频单元笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。