当前课程知识点:物联网工程导论 > 第五章 智能信息处理技术 > 5.2 基于大数据技术的数据挖掘和知识发现 > 视频单元
同学们好
我是来自云南大学信息学院的杨艳华
这节课
我们来讨论一下
智能信息处理的第二部分内容
基于大数据技术的数据挖掘
和知识发现
这节课
主要围绕四个方面来讲
大数据及大数据技术
基于大数据的数据挖掘
知识表示及知识发现
物联网数据挖掘举例
我们先来领教一下大数据技术的威力
2016年1月
谷歌研究者开发的人工智能机器人
AlphaGo
以5:0完胜欧洲围棋冠军
职业二段选手樊麾
2016年3月
AlphaGo以4比1
战胜世界围棋冠军李世石
2017年5月
AlphaGo
以3比0的总比分
战胜世界排名第一的围棋冠军柯洁
为什么AlphaGo
会如此厉害呢
根本原因是AlphaGo
拥有棋局大数据
并采用了大数据技术
随着互联网
云计算
物联网
人工智能的飞速发展
和智能化时代的来临
人类社会的
数据产生方式发生了翻天覆地的变化
任何时候
任何人
任何地方
都会产生新的数据
数据量日益庞大
同时
人类的生产生活
也越来越依赖于数据的支持
主要表现在
人类的日常生活已经与数据密不可分
科学研究进入了
数据科学时代
各行各业也越来越依赖于
大数据手段来开展工作
因此
需要采用专门的技术
来对海量数据
或巨量数据进行处理
大数据技术
就是这样的技术
我们先来了解一下什么是大数据
大数据的大
主要体现在数据规模上
我们先来看一下
全球数据总量变化图
2004年
全球的数据总量仅30EB
EB是计算机存储单位
中文名叫艾字节
1EB呢等于1024PB
等于1024的平方TB
2011年
增加到了1800EB
到了2015年猛增到7900EB
预计到2020年
数据总量将增加到35000EB
我们进入了智能化时代
同时我们也进入了大数据时代
由于近年来
数据问题越来越重要
从学术界到产业界
越来越重视大数据问题
从
百度指数
的数据来源来看
大数据这个词
从2012年才引起关注
之后
搜索量便迅猛增长
那么
什么是大数据呢
大数据有多种多样的定义
这里给出其中的一种定义
大数据
叫Big Data
又称为海量数据
或巨量数据
其规模巨大到无法
通过目前主流的计算机系统
在合理的时间内获取
存储
管理
处理
并提炼以帮助使用者决策
大数据呈现出
4V加1C的特点
第1个v
指的是大数据价值密度低
需要快速采集
发现和分析
提取有价值的信息
第2个V
指的是存储的数据量巨大
PB级别是常态
因而对其分析的计算量也大
第3个V
指的是大数据增长速度快
而且越新的数据价值越高
因而要求对数据的处理速度也要快
第4个V
指的是数据来源及格式多样
除了传统的结构化数据
还包括
半结构化
和非结构化数据
1C
指的是大数据复杂性高
常规的通过数据库
处理
持久存储数据的方式
不再适用于大数据处理
需要有
新的方法来满足异构数据统一接入
和实时数据处理的需求
由于以上特点
对大数据的处理和分析难度较大
需要采用专门的大数据技术
大数据关键技术
涉及到大数据的
数据采集
数据存储和管理
数据处理与分析
数据隐私
和安全等技术层面
在数据采集层面
利用ETL工具
将分布的
异构数据源中的数据
如关系数据
平面数据文件等
抽取到临时中间层后进行清洗
转换
集成
最后加载到数据仓库或数据集市中
成为联机分析处理
数据挖掘的基础
或者也可以把实时采集的数据
作为流计算系统的输入
进行实时处理分析
在数据存储和管理层面
利用分布式文件系统
数据仓库
关系数据库
NoSQL数据库
云数据库等
实现对结构化
半结构化和非结构化
海量数据的存储和管理
在数据处理与分析层面
利用分布式并行编程模型
和计算框架
结合机器学习和数据挖掘算法
实现对海量数据的处理和分析
对分析结果进行可视化呈现
帮助人们更好地理解数据
分析数据
在数据隐私和安全层面
在从大数据中挖掘
潜在的
巨大商业价值和学术价值的同时
构建隐私数据保护体系
和数据安全体系
有效保护个人隐私和数据安全
大数据的
最核心的技术是两个方面
分布式存储和分布式处理
这是能够对大数据进行处理的关键
数据的价值在于应用
在应用之前
需要对数据进行挖掘
数据挖掘
又称数据库中的知识发现
是涉及机器学习
人工智能
数据库理论
以及统计学等
多学科的交叉研究领域
数据挖掘就是从数据库的
大量数据中
挖掘出有用的信息
即从大量的
不完全的
有噪声的
模糊的
随机的实际应用数据中
发现隐含的
规律性的
人们事先未知的
但又是潜在有用的
并且最终可理解的信息
和知识的非平凡过程
数据挖掘的常用方法有
聚类
分类
关联分析
数据总结
偏差检测
预测等
聚类
是将物理
或抽象对象的集合
分成由类似的
对象组成的多个类
或簇
的过程
数据分类
是数据挖掘中的基础
和核心技术
并且在数据挖掘中
被广泛使用
是用于把
具有某些共同点
或相似特征的事物
归属于一个
不确定
集合的逻辑方法
关联分析
是在交易数据
关系数据
或其他信息载体中
查找存在于项文集合
或对象集合之间的频繁模式
关联
相关性
或因果结构
数据总结
是对数据进行浓缩
给出它的紧凑描述
偏差检测是对分析对象的
少数的
极端的
特例的描述
揭示内在的原因
预测方法
是把握分析对象发展的规律
对未来的趋势做出预见
近年来
数据挖掘
吸纳了诸如
统计学
机器学习
模式识别
数据库
和数据仓库
信息检索
可视化
算法分析
高性能计算
等许多领域的
大量技术
与传统的数据挖掘相比
大数据挖掘有自己的特征
这主要表现在三个方面
首先
大数据挖掘在一定程度上
降低了对传统数据挖掘模型
以及算法的依赖
其次
大数据挖掘在一定程度上
降低了因果关系
对传统数据挖掘
结果精度的影响
最后
大数据挖掘
能够在最大程度上
利用互联网上
记录的用户行为数据
进行分析
近年来
大数据挖掘的一些新方法
不断被引入
随着机器学习的发展
深度学习
取得突破
驱动着大数据挖掘
和人工智能的蓬勃发展
其次是
知识计算方法
要对数据进行高端分析
就需要从大数据中
先抽取出有价值的知识
并把它构建成
可支持查询
分析和计算的知识库
基于大数据的知识计算
是大数据分析的基础
也是近年来国内外工业界
学术界研究的一个热点
它包括
知识库的构建
多元知识的融合
和知识库的更新
另外一个新方法是社会计算
广义而言
社会计算
是指面向社会科学的
计算理论和方法
狭义而言
社会计算
是面向社会活动
社会过程
社会结构
社会组织
及其作用和效应的计算理论
和方法
还有一个新方法是大数据
特异群组挖掘
它具有广泛应用背景
在证券交易
智能交通
社会保险
生物医疗
银行金融
和网络社区等领域
都有应用需求
对发挥大数据
在诸多领域的应用价值
具有重要意义
大数据挖掘的最终目的
是从海量数据中
提取出有价值的信息
并加以利用
提到大数据
我们常常会提到两个名词
知识表示和知识发现
知识表示
是知识客体中的知识因子
与知识关联起来
便于人们识别和理解知识
知识表示是知识组织的
前提和基础
任何知识组织方法
都是要建立在知识表示的基础上
知识发现
是所谓"数据挖掘"的一种
更广义的说法
即从各种媒体表示的信息中
根据不同的需求获得知识
知识发现的目的
是向使用者屏蔽
原始数据的繁琐细节
从原始数据中提炼出有意义的
简洁的知识
直接向使用者报告
总之
知识发现
也正是大数据技术
研究的意义所在
随着大数据技术的发展
物联网
与大数据技术结合
应用领域更加广阔
如
当前我国正在建设的
雪亮工程
是以县
乡
村
三级综治中心为指挥平台
以综治信息化为支撑
以网格化管理为基础
以公共安全
视频监控联网应用为重点的
群众性治安防控工程
雪亮工程
共享的海量视频资源和基础数据
丰富了
公安图像信息资源
和警务大数据
充分利用物联网
和大数据挖掘技术
为警方治安防控
侦破案件
反恐等工作
提供了支撑和保障
大大提高了预测预警预防
社会治安风险的能力
车联网也是物联网和大数据
结合的典型应用
车联网通过GPS
RFID
传感器
摄像头
图像处理等装置
车辆可以完成
自身环境和状态信息的采集
通过互联网技术
所有的车辆
可以将自身的
各种信息传输汇聚到中央处理器
通过大数据技术
大量车辆的信息可以被分析和处理
从而计算出不同车辆的最佳路线
及时汇报路况
和安排信号灯周期
基于大数据的综合健康服务平台
也是一个典型的应用案例
通过构建覆盖全生命周期
内涵丰富
结构合理的
以人为本
全面连续的综合健康服务体系
利用大数据技术
和物联网技术
提供线上线下
相结合的公众健康服务
实现
未病先防
已病早治
既病防变
愈后防复
满足社会公众多层次
多方位的健康服务需求
提升人民群众的身心健康水平
当前
大数据已经与物联网
云计算
人工智能一起
成为信息技术产业中
最受关注的热点技术领域
人类社会已经步入了
物联网
云计算
大数据
智能化的时代
随着大数据从概念渗透转向应用发展
大数据产业正处于
蓬勃发展的孕育期与机遇期
大数据技术
将在开源环境下不断提升
今天关于大数据技术的内容
就讲到这里
谢谢
-1.1 什么是物联网?
--视频单元
--图文单元
--物联网概述(一)作业
--讨论单元
-1.2 物联网的三层结构
--视频单元
--图文单元
--物联网概述(二)作业
--讨论单元
-第一章作业
-2.1 自动识别技术之RFID
--视频单元
--图文单元
-2.2 感知技术之传感器
--视频单元
--图文单元
-第二章作业
-讨论单元
-3.1 计算机网络技术
--视频单元
--图文单元
--计算机网络课后作业
--讨论单元
-3.2 物联网无线通信基础
--视频单元
--图文单元
--物联网无线通信基础课后作业
--讨论单元
-3.3 物联网无线通信技术(一)
--视频单元
--图文单元
--物联网无线通信技术(一)作业
--讨论单元
-3.4 物联网无线通信技术(二)
--视频单元
--图文单元
--物联网网络通信技术(二)作业
--讨论单元
-4.1 开源硬件之Arduino(一)
--视频单元
--图文单元
--开源硬件之Arduino(一)课后作业
--讨论单元
-4.2 开源硬件之Arduino(二)
--视频单元
--图文单元
--开源硬件之Arduino(二)课后作业
--讨论单元
-4.3 智能硬件与嵌入式系统(一)
--视频单元
--图文单元
--智能硬件与嵌入式系统(一)课后作业
--讨论单元
-4.4 智能硬件与嵌入式系统(二)
--视频单元
--图文单元
--智能硬件与嵌入式系统(二)课后作业
--讨论单元
-5.1 基于云计算平台的数据融合和信息处理
--视频单元
--图文单元
-5.2 基于大数据技术的数据挖掘和知识发现
--视频单元
--图文单元
-第五章课后作业
-讨论单元
-6.1 移动应用开发技术
--视频单元
--图文单元
-6.2 Web应用开发技术
--视频单元
--图文单元
-第六章课后作业
-讨论单元
-视频单元
-图文单元
-第七章课后作业
-讨论单元
-8.1 物联网应用实例
--视频单元
--图文单元
--物联网应用实例课后作业
--讨论单元
-8.2 物联网导论竞赛
--视频单元
--图文单元
--物联网导论科技制作竞赛课后作业
--讨论单元
-视频单元
-图文单元
-第九章课后作业
-讨论单元