当前课程知识点:数据挖掘 >  第1章 概述 >  1.4 数据分析与数据挖掘使用的技术 >  1.4 数据分析与数据挖掘使用的技术

返回《数据挖掘》慕课在线视频课程列表

1.4 数据分析与数据挖掘使用的技术在线视频

下一节:1.4 数据分析与数据挖掘使用的技术

返回《数据挖掘》慕课在线视频列表

1.4 数据分析与数据挖掘使用的技术课程教案、知识点、字幕

数据挖掘是一门

涉及面非常广的交叉学科

它吸纳了

统计学

线性代数

概率论

数据库和数据仓库

信息检索

模式识别

高性能计算

云计算

机器学习等

许多领域的大量技术

与各学科的紧密联系

极大地促进了数据分析和数据挖掘的

迅速发展和广泛应用

统计学是通过对数据进行收集

整理 分析和描述

来达到对研究对象本质的理解和表示

因此

统计学与数据挖掘有着很大的联系

在实际生活中

通常有一些过程

无法通过理论分析直接获得模型

但可以通过直接或间接测量的方法

获得描述目标对象的

相关变量的具体数据

用来刻画这些变量之间关系的

数学函数称为统计模型

统计模型广泛应用于数据建模

例如

数据中通常会包含噪声

甚至数据值缺失

可以使用统计模型

对有噪声和缺失的数据进行建模

在分析和数据挖掘中

可以使用该模型

处理噪声和数据缺失的情况

反过来

在数据挖掘过程得到结果时

也可以使用统计学方法

检验结果是否符合实际

机器学习是涉及多个领域的交叉学科

主要研究

计算机如何像人类学习知识那样

自主地分析和处理数据

做出智能的判断

并通过获得的新的知识

对自身进行发展和完善

例如

通过对一组手写数字的实例

进行学习之后

学习程序可以对新的手写数字进行识别

一个经典的手写数字数据集

称为MNIST数据集

它包含数万张手写数字的图像

一组图像样例如图所示

数据集中每个数字占用28乘28像素

在机器学习领域

研究比较广泛的方法有

监督学习

无监督学习

半监督学习等

监督学习需要在有标记的数据集上进行

以MNIST手写数字数据集为例

对于训练数据集中的每一个手写数字

需要标记出它是0到9中的哪一个数字

并在训练的过程中

将输入数据和数据标记

一同提供给学习器

在训练结束后

将不在训练数据集中的一张图像

输入学习器

学习器将根据学到的知识

给出该图像中包含的数字

因此

监督学习是一个分类的过程

监督学习的流程如图所示

无监督学习

可以在没有标记的数据集上进行学习

实质上无监督学习是一个聚类的过程

仍以MNIST手写数字数据集为例

通过对数据集上的数据进行学习

学习器得到了十个不同的类别

这十个类别对应于0~9这十个数字

当将一个新的手写数字的图像

输入到学习器之中

学习器会给出该图像

属于这十个类别中的哪一个

但是

由于训练集并没有任何标记

学习器不知道哪个类别

代表的数字是什么

所以说

学习器不知道

每个类别代表的实际语义是什么

半监督学习

在学习过程中使用标记

和未标记的数据

半监督学习主要考虑

如何利用少量有标记的数据

和大量未标记的数据来进行学习

其中标记的数据用来学习模型

而未标记的数据

用来进一步改进类的边界

例如

如图所示

使用“+”表示正实例

“-”表示负实例

而实心圆表示未标记数据

如果只考虑有标记的数据进行分类

那么虚线是分割两种不同类型的

最佳决策边界

当将未标记的数据考虑进去之后

可以将决策边界改进为实线

其中

在正实例一侧出现的负实例

很可能是噪声或离群点

从机器学习的学习方式和方法可以看出

它和数据挖掘有许多相似之处

机器学习通过自主学习来改进自身

提高预测的准确性

除此之外

数据挖掘也非常关注

挖掘方法在大型数据集上的有效性

数据库系统

是为了解决数据处理方面的问题

而建立起来的数据处理系统

注重于为用户创建

维护和使用数据库

许多数据挖掘的任务

都需要处理大型数据集

因此

数据挖掘可以利用数据库技术

在大型数据集上

高效地存储和管理数据

以满足复杂的数据分析需求

数据仓库汇集了

来自多个不同数据源的数据

通过数据仓库

可以在不同的维度合并数据

形成数据立方体

便于从不同的角度

对数据进行分析和挖掘

人们在认识事物的时候

常常要将它和其他事物进行对比

发现其不同之处

并根据对比结果

和先前的认知将相似的事物归类

人的这种思维方式

就构成了对不同事物“模式”的识别

随着计算机技术的不断进步和发展

人们希望计算机也能够像人类一样

具有这种能力

帮助人们完成一些繁重的任务

模式识别的本质

就是抽象出不同事物中的模式

并根据这些模式

对事物进行分类或聚类的过程

在很多情况下

对数据挖掘有着很重要的借鉴意义

模式识别的研究内容非常广泛

包括文字识别

语音识别

图像识别

医学诊断以及指纹识别等

在生活中也有着非常多的应用

例如

手机 平板电脑等电子产品

每次解锁都需要输入较长的密码

给人们带来了诸多不便

而借助于模式识别技术发展起来的

声纹解锁和指纹解锁技术

很好地解决了这个问题

数据挖掘研究的

是在海量数据中发现规律和知识

通常来说

在数据量很小的时候

计算机能够很好地处理这些问题

但随着数据量的不断增大

这些问题就会变得很困难

甚至无法处理

此时就需要考虑

高性能计算的相关技术

高性能计算是指

突破单个计算机资源不足的限制

使用多个处理器

或多台计算机共同完成

同一项任务的计算环境

例如

常见的天气预报

就使用了高性能计算的技术

由于天气不仅和当地的环境有关

还可能和周围的

气温 气压有很大关系

甚至海上的某个气流

也可能对陆地上的天气产生很大的影响

如果只采用单个计算机来处理这些数据

可能需要上百年的时间

即使计算出来也没有任何意义了

而采用高性能计算技术

能够及时高效地分析和处理

海量的气象数据

得到较为精确的结果

大大方便了人们的生产和生活

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

1.4 数据分析与数据挖掘使用的技术笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。