当前课程知识点：数据挖掘 > 第1章概述 > 1.3 数据分析与数据挖掘的方法 > 1.3 数据分析与数据挖掘的方法

返回《数据挖掘》慕课在线视频课程列表

1.3 数据分析与数据挖掘的方法在线视频

下一节: 1.3 数据分析与数据挖掘的方法

返回《数据挖掘》慕课在线视频列表

1.3 数据分析与数据挖掘的方法课程教案、知识点、字幕

下面介绍常用的

数据分析与数据挖掘的方法

频繁模式就是在数据集中

频繁出现的模式

频繁项集是指频繁在事务数据集中

一起出现的商品集合

例如

在超市的销售中

哪些商品会频繁地一起被购买

通常来说

多次出现的事务可能具有特殊的意义

因此

挖掘频繁模式可以发现

包含在数据集中的有趣的关联

例如

通过分析发现

在沃尔玛超市的销售数据中

买尿不湿的客户也买啤酒

这是个强关联规则

根据这样的强关联规则

能够知道哪些商品经常一起出售

就可以将这些商品

摆放在距离较近的位置

即方便了顾客选购

又能增加销售量

频繁模式广泛应用于

信用卡分析患者就诊分析

以及购物车分析等方面

其中

购物车分析在生活中最为普遍

分类

也称为标签预测

或回归

是指根据已经具有类别标签的数据集

建立分类模型

并通过该模型预测不具有

类别标签的数据属于哪种类别

分类是预测离散的

无序的类别标号

而回归是建立连续值函数模型

也就是用来预测缺失的

或难以获得的数值数据值

常见的分类算法有

决策树朴素贝叶斯分类

支持向量机以及神经网络等

一个神经网络的示意图如图所示

输入层为身高和体重的数据

中间层为输入数据

在高维空间中的特征表示

输出层表示回归的结果

数值较大的维度对应的结果为预测值

它可以实现对输入的人的

身高和体重的数据

来预测此人属于哪种身材类型

聚类就是把一些对象

划分为多个组或者聚簇

从而使得同组内对象间

比较相似而不同组对象间差异较大

与分类回归等不同的是

聚类过程的输入对象

没有与之关联的目标信息

也就是不知道数据的类标号

因此

聚类通常归于无监督学习

由于无监督算法不需要带标签数据

所以适用于许多难以获得

带标签数据的应用

例如

通信公司根据

“工作时间通话时长”

“其他时间通话时长”

“本地通话时长”等属性

对用户进行聚类分析

可以将用户划分为

“商务用户”

“普通用户”

以及“极少使用用户”

根据分析得到的结果

通信公司可以调整现有的资费方案

使不同阶段的用户

都有更好的通话体验

离群点是指全局或局部范围内

偏离一般水平的观测对象

例如

一般来说

每个人有自己相对固定的消费习惯

当发现某个人的信用卡

在不经常消费的地区短时间内

消费了大量的金额

则可以认定这张卡的使用情况异常

可以作为离群点数据

一般情况下

离群点会被当作噪声而丢弃

但在某些特殊的应用中

由于离群点有着特殊的意义

而引起研究者的注意

如上例的信用卡异常消费

可能是出现信用卡盗刷

或恶意刷卡的情况

通过对这些异常情况的研究

及时发现并采取措施

减少或避免相应的损失

数据挖掘课程列表：

第1章概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章作业1

-第1章作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论（研究生班级）

第2章数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章作业1

-第2章作业2

-关于属性类型的讨论

-关于数据属性的讨论（研究生班级）

第3章数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

-3.3 数据集成

--3.3 数据集成

-3.4 数据归约

--3.4 数据规约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章作业1

-第3章作业2

-关于建立数据集的讨论（研究生班级）

-关于数据预处理的讨论（研究生班级）

-关于建立数据集的讨论（本科生班级）

-关于数据预处理的讨论（本科生班级）

第4章数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章作业1

-第4章作业2

-关于数据仓库和数据预处理的讨论（本科生班级）

-关于数据仓库价值的讨论（本科生班级）

-关于数据库与数据仓库的讨论（研究生班级）

第5章回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章作业1

-第5章作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论（研究生班级）

-回归分析的优缺点（研究生班级）

第6章频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章作业1

-第6章作业2

-关于Apriori算法的讨论（本科生班级）

-关于Apriori算法的讨论（研究生班级）

第7章分类

-7.1 分类概述

--7.1 分类概述

-7.2 决策树

--7.2 决策树（上）

--7.2 决策树（中）

--7.2 决策树（下）

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络（上）

--7.5 神经网络（下）

-7.6 分类模型的评估

--7.6 分类模型的评估（上）

--7.6 分类模型的评估（下）

--分类模型的评估

-第7章第一部分作业2（研究生班级）

-第7章第二部分作业2

-第7章第二部分作业1

-关于分类算法的讨论（本科生班级）

-关于分类算法的讨论（研究生班级）

-关于神经网络的讨论（研究生班级）

第8章聚类

-8.1 聚类概述

--8.1 聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类（一）

--8.2 基于划分的聚类（二）

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章作业1

-第8章作业2

-关于基于划分和基于层次的聚类的讨论（本科生班级）

-关于聚类的讨论（本科生班级）

-关于聚类算法的讨论（研究生班级）

-关于聚类与数据挖掘的讨论（研究生班级）

第9章离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测（一）

--9.2 离群点检测（二）

--离群点检测

-第9章作业1

-第9章作业2

-关于离群点检测的讨论（研究生班级）

1.3 数据分析与数据挖掘的方法笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。