当前课程知识点:数据挖掘 >  第1章 概述 >  1.1 数据分析与数据挖掘 >  1.1 数据分析与数据挖掘

返回《数据挖掘》慕课在线视频课程列表

1.1 数据分析与数据挖掘在线视频

下一节:1.1 数据分析与数据挖掘

返回《数据挖掘》慕课在线视频列表

1.1 数据分析与数据挖掘课程教案、知识点、字幕

本章主要介绍

数据分析和数据挖掘的

基本概念与基本方法

讲述对复杂的 大型的数据集

进行分析和挖掘的重要性和必要性

简要介绍数据分析与数据挖掘的

主要过程和目标

以及说明在实际应用中

存在的问题和不足

数据分析是指

采用适当的统计分析方法

对收集到的数据进行分析

概括和总结

对数据进行恰当地描述

提取出有用的信息的过程

数据分析一般具有比较明确的目标

可以根据数据分析得出的结果

作出适当的判断

用来为以后的决策提供依据

例如

某连锁超市对上季度各种商品的

销售量进行统计和分析

得出每种商品的需求量和销售曲线

采购部门可以根据这些数据来判断

是否要增加或减少订货量

早在二十世纪初期

数据分析的数学基础就已经确立

但由于数据分析涉及大量的计算

一直难以应用到实际中

计算机的出现解决了这个问题

使得数据分析得到了广泛的应用

数据分析的结果可以通过

列表和作图等方法来表示

将数据按照一定的规律

在表格中表示出来

是常用的处理数据的方法

通过横向或纵向的对比

可以清晰地看出数据之间的关系

此表为商品销售量的列表数据

可以清晰地进行

三个超市四个月销售量的对比

作图法可以明确地表达

各数据量之间的变化关系

常见的图有

排列图

因果图

散布图

直方图

控制图等

此图是上表数据的折线图

可以看到每个超市

每个月销售量的变化情况

数据挖掘(Data Mining,DM)

是指从海量的数据中

通过相关的算法

来发现隐藏在数据中的

规律和知识的过程

实际上

“数据挖掘”一词

并不能完全地表达其含义

更准确的表达应当是

“在大量数据中挖掘知识”

数据挖掘又称作

“资料勘探”

“数据采矿”

类似于在大量的沙子之中挖掘金矿

数据挖掘强调在大量的

未经过加工的数据中发现少量的

具有重要价值的知识

为什么要进行数据挖掘呢

首先

是数据的爆炸式的增长

随着计算机技术的

飞速发展和迅速普及

一个不得不面临的问题

就是每时每刻都在产生着大量的数据

例如

在线交易网站每天成交上千万的订单

哈勃望远镜每周产生约120GB的观测数据

某即时交流工具有数亿人同时在线

医疗行业每天有大量的诊疗病历产生

科研机构和企业投入了大量的

人力和物力来收集和保存这些数据

然而只有其中一小部分能够被充分地利用

由于数据量巨大 数据结构复杂

在很多情况下无法进行有效分析

因此

如何对这些数据进行处理

并发现有重要意义的知识

是急需解决的问题

通常将数据挖掘视为

数据中知识发现的同义词

也可以认为数据挖掘

是知识发现中的一个步骤

这是知识发现的过程

首先

要对来源于多处的数据进行预处理

以便形成符合数据处理

基本要求的数据仓库

数据预处理包括数据清理和数据集成

数据清理是消除数据中的噪声

错误数据等

数据集成是将不同来源的数据

组合在一起

然后对数据仓库的数据

进行选择和变换

以便从数据仓库中选择与任务相关的数据

并将数据变换成适合数据挖掘的形式

选择出与任务相关

并符合处理要求的数据后

就可以使用数据挖掘的方法进行发掘

以发现知识

挖掘出知识后需要进行模式评估

以识别知识中有用的模式

并将挖掘到的知识

用可视化的技术表示出来

以方便用户进行分析和决策

可以从三个主要方面来看

数据分析与数据挖掘的区别

首先

从处理的数据量看

数据挖掘处理的是海量的数据

即数据量极大

而数据分析处理的数据量不一定很大

其次

数据分析往往有比较明确的目标

而数据挖掘所发现的知识

往往是不知道的

是需要通过数据挖掘的方法

来发现隐藏在数据之中的

有价值的信息和知识

最后

数据分析着重于展现数据之间的关系

而数据挖掘可以通过

现有数据并结合数学模型

对未知的情况进行预测和统计

然而

数据分析与数据挖掘

又联系紧密 相辅相成

首先

数据分析的结果往往需要

进一步的挖掘才能得到更加清晰的结果

而数据挖掘发现知识的过程

也需要对先验约束

进行一定的调整而再次进行数据分析

另外

数据分析可以将数据变成信息

而数据挖掘将信息变成知识

如果需要从数据中发现知识

往往需要数据分析和数据挖掘相互配合

共同完成任务

数据挖掘课程列表:

第1章 概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章 作业1

-第1章 作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论(研究生班级)

第2章 数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章 作业1

-第2章 作业2

-关于属性类型的讨论

-关于数据属性的讨论(研究生班级)

第3章 数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

--数据清理

-3.3 数据集成

--3.3 数据集成

--数据集成

-3.4 数据归约

--3.4 数据规约

--数据归约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章 作业1

-第3章 作业2

-关于建立数据集的讨论(研究生班级)

-关于数据预处理的讨论(研究生班级)

-关于建立数据集的讨论(本科生班级)

-关于数据预处理的讨论(本科生班级)

第4章 数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章 作业1

-第4章 作业2

-关于数据仓库和数据预处理的讨论(本科生班级)

-关于数据仓库价值的讨论(本科生班级)

-关于数据库与数据仓库的讨论(研究生班级)

第5章 回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章 作业1

-第5章 作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论(研究生班级)

-回归分析的优缺点(研究生班级)

第6章 频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章 作业1

-第6章 作业2

-关于Apriori算法的讨论(本科生班级)

-关于Apriori算法的讨论(研究生班级)

第7章 分类

-7.1 分类概述

--7.1 分类概述

--分类概述

-7.2 决策树

--7.2 决策树(上)

--7.2 决策树(中)

--7.2 决策树(下)

--决策树

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络(上)

--7.5 神经网络(下)

--神经网络

-7.6 分类模型的评估

--7.6 分类模型的评估(上)

--7.6 分类模型的评估(下)

--分类模型的评估

-第7章 第一部分作业2(研究生班级)

-第7章 第二部分作业2

-第7章 第二部分作业1

-关于分类算法的讨论(本科生班级)

-关于分类算法的讨论(研究生班级)

-关于神经网络的讨论(研究生班级)

第8章 聚类

-8.1 聚类概述

--8.1 聚类概述

--聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类(一)

--8.2 基于划分的聚类(二)

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章 作业1

-第8章 作业2

-关于基于划分和基于层次的聚类的讨论(本科生班级)

-关于聚类的讨论(本科生班级)

-关于聚类算法的讨论(研究生班级)

-关于聚类与数据挖掘的讨论(研究生班级)

第9章 离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测(一)

--9.2 离群点检测(二)

--离群点检测

-第9章 作业1

-第9章 作业2

-关于离群点检测的讨论(研究生班级)

1.1 数据分析与数据挖掘笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。