当前课程知识点：数据挖掘 > 第1章概述 > 1.5 应用场景及存在的问题 > 1.5 应用场景及存在的问题

返回《数据挖掘》慕课在线视频课程列表

1.5 应用场景及存在的问题在线视频

下一节: 1.5 应用场景及存在的问题

返回《数据挖掘》慕课在线视频列表

1.5 应用场景及存在的问题课程教案、知识点、字幕

通过前几节课的学习

我觉得数据挖掘是一个特别实用

特别有趣的课程

那大家在平时学习生活中

有没有接触过一些数据挖掘的应用场景

我知道一个有关于尿布和啤酒的故事

你们都知道沃尔玛超市吧

这家超市通过调查以往的销售数据

发现在购买尿布的客户当中

有很多人也购买了啤酒

所以他们决定把尿布和啤酒放在一起卖

结果竟然真的提升了两个商品的销量

那么为什么会有么多人一起买啤酒和尿布

他们后来经过调查

发现有很多年轻的父亲

会下班以后会去超市买婴儿的尿布

其中就有很多人会给自己买些啤酒

这种隐含的关系通过数据挖掘就能够发现

我听过这个例子

这个是属于线下平台的经典案例

那几年线上平台么火

是不是也用到了一些数据挖掘的知识

嗯一定的

就比如说我手上的本练习册

这本练习册

是我在在线购书平台买教材的时候

平台自动推荐给我的

听他说

买了教材的人有86%都买了本练习册

我买到手之后发现真的很不错

线上平台就是根据

其他用户的购买记录来给你做推荐的吗

也不完完全全是购买记录

也可以是浏览记录或者是搜索记录

推荐系统会根据这些记录

使用协同过滤算法

或者是基于内容的推荐算法

把用户的数据进行分析

根据现在目前的状态把商品推荐给你

其实也不单单是在线购物平台

也可以是咱们平时的外卖或者是微博

他们都用到了数据挖掘的方法

但是如果是完全按照用户的行为

来推荐的话就会有个问题

比如说我在音乐平台上比较喜欢听民谣

可能就永远也不会被推荐给摇滚乐

那种情况应该怎么办呢

的的确确是推荐系统存在的问题

所以说推荐系统

需要在确保推荐结果准确的前提之下

按照一定的策略拓宽它推荐结果的范围

这样推荐系统才具有多样性

刚才说的例子

是属于利用数据挖掘知识做推荐的

我知道一个利用数据挖掘知识

做分类的垃圾邮件分类

比如初中高中的时候

我们打开邮箱都是漂流瓶

或者是陌生人给你的转发

但是现在打开邮箱基本上都是你自己订阅的

或者是真正跟你有关的人给你发的

我觉得数据挖掘

确实是给我们的生活带来了便利

由于我不经常使用邮箱

垃圾邮件

对我的影响可能不是很大

垃圾邮件的泛滥其实有很多的弊端

首先它会占用大量的网络传输和存储资源

造成真正有用的邮件会有延迟

第二就是如果垃圾邮件太泛滥的话

你就很有可能因为信箱满了

而错过一些真正对你有用的邮件

但是判断一个邮件是不是垃圾邮件

应该也是挺难的吧

你知道有方法吗

第一

可以根据收件人来判断

如果收件人的数量特别庞大的话

它就很有是一封垃圾邮件

第二可以根据邮件正文来判断

利用自然语言处理的方法

可以把邮件正文分解成关键字

如果关键字当中还有促销发票

或者是请随手删除这些敏感词汇的话

它就很有可能是一封垃圾邮件

说到关键词过滤

我想到更常见的例子

比如在我们的日常生活和学习过程中

遇到问题时

我们经常会打开搜索引擎

输入相应的关键词

他便能在海量的互联网资源中

搜索到我们最需要的内容

但是有的时候我发现

搜索结果的前几条并不是我想要的信息

确实存在这种情况

因为一些网站为了获得较高的排名

和提供虚假的关键词

导致搜索的结果不准确影响用户的体验

同时一些社会的热点话题

也会影响搜索的结果

但是现在也已经有了一些解决办法

比如用户会根据自己的需求

在搜索结果中

选择性的过滤掉一些无关信息

而选择自己感兴趣的信息

那么搜索引擎就会根据用户的选择

来判断是否应该调整搜索的结果顺序

以提高用户体验

我觉得

即便早期预警也是很好的应用场景

利用数据挖掘技术

分结合身体的各项指标

就能帮我们

更准确的分析出自己的身体状况

据我了解

现在有很多可穿戴设备

比如说智能手环

他可以接受我们的心跳

血压等身体的各项指标

对就是利用这些监测到的数据再结合

从以往大量的病情分析中挖掘出来的特征

就可以更方便地判断出我们是不是生病了

我们生的哪种病

这样我们就可以早点发现疾病早点治疗

听起来确实很实用

但是疾病的种类有很多

每种疾病的早期症状表现也不相同

要实现种疾病的早期预警是不是很困难

确实是

辅助医疗确实存在

的数据量大数据维度高的问题

这既是一个机遇

又是一个挑战

但是现在有很多学者都提出了很多的

疾病预测的算法

并且也取得了不错的成果

经过同学们的讨论

我们可以看到数据挖掘确实是应用广泛

在后期的课程中

我将带领大家一起学习

数据挖掘中常用的分类聚类算法

教大家如何利用数据挖掘

解决现实中的问题

下面介绍数据分析数据挖掘的

应用场景及存在的问题

在商务智能方面

通过数据挖掘等技术

可以获得隐藏在各种数据中的有利信息

从而帮助商家进一步调整营销策略

比如根据顾客的购买习惯

调整商品摆放的位置

这种现象在在线销售平台也很普遍

当购买或浏览了一些商品之后

通常会在显眼的位置提示

关注这些商品的人

同时也浏览了以下商品

如果这些推荐的商品正是顾客需要的

那么这些商品的销售量就会相应的提高

这些精确的商品推荐

就依赖于对大量销售数据的分析与挖掘

信息识别

是指信息接受者从一定的目的出发

运用已有的知识和经验对信息的真伪性

有用性进行辨别和甄别

例如电子邮件极大的方便了人们的交流

但经常收到的垃圾邮件

也让人们头痛不已

由于邮件内容大部分是文本数据

垃圾邮件检测

可以通过简单的关键词过滤来实现

但这样很有可能错过一些重要的邮件

实际上

垃圾邮件检测是一个二元分类的过程

即判断一封邮件是正常邮件还是垃圾邮件

除了关键词以外

往往需要根据关键词出现的位置

和频率来进行判断

有时候还需要考虑到发件人的

邮件地址 IP地址

以及是否与收件人是好友关系等信息

通过对大量邮件的分析和挖掘

获得垃圾邮件的特征和模式

大大提高了垃圾邮件的识别率

并防止错过重要的正常邮件

搜索引擎使得在互联网上

检索自己需要的内容变得更加方便快捷

它的主要任务就是根据用户提供的关键词

在互联网上搜索用户最需要的内容

用户的期望是

准确而高效的获得相关的信息

但互联网上的数据是海量的

而且正在以惊人的速度增加

一般的数据处理和分析方法

无法完成这样的任务

搜索引擎常常需要数以万计的计算机

来共同挖掘这些数据

其次

将搜索结果以怎样的顺序提供给用户

也是一个具有挑战性的问题

一些网站为了获得较高的排名

可能会提供虚假的关键词

一些关键词在不同的领域

可能会有完全不同的意义

用户提供的关键词

可能有其他不同的表达形式

或者某些意义相近的词

一些词在近期成为热门的词汇

与某个特定的人或事相关联等等

这些问题都会对搜索结果的顺序

产生很大的影响

当搜索引擎为用户返回搜索结果之后

用户会点击自己真正感兴趣的网页

而忽略其他不重要的信息

搜索引擎根据用户对结果的反应

来判断是否应该调整这些结果的顺序

为用户提供更好的体验

在科技不断进步的今天

人们对健康的要求越来越高

然而

有些疾病不容易被发现和诊断

由于不同的疾病可能会引起相同的反应

同一种疾病在不同时期

或不同人群之间会发生不同的反应

即使是一名医生

可能也需要几年甚至十几年的经验

才能掌握这些疾病的症状以及治疗方法

通过数据分析和数据挖掘的方法

对大量历史诊断数据进行分析和挖掘

得出各种疾病在不同时期和人群中的症状

当遇到新的病人时

数据分析和数据挖掘得到的这些结果

有助于医生对病人的病情进行有效的判断

可以早日发现疾病所在

便于控制病情和治疗

虽然数据分析和数据挖掘

已经在很多领域获得了巨大的成功

但不可否认的是

数据分析与数据挖掘

依然存在着一些有挑战性的问题

首先

数据分析与数据挖掘通常会

涉及到多种不同的数据类型

同种类型的数据也可能具有不同的结构

如何综合这些不同类型和不同结构的数据

得到对用户有意义的结果

是一项有挑战性的工作

其次

数据分析与数据挖掘常常会涉及

海量的数据以及高维度的数据

传统的算法在数据量小

数据维度低的情况下有较好的表现

随着数据量和数据维度的增加

必须要采用其他策略

解决复杂度较高的问题

例如

当需要处理的数据无法完整的放到内存时

本来很简单的排序工作也变得很复杂

当数据维度很高时

计算数据在空间上的相对关系

也需要使用特殊的数据结构进行辅助

再者

在数据分析与数据挖掘的过程中

经常会出现数据包含噪声

数据丢失甚至数据错误的情况

数据缺失可能会导致得到的结果不佳

而噪声和错误很有可能导致得到错误的结果

同时

数据的来源错综复杂

时效性和准确性得不到保证

另外

数据分析与数据挖掘

通常会得到隐藏在数据之中的规律和模式

这些规律不容易理解和解释

往往需要进一步的调查

和结合专业知识进行分析和理解

如何将分析和挖掘的结果

以容易理解

便于观察的形式提供给用户

是一项重大的挑战

最后

数据分析与数据挖掘涉及到大量的数据

这些数据中包含个人信息等

隐私部分会有被泄露的风险

近几年

一些互联网公司

发生了大量用户信息泄露的事件

对数据安全造成了很大的影响

因此

如何在数据保存和挖掘的过程中

保证数据的安全性

也是需要深入研究的问题

数据挖掘课程列表：

第1章概述

-1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

--1.1 数据分析与数据挖掘

-1.2 分析与挖掘的数据类型

--1.2 分析与挖掘的数据类型

-- 1.2 分析与挖掘的数据类型

-1.3 数据分析与数据挖掘的方法

--1.3 数据分析与数据挖掘的方法

-- 1.3 数据分析与数据挖掘的方法

-1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

--1.4 数据分析与数据挖掘使用的技术

-1.5 应用场景及存在的问题

--1.5 应用场景及存在的问题

-- 1.5 应用场景及存在的问题

-第1章作业1

-第1章作业2

-关于数据分析和数据挖掘的讨论

-关于数据分析与数据挖掘的讨论（研究生班级）

第2章数据

-2.1 数据的属性

--2.1 数据的属性

-- 2.1 数据的属性

-2.2 数据的基本统计描述

--2.2.1 中心趋势度量

--2.2.2 数据分散度量

--2.2.3 数据的图形显示

--2.2 数据的基本统计描述

-2.3 数据的相似性和相异性

--2.3 数据的相似性和相异性

-- 2.3 数据的相似性和相异性

-第2章作业1

-第2章作业2

-关于属性类型的讨论

-关于数据属性的讨论（研究生班级）

第3章数据预处理

-3.1 数据存在的问题

--3.1 数据存在的问题

--数据存在的问题

-3.2 数据清理

--3.2 数据清理

-3.3 数据集成

--3.3 数据集成

-3.4 数据归约

--3.4 数据规约

-3.5 数据变换与数据离散化

--3.5 数据变换与数据离散化

--数据变换与数据离散化

-第3章作业1

-第3章作业2

-关于建立数据集的讨论（研究生班级）

-关于数据预处理的讨论（研究生班级）

-关于建立数据集的讨论（本科生班级）

-关于数据预处理的讨论（本科生班级）

第4章数据仓库和OLAP

-4.1 数据仓库基本概念

--4.1 数据仓库基本概念

--数据仓库基本概念

-4.2 数据仓库设计

--4.2 数据仓库设计

--数据仓库设计

-4.3 数据仓库实现

--4.3 数据仓库实现

--数据仓库实现

-4.4 联机分析处理

--4.4 联机分析处理

--联机分析处理

-4.5 元数据模型

--4.5 元数据模型

--元数据模型

-第4章作业1

-第4章作业2

-关于数据仓库和数据预处理的讨论（本科生班级）

-关于数据仓库价值的讨论（本科生班级）

-关于数据库与数据仓库的讨论（研究生班级）

第5章回归分析

-5.1 回归分析的基本概念

--5.1 回归分析的基本概念

--回归分析的基本概念

-5.2 一元线性回归

--5.2 一元线性回归

--一元线性回归

-5.3 多元线性回归

--5.3 多元线性回归

--多元线性回归

-5.4 多项式回归

--5.4 多项式回归

--多项式回归

-第5章作业1

-第5章作业2

-关于回归预测法的讨论(本科生班级)

-关于回归分析的讨论（研究生班级）

-回归分析的优缺点（研究生班级）

第6章频繁模式

-6.1 概述

--6.1 频繁模式概述

--频繁模式概述

-6.2 Apriori算法

--6.2 Apriori算法

--Apriori算法

-6.3 FP-growth算法

--6.3 FP-growth算法

--FP-growth算法

-6.4 压缩频繁项集

--6.4 压缩频繁项集

--压缩频繁项集

-6.5 关联模式评估

--6.5 关联模式评估

--关联模式评估

-第6章作业1

-第6章作业2

-关于Apriori算法的讨论（本科生班级）

-关于Apriori算法的讨论（研究生班级）

第7章分类

-7.1 分类概述

--7.1 分类概述

-7.2 决策树

--7.2 决策树（上）

--7.2 决策树（中）

--7.2 决策树（下）

-7.3 朴素贝叶斯分类

--7.3 朴素贝叶斯分类

--朴素贝叶斯分类

-7.4 惰性学习法

--7.4 惰性学习法

--7.4 惰性学习法

-7.5 神经网络

--7.5 神经网络（上）

--7.5 神经网络（下）

-7.6 分类模型的评估

--7.6 分类模型的评估（上）

--7.6 分类模型的评估（下）

--分类模型的评估

-第7章第一部分作业2（研究生班级）

-第7章第二部分作业2

-第7章第二部分作业1

-关于分类算法的讨论（本科生班级）

-关于分类算法的讨论（研究生班级）

-关于神经网络的讨论（研究生班级）

第8章聚类

-8.1 聚类概述

--8.1 聚类概述

-8.2 基于划分的聚类

--8.2 基于划分的聚类（一）

--8.2 基于划分的聚类（二）

--基于划分的聚类

-8.3 基于层次的聚类

--8.3 基于层次的聚类

--基于层次的聚类

-8.4 基于密度的聚类

--8.4 基于密度的聚类

--基于密度的聚类

-8.5 基于网格的聚类

--8.5 基于网格的聚类

--基于网格的聚类

-第8章作业1

-第8章作业2

-关于基于划分和基于层次的聚类的讨论（本科生班级）

-关于聚类的讨论（本科生班级）

-关于聚类算法的讨论（研究生班级）

-关于聚类与数据挖掘的讨论（研究生班级）

第9章离群点检测

-9.1 离群点定义与类型

--9.1 离群点定义与类型

--9.1 离群点定义与类型

-9.2 离群点检测

--9.2 离群点检测（一）

--9.2 离群点检测（二）

--离群点检测

-第9章作业1

-第9章作业2

-关于离群点检测的讨论（研究生班级）

1.5 应用场景及存在的问题笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。