当前课程知识点：互联网大规模数据分析技术 > 第一章大数据与数据挖掘概述 > 第1讲大数据与数据挖掘概述 > 第1讲大数据与数据挖掘概述

返回《互联网大规模数据分析技术》慕课在线视频课程列表

第1讲大数据与数据挖掘概述在线视频

下一节:第2讲频繁项集和关联规则的基本概念

返回《互联网大规模数据分析技术》慕课在线视频列表

第1讲大数据与数据挖掘概述课程教案、知识点、字幕

欢迎来到

互联网大规模数据分析技术

的课堂

我是今天的主讲教师李琳

来自武汉理工大学

今天我们开始第一讲

对大数据和数据挖掘

给大家做一个概述

更多详细的资料

大家可以参考幻灯片上的

以下4个网址来获取更多的信息

今天我们的内容

主要围绕着数据挖掘

和数据挖掘的一些任务

以及在大数据环境下

当我们拿到数据之后

应该从哪些角度来对数据

进行思考和考虑

接下来我们了解一下

如果要掌握一些

大规模数据分析技术

应该从哪些方面和学科

进行知识的积累

那么什么是数据挖掘呢

在这里

我们有3个英文字母来总结

叫KDD

他们意思是

Knowledge Discovery form Data

也就是从数据当中去发现知识

随着互联网进入我们的生活

人们越来越多的在网上

产生了各种各样的数据

大家可以看到在PC时代

1980年到1990年

那么是由yahoo提供的一些

静态的网页信息

大家只能看不能查

那么到了Web1.0时代

也就是1990～2000年

谷歌给大家提供了

在线的信息检索服务

用户可以输入查询词

来获得相关的网页信息

那么到了Web2.0

也就是2000～2001年

随着微博Facebook

这样的社交网络的出现

人们在网络上

不但能够查询信息

还能够发表意见

对网页的内容产生影响

Web变得越来越智能

如何利用这样的数据

来推动我们生活的发展呢

这就是我们这一门课

要关注的技术内容

我们把数据挖掘的任务

分为以下3个阶段

存储、管理和分析

在这门课当中

我们会用大量的篇幅

来讲解分析的方法

所以呢在这里呢

有一些词呢

我们可能会交叉使用

比如说数据挖掘、大数据

预测分析还有数据科学

那么我们一句话来总结

数据当中包含了价值

包含了知识

而我们需要发现这些知识和价值

工具和技术

在这样一个

大规模数据分析当中

我们的前提是给你很多数据

在这里我们用lots of data

那么我们希望

发掘一些模式和模型

那么发掘的这些模式和模型

能够帮助我们形成知识

并实现推理

最终帮助人们做一个决策

那么这些模型和模式需要有效

也就是说

对于新的数据

我们要有一定概率可信

同时我们要保证这样一些

模型和模式能够有用

能够用于某些物品

其次呢

我们希望在一些模型和模式呢

并不是显然易见

大家注意我用的是否定

不是显而易见

也就是说

它能给我们带来一些惊喜

我们平时并没有想到

在后面的

数据挖掘的技术课当中

我们会给大家讲关联规则挖掘

啤酒和纸尿裤这样一个例子

就是这样一种规则和模式

同时我们希望这样一些模式

人们能够理解

可以去解释

这就是我们数据挖掘任务

所要达到的4个目的

数据挖掘的任务有哪些呢

我们把它主要分为了两类

第一类是描述性的任务

也就是人们希望

用一些可解释的模型

来描述这样一些数据

比如在后面

我们将介绍聚类分析

同时呢

我们还有一些预测性的任务

那么我们希望

通过用户历史的数据

来预测用户未来的

比如说兴趣、爱好

以及购买的行为

在这里

如果用在电子商务平台上

那就是我们的推荐系统

我们明白了

数据挖掘的任务之后

那么我们拿到数据

我们需要从哪些方面

来分析数据呢

在这里我给你一个三维的视图

要从数据的模态

数据的操作以及

我们面临的挑战3个方面来看

在数据的模态这个部分

你需要关心

我拿到的数据是文本数据

图像数据

视频数据还是音频数据呢

那么我们拿到的数据

是结构化的数据

半结构化的数据

还是非结构化的数据呢

这些对于不同数据的模态

我们需要不同的预处理方法

那么接下来呢我们关心

当我们了解到数据的模态之后呢

我们要对数据做一些什么操作呢

是查询是检索还是可视化

还是排序

那么这个取决于你应用的目的

最后一个也是我们这本书

要关注的一个重点

也就是挑战

在这里当数据越来越大的情况下

如何完成大规模的数据分析

这个时候呢我们需要新的架构

新的平台来帮助我们

解决这些问题

所以在接下来的课程当中

我们会给大家介绍两种

比较有名的大数据处理技术平台

好

我们对这样一些大规模的数据

做一个总结

人们会说这样一个4V的特性

容量大

变化多样

价值密度低

更新速度快

在这里面

我们可以看到容量大

主要是指的非结构化的数据

它以非常快速的形式

在进行增长

我们谈到的异样和异构

指的是文本图像视频

和各种各样的数据的来源不同

我们同时谈到了一些

这样的价值密度

也就是说价值密度低

我们要从大量的数据当中

去做预测分析，浪里淘沙

沙里挖金这样一个过程

其次我们对数据的分析呢

有3种类型

实时、批量和交互式

对于这样不同的数据类型

能不能用一种数据平台

来完成所有的操作呢

这也是我们需要思考的问题

这儿有一个非常有趣的例子

在这样一个图片上面

显示了在互联网一分钟

指的是互联网一分钟

发生的一些什么事情

在这里有几组数据

Facebook新增了27.7万个用户

产生了六百万次的访问

Youtube上面

上载了30个小时的视频

发生了130万次的观看

谷歌发生了两百万次的搜索查询

2015年你要用五年的时间

才能看完互联网上

一秒钟产生的视频

那么这个数据究竟有多大

我们怎么来衡量呢

大家使用过电脑都知道

电脑有一个基本的参数

叫做内存

目前我的内存大概在4G左右

那么GB到TB是相差了

2个10次方

也就是1024倍

PB到TB又是2的10次方倍

EB、ZB以此类推

我们现在的互联网上的数据

已经达到了ZB级

通过上面的介绍

我们了解了互联网上

产生了如此大规模的数据

要对这样的数据

采用新的平台和新的技术

对它进行分析和处理

这样一种数据挖掘技术

和哪些学科和领域知识相关呢

在这里

我们主要考虑到了三个领域

一、数据库

大规模的数据以及查询的要求

二、机器学习

那么如何对这样的数据进行建模

帮助我们进行预测分析

其次

为了实现和解决这些模型

我们还需要

一些计算机理论知识

也就是一些算法

和数据结构的支撑

所以

对于不同领域的人来看

这样一个大规模数据分析问题

他的角度不一样

那么对于DB

这里指的是数据库的人来说

他们主要是做一些

查询词的这样一个查询要求

那么对于机器学习的人来说呢

它实际上就是做一些

推理和预测的模型

我们这门课当中会交叉地运用到

机器学习、统计、人工智能

和数据库相关的知识

但是更多地会强调

在这样一个

大规模数据的并行分布式计算中

我们所用到的一些算法

以及我们计算的这样一个架构

我们在这里会讲Hadoop

和Spark两种架构

总而言之

我们希望能够

自动地去处理大规模的数据

通过这门课的学习

我们会了解

如何对不同类型的数据进行分析

比如说高维的数据、图数据

以及带有标签的数据

我们会学不同的编程模式

比如说Map-reduce

这样一种分布式编程

以及单机的编程模式

同时我们会学习

如何利用我们所学的技术

去解决现实生活当中的问题

在这里我们主要围绕三个问题

一、推荐系统，电子商务等

二、购物篮分析

主要在超市的交易数据

三、Web搜索

这样一个搜索引擎的技术

在这门课的学习当中

同时大家可以在课后

去关注一些概念

比如说如何衡量在一个文本当中

每一个单词的重要性

大家还要去了解一些如

什么叫作索引

什么叫作Hash

这个主要在DB领域当中

大家做相关资料的查询

同时

我们会了解

计算机的一些基本的结构

比如说内存计算

那么内存放不下

数据要放到哪里呢

一般放到第二个存储器

也就是我们的硬盘上面

在这里还有一个非常有趣的理论

叫作Power Laws

那么什么是Power Laws呢

大家可以在相关的网站上

去获取更多的资料

在这里我只做一个简单的解释

大家可以看到

在这里我的横坐标代表

从一个Server上面

也就是一个网站上面

所下载的网页的数量

纵坐标呢

代表的是服务器的个数

也就是说我们会发现

一个网站上

含有少量网页的

这样的服务器的个数呢

偏少

还有特别多网页的服务器

也偏少

大部分的网站含有的网页数

都集中在某一个区域内

形成了这样一种

Power Laws的图像结构

所以这个

可以大家查阅更多的资料

作进一步的了解

以便于我们后面课程的学习

能够顺利地开展

最后

我给大家介绍几本参考书籍

在这里面我们给出了

大数据思维相关的书籍

数据挖掘的经典教材

大规模数据分析技术的

最新的这样一个中文版的教材

以及两大主要应用

信息检索和推荐系统

这一讲的内容就到这里

感谢大家的观看

互联网大规模数据分析技术课程列表：

第一章大数据与数据挖掘概述

-第1讲大数据与数据挖掘概述

--第1讲大数据与数据挖掘概述

第二章关联规则

-第2讲频繁项集和关联规则的基本概念

--第2讲频繁项集和关联规则的基本概念

-第3讲 Apriori算法

--第3讲 Apriori算法

-第4讲 Apriori算法的改进与兴趣度度量

--第4讲 Apriori算法的改进与兴趣度度量

第三章分类算法

-第5讲分类的基本概念

--第5讲分类的基本概念

-第6讲决策树

--第6讲决策树

-第7讲简单贝叶斯分类

--第7讲简单贝叶斯分类

第四章聚类算法

-第8讲聚类的基本概念

--第8讲聚类的基本概念

-第9讲 K-Means & K-Medoids Clustering

--第9讲 K-Means & K-Medoids Clustering

-第四章聚类算法--习题

第五章大数据平台与技术

-第10讲大数据处理平台Hadoop

--第10讲大数据处理平台Hadoop

-第11讲 MapReduce编程

--第11讲 MapReduce编程

-第12讲大数据处理平台Spark

--第12讲大数据处理平台Spark

-第13讲 NoSQL数据库

--第13讲 NoSQL数据库

第六章信息检索

-第14讲 Web信息检索简介

--第14讲 Web信息检索简介

-第15讲信息检索之倒排索引

--第15讲信息检索之倒排索引

-第16讲信息检索之TFIDF

-第17讲信息检索之相似度排序

--第16讲信息检索之TFIDF

第七章 Web链接分析

-第18讲 Web搜索之链接分析

--第18讲 Web搜索之链接分析

-第19讲 Web搜索之PageRank

--第19讲 Web搜索之PageRank

-第20讲 Lucene信息检索平台

--第20讲 Lucene信息检索平台

-第七章 Web链接分析--习题

第八章推荐系统

-第21讲推荐系统简介

--第21讲推荐系统简介

-第22讲推荐系统之协同过滤

--第22讲推荐系统之协同过滤

-第23讲 Mahout数据挖掘平台

--第23讲 Mahout数据挖掘平台

-第24讲信息过滤评价体系

--第24讲信息过滤评价体系

-第八章推荐系统--习题一

-第八章推荐系统--习题二

自我提升练习

-综合编程题

第1讲大数据与数据挖掘概述笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。