当前课程知识点:互联网大规模数据分析技术 > 第一章 大数据与数据挖掘概述 > 第1讲 大数据与数据挖掘概述 > 第1讲 大数据与数据挖掘概述
欢迎来到
互联网大规模数据分析技术
的课堂
我是今天的主讲教师李琳
来自武汉理工大学
今天我们开始第一讲
对大数据和数据挖掘
给大家做一个概述
更多详细的资料
大家可以参考幻灯片上的
以下4个网址来获取更多的信息
今天我们的内容
主要围绕着数据挖掘
和数据挖掘的一些任务
以及在大数据环境下
当我们拿到数据之后
应该从哪些角度来对数据
进行思考和考虑
接下来我们了解一下
如果要掌握一些
大规模数据分析技术
应该从哪些方面和学科
进行知识的积累
那么什么是数据挖掘呢
在这里
我们有3个英文字母来总结
叫KDD
他们意思是
Knowledge Discovery form Data
也就是从数据当中去发现知识
随着互联网进入我们的生活
人们越来越多的在网上
产生了各种各样的数据
大家可以看到在PC时代
1980年到1990年
那么是由yahoo提供的一些
静态的网页信息
大家只能看不能查
那么到了Web1.0时代
也就是1990~2000年
谷歌给大家提供了
在线的信息检索服务
用户可以输入查询词
来获得相关的网页信息
那么到了Web2.0
也就是2000~2001年
随着微博Facebook
这样的社交网络的出现
人们在网络上
不但能够查询信息
还能够发表意见
对网页的内容产生影响
Web变得越来越智能
如何利用这样的数据
来推动我们生活的发展呢
这就是我们这一门课
要关注的技术内容
我们把数据挖掘的任务
分为以下3个阶段
存储、管理和分析
在这门课当中
我们会用大量的篇幅
来讲解分析的方法
所以呢在这里呢
有一些词呢
我们可能会交叉使用
比如说数据挖掘、大数据
预测分析还有数据科学
那么我们一句话来总结
数据当中包含了价值
包含了知识
而我们需要发现这些知识和价值
工具和技术
在这样一个
大规模数据分析当中
我们的前提是给你很多数据
在这里我们用lots of data
那么我们希望
发掘一些模式和模型
那么发掘的这些模式和模型
能够帮助我们形成知识
并实现推理
最终帮助人们做一个决策
那么这些模型和模式需要有效
也就是说
对于新的数据
我们要有一定概率可信
同时我们要保证这样一些
模型和模式能够有用
能够用于某些物品
其次呢
我们希望在一些模型和模式呢
并不是显然易见
大家注意我用的是否定
不是显而易见
也就是说
它能给我们带来一些惊喜
我们平时并没有想到
在后面的
数据挖掘的技术课当中
我们会给大家讲关联规则挖掘
啤酒和纸尿裤这样一个例子
就是这样一种规则和模式
同时我们希望这样一些模式
人们能够理解
可以去解释
这就是我们数据挖掘任务
所要达到的4个目的
数据挖掘的任务有哪些呢
我们把它主要分为了两类
第一类是描述性的任务
也就是人们希望
用一些可解释的模型
来描述这样一些数据
比如在后面
我们将介绍聚类分析
同时呢
我们还有一些预测性的任务
那么我们希望
通过用户历史的数据
来预测用户未来的
比如说兴趣、爱好
以及购买的行为
在这里
如果用在电子商务平台上
那就是我们的推荐系统
我们明白了
数据挖掘的任务之后
那么我们拿到数据
我们需要从哪些方面
来分析数据呢
在这里我给你一个三维的视图
要从数据的模态
数据的操作以及
我们面临的挑战3个方面来看
在数据的模态这个部分
你需要关心
我拿到的数据是文本数据
图像数据
视频数据还是音频数据呢
那么我们拿到的数据
是结构化的数据
半结构化的数据
还是非结构化的数据呢
这些对于不同数据的模态
我们需要不同的预处理方法
那么接下来呢我们关心
当我们了解到数据的模态之后呢
我们要对数据做一些什么操作呢
是查询是检索还是可视化
还是排序
那么这个取决于你应用的目的
最后一个也是我们这本书
要关注的一个重点
也就是挑战
在这里当数据越来越大的情况下
如何完成大规模的数据分析
这个时候呢我们需要新的架构
新的平台来帮助我们
解决这些问题
所以在接下来的课程当中
我们会给大家介绍两种
比较有名的大数据处理技术平台
好
我们对这样一些大规模的数据
做一个总结
人们会说这样一个4V的特性
容量大
变化多样
价值密度低
更新速度快
在这里面
我们可以看到容量大
主要是指的非结构化的数据
它以非常快速的形式
在进行增长
我们谈到的异样和异构
指的是文本图像视频
和各种各样的数据的来源不同
我们同时谈到了一些
这样的价值密度
也就是说价值密度低
我们要从大量的数据当中
去做预测分析,浪里淘沙
沙里挖金这样一个过程
其次我们对数据的分析呢
有3种类型
实时、批量和交互式
对于这样不同的数据类型
能不能用一种数据平台
来完成所有的操作呢
这也是我们需要思考的问题
这儿有一个非常有趣的例子
在这样一个图片上面
显示了在互联网一分钟
指的是互联网一分钟
发生的一些什么事情
在这里有几组数据
Facebook新增了27.7万个用户
产生了六百万次的访问
Youtube上面
上载了30个小时的视频
发生了130万次的观看
谷歌发生了两百万次的搜索查询
2015年你要用五年的时间
才能看完互联网上
一秒钟产生的视频
那么这个数据究竟有多大
我们怎么来衡量呢
大家使用过电脑都知道
电脑有一个基本的参数
叫做内存
目前我的内存大概在4G左右
那么GB到TB是相差了
2个10次方
也就是1024倍
PB到TB又是2的10次方倍
EB、ZB以此类推
我们现在的互联网上的数据
已经达到了ZB级
通过上面的介绍
我们了解了互联网上
产生了如此大规模的数据
要对这样的数据
采用新的平台和新的技术
对它进行分析和处理
这样一种数据挖掘技术
和哪些学科和领域知识相关呢
在这里
我们主要考虑到了三个领域
一、数据库
大规模的数据以及查询的要求
二、机器学习
那么如何对这样的数据进行建模
帮助我们进行预测分析
其次
为了实现和解决这些模型
我们还需要
一些计算机理论知识
也就是一些算法
和数据结构的支撑
所以
对于不同领域的人来看
这样一个大规模数据分析问题
他的角度不一样
那么对于DB
这里指的是数据库的人来说
他们主要是做一些
查询词的这样一个查询要求
那么对于机器学习的人来说呢
它实际上就是做一些
推理和预测的模型
我们这门课当中会交叉地运用到
机器学习、统计、人工智能
和数据库相关的知识
但是更多地会强调
在这样一个
大规模数据的并行分布式计算中
我们所用到的一些算法
以及我们计算的这样一个架构
我们在这里会讲Hadoop
和Spark两种架构
总而言之
我们希望能够
自动地去处理大规模的数据
通过这门课的学习
我们会了解
如何对不同类型的数据进行分析
比如说高维的数据、图数据
以及带有标签的数据
我们会学不同的编程模式
比如说Map-reduce
这样一种分布式编程
以及单机的编程模式
同时我们会学习
如何利用我们所学的技术
去解决现实生活当中的问题
在这里我们主要围绕三个问题
一、推荐系统,电子商务等
二、购物篮分析
主要在超市的交易数据
三、Web搜索
这样一个搜索引擎的技术
在这门课的学习当中
同时大家可以在课后
去关注一些概念
比如说如何衡量在一个文本当中
每一个单词的重要性
大家还要去了解一些如
什么叫作索引
什么叫作Hash
这个主要在DB领域当中
大家做相关资料的查询
同时
我们会了解
计算机的一些基本的结构
比如说内存计算
那么内存放不下
数据要放到哪里呢
一般放到第二个存储器
也就是我们的硬盘上面
在这里还有一个非常有趣的理论
叫作Power Laws
那么什么是Power Laws呢
大家可以在相关的网站上
去获取更多的资料
在这里我只做一个简单的解释
大家可以看到
在这里我的横坐标代表
从一个Server上面
也就是一个网站上面
所下载的网页的数量
纵坐标呢
代表的是服务器的个数
也就是说我们会发现
一个网站上
含有少量网页的
这样的服务器的个数呢
偏少
还有特别多网页的服务器
也偏少
大部分的网站含有的网页数
都集中在某一个区域内
形成了这样一种
Power Laws的图像结构
所以这个
可以大家查阅更多的资料
作进一步的了解
以便于我们后面课程的学习
能够顺利地开展
最后
我给大家介绍几本参考书籍
在这里面我们给出了
大数据思维相关的书籍
数据挖掘的经典教材
大规模数据分析技术的
最新的这样一个中文版的教材
以及两大主要应用
信息检索和推荐系统
这一讲的内容就到这里
感谢大家的观看
-第1讲 大数据与数据挖掘概述
-第2讲 频繁项集和关联规则的基本概念
-第3讲 Apriori算法
-第4讲 Apriori算法的改进与兴趣度度量
-第5讲 分类的基本概念
-第6讲 决策树
--第6讲 决策树
-第7讲 简单贝叶斯分类
-第8讲 聚类的基本概念
-第9讲 K-Means & K-Medoids Clustering
--第9讲 K-Means & K-Medoids Clustering
-第四章 聚类算法--习题
-第10讲 大数据处理平台Hadoop
-第11讲 MapReduce编程
-第12讲 大数据处理平台Spark
-第13讲 NoSQL数据库
-第14讲 Web信息检索简介
-第15讲 信息检索之倒排索引
-第16讲 信息检索之TFIDF
--Video
-第17讲 信息检索之相似度排序
-第18讲 Web搜索之链接分析
-第19讲 Web搜索之PageRank
-第20讲 Lucene信息检索平台
-第七章 Web链接分析--习题
-第21讲 推荐系统简介
-第22讲 推荐系统之协同过滤
-第23讲 Mahout数据挖掘平台
-第24讲 信息过滤评价体系
-第八章 推荐系统--习题一
-第八章 推荐系统--习题二
-综合编程题