当前课程知识点:大数据管理与挖掘 > 第1章 课程概述 > 1.2 大数据的演变过程 > 1.2 大数据的演变过程
欢迎回来
我们继续讲第二节的内容
在整个演变过程当中
无论是从数据库到大数据
看似只是一个简单的技术演进过程
而整个过程当中
都发生着很大的本质上的区别
大数据的出现必将颠覆
传统的数据管理方式
在数据来源
数据处理方式和数据思维等方面
都会带来革命性变化
由此呢我们可以举个例子
比方说我们认为
池塘捕鱼和大海捕鱼
是一个很好的类比
池塘捕鱼代表着
传统数据库时代的数据管理方式
而大海捕鱼则代表着
大数据时代的数据管理方式
在这里面 鱼是待处理的数据
捕鱼环境条件的变化导致了
捕鱼方式的根本性差异
由此呢 池塘和大海
最明显的区别就在于它的规模
池塘规模相对比较小
即便是先前认为比较大的池塘
在这里面
池塘的处理对象通常以MB为单位进行计量
而大海通常以GB这种形式进行计量
由此从GB可以上升到TB PB
这样的一些处理方式和单位
在过去的池塘当中 数据的种类相对比较单一
往往仅仅有一种或者说少数几种
这种数据以结构化数据为主
而现在在大海当中
数据的类型种类多 数以千计
而这些数据又包含着结构化
半结构化以及非结构化的数据结构
并且结构化和非结构化数据
所占的份额越来越大
由此传统的数据库都是先有模式
然后才会产生数据
即先选好合适的池塘
然后才会向其中投放相应的鱼类
由此在这个池塘里面环境生长的鱼
而大数据时代在很多情况下
很难预先确定模式
模式只有在数据出现以后才能确定
且模式随着数据量的增长
处于一种不断的演变过程当中
这就好比先有少量的鱼类
随着时间推移
鱼的种类和数量都在不断地增长
鱼的变化会使大海的成分
和环境处于不断的变化当中
由此 在池塘中捕鱼
鱼仅仅是其捕捞对象
而在大海中可以通过某些鱼的存在
来判断其他鱼类的存在
也就是说传统数据库当中数据仅作为处理对象
而在大数据时代
要把数据作为一种资源来辅助
解决其他诸多领域的相关问题
由此呢捕捞池塘中的鱼
用一种渔网或少数几种渔网就可以应对
也就是所谓的
One Size Fits All
但是在大海中
不存在一种渔网能够捕获所有鱼类的情况
也就是所谓的
No Size Fits All
在这过程当中 人类自古以来
在科学研究上先后历经了实验
理论和计算三种模式
当数据量不断增长和累积到今天以后
这三种传统范式在科学研究
特别是在一些新的研究领域
已经无法很好地发挥作用
因此呢需要有一种全新的范式
来指导新形势下的科学研究
在这过程当中
基于这种考虑目前研究的最多的就是
Jim Gray提出了一种新的
数据探索型研究方式
他称之为科学研究的第四种范式
而第四范式的本质就是从以计算为中心
转变以数据处理为中心
也就是我们所说的数据思维
这种方式需要我们从根本上转变思维
具体的范式呢
我们可以从以下表格可以看出
在这里面 我们通过试验
理论和计算和数据探索
可以求解我们现有的四种范式
这是我们第二节内容
我讲到这里
-第1章 教学目标
--第1章 教学目标
-1.1 大数据的基本概念
-1.2 大数据的演变过程
-1.3 大数据应用
-1.4 大数据的处理模式
-1.5 大数据管理的关键技术
-第1章 作业
--第1章 作业
-第1章 讨论
--第1章 讨论
-第2章 教学目标
--第2章 教学目标
-2.1 大数据融合的概念
-2.2 大数据融合的方法论
-2.3 数据融合技术
-2.4 知识融合技术
-2.5 大数据融合的驱动枢纽
-2.6 小结
--2.6 小结
-第2章 作业
--第2章 作业
-第2章 讨论
--第2章 讨论
-第3章 教学目标
--第3章 教学目标
-3.1 大数据存储与管理方法
-3.2 基于新型存储的大数据管理
-3.3 大数据处理与存储一体化技术
-3.4 小结
--3.4 小结
-第3章 作业
--第3章 作业
-第3章 讨论
--第3章 讨论
-第4章 教学目标
--第4章 教学目标
-4.1 大数据的实时分析
-4.2 大数据的交互式分析
-4.3 云在线聚集
-4.4 大数据的智能分析
-4.5 小结
--4.5 小结
-第4章 作业
--第4章 作业
-第4章 讨论
--第4章 讨论
-第5章 教学目标
--第5章 教学目标
-5.1 隐私保护技术
-5.2 隐私保护技术的应用
-5.3 大数据隐私管理
-5.4 小结
--5.4 小结
-第5章 作业
--第5章 作业
-第5章 讨论
--第5章 讨论
-第6章 教学目标
--第6章 教学目标
-6.1 云计算 大数据基础平台与支撑技术
-6.2 批数据与流数据管理系统
-6.3 SQL NOSQL与NEWSQL系统
-6.4 小结
--6.4 小结
-第6章 作业
--第6章 作业
-第6章 讨论
--第6章 讨论
-第7章 教学目标
--第7章 教学目标
-7.1 一元回归
--7.1 一元回归
-7.2 多元回归
--7.2 多元回归
-7.3 逐步回归
--7.3 逐步回归
-7.4 Logistic回归
-7.5 应用实例-多因子选股模型的实现
-7.6 小结
--7.6 小结
-第7章 作业
--第7章 作业
-第7章 讨论
--第7章 讨论
-第8章 教学目标
--第8章 教学目标
-8.1 分类方法概要
-8.2 K-近邻(KNN)
-8.3 贝叶斯分类
-8.4 神经网络
--8.4 神经网络
-8.5 LOGISTIC分类
-8.6 判别分析
--8.6 判别分析
-8.7 支持向量机(SVM)
-8.8 决策树
--8.8 决策树
-8.9 分类的评判
-8.10 小结
--8.10 小结
-第8章 作业
--第8章 作业
-第8章 讨论
--第8章 讨论
-第9章 教学目标
--第9章 教学目标
-9.1 聚类方法概要
-9.2 K-means方法
-9.3 层次聚类
--9.3 层次聚类
-9.4 神经网络聚类
-9.5 模糊C-均值(FCM)方法
-9.6 高斯混合聚类方法
-9.7 类别数的确定方法
-9.8 应用实例-股票聚类分池
-9.9 小结
--9.9 小结
-第9章 作业
--第9章 作业
-第9章 讨论
--第9章 讨论
-第10章 教学目标
-10.1 预测方法概要
-10.2 灰色预测
-10.3 马尔科夫预测
-10.4 实用实例-纺纱质量预测
-10.5 小结
--10.5 小结
-第10章 作业
--第10章 作业
-第10章 讨论
--第10章 讨论
-第11章 教学目标
-11.1 离群点诊断概要
-11.2 基于统计的离群点诊断
-11.3 基于距离的离群点诊断
-11.4 基于密度的离群点挖掘
-11.5 基于聚类的离群点挖掘
-11.6 应用实例-纱线断点诊断
-11.7 小结
--11.7 小结
-第11章 作业
--第11章 作业
-第12章 教学目标
-12.1 数字挖掘技术的应用
-12.2 纺纱质量控制
-第12章 作业
--第12章 作业
-第12章 讨论
--第12章 讨论