当前课程知识点：电子信息科学与技术导引(1) > 第六讲：数据与算法 > 第九节：数据挖掘技术和数据算法的展望 > 第九节：数据挖掘技术和数据算法的展望

返回《电子信息科学与技术导引(1)》慕课在线视频课程列表

第九节：数据挖掘技术和数据算法的展望在线视频

第九节：数据挖掘技术和数据算法的展望

下一节:第一节：基本内容简介

返回《电子信息科学与技术导引(1)》慕课在线视频列表

第九节：数据挖掘技术和数据算法的展望课程教案、知识点、字幕

下面我们谈一下

数据挖掘技术和

我们对数据算法的未来展望

传统的科学研究方式

一般的说法是

根据我们所掌握的知识

以及我们对社会的分析理解

建立起数学模型

并用观测数据

来获取模型参数

设计实现算法求解问题

然后用新的数据来验证

结果的正确性

以及数学模型

和算法的正确性

我们前面讨论的

数据拟合模式分类

都是这样的例子

但是在大数据的领域

传统的做法就有些力不从心

面对海量高维的数据

不能仅仅依赖于人的

观察和猜想

如何有效地提取其中的信息

需要有新的技术和方法

数据挖掘的一个经典例子

就是所谓啤酒和尿布的故事

沃尔玛是全球最大的

连锁零售商

大量顾客在连锁超市的

购物行为累计起来

就会形成海量的数据

在海量数据中

人们发现有这样一个现象

很多顾客会同时购买

啤酒和尿布

经过进一步的分析

他们发现是因为

美国的妇女经常会嘱咐丈夫

在下班回家的路上

给孩子买尿布

而丈夫在买尿布的同时

又会顺手购买

自己爱喝的啤酒

那么在啤酒和尿布之间

就形成了数据挖掘中

所谓的关联规则

在发现这个关联规则以后

沃尔玛在货架上

就把啤酒和尿布摆放在一起

有效提升了销售业绩

同样的例子还有很多

比如买了钢笔的顾客

很有可能会购买墨水

买了牛奶的顾客

很有可能会购买果汁

在夏天，买了薯片的顾客

也可能去买冰激凌

因此超市摆放的原则可能

并不是分门别类

而是把相互关联的产品

放在了一起

这样看似杂乱无章

却会取得更好的销售业绩

更进一步针对用户特点

和偏好的个性化推荐系统

在互联网时代已经展现出了

极大的市场价值

搜索引擎是人们

获取信息的重要通道之一

用户的每个查询

能够匹配上的网页数量

往往十分惊人

但是能够真正被用户

看到的数量却非常有限

很显然越是靠前的结果

越容易得到用户的关注

而用户很少会浏览

三页以后的搜索结果

因此信息的展示非常关键

把更可靠、更有价值的网页

放到前面

这对用户体验非常重要

由于互联网上的网页规模

极为巨大

情况也非常复杂

因此网页重要程度的评估

也是难度很大的一个任务

Google搜索引擎的基础

就是著名的PageRank算法

它的基本思路使用网页之间的

超链接关系

来确定一个页面的等级

他们把从A页面到B页面的链接

解释为A页面给B页面投票

那么一个页面的外部链接越多

越有助于提升

页面链接的等级

被高等级页面链接

也有助于提升

这个页面的等级

我们看到的这个公式

就是PageRank算法的

基本模型

通过求解它

我们就可以得到

每个网页页面的评级

当然实际算法

会比这个复杂的多

历史上曾经有很多

著名的百科全书

比如中国古代的永乐大典

和四库全书

近现代的大英百科全书

美国哥伦比亚百科全书

和中国大百科全书等等

但在互联网的浪潮中

诞生了百科全书的

一种全新形式维基百科

维基百科是一个

自由免费内容开放的

百科全书协作计划

是一个动态的

可自由访问和编辑的

全球知识体

为什么在互联网的时代

维基百科能够取得

这么大的成功呢

我们觉得主要有两个核心点

第一有大量的作者

愿意无偿的做贡献

从分享知识中获得快乐

第二经过群体智慧的努力

维基百科的质量

能够得到有效的保证

互联网上出现了这样的

一种新的协作方式

就叫众包

就是通过互联网

向不确定的外部群体

实行任务的外包

维基百科的成功

体现了众包的力量

原本复杂困难的任务

借助互联网的平台

集聚大众的力量

就有可能获得成功

在前面我们讨论数据挖掘

和网页评级的例子中

算法的处理对象是数据

而在维基百科这样的

众包事件中

人和人们也成为

算法规范和管理的要素

作为网站的安全措施之一

现在很多网站在登录的时候

都需要输入验证码

captcha就是一种区分

用户是机器还是人的程序

这种程序要生成

人类能够很容易通过

但计算机却通不过的测试

因此它往往通过扭曲字体

加入背景等手段

防止验证码被自动识别

从而保证网站的安全性

这种技术还有一个新的用途

就是re-captcha

re-captcha就是用

captcha的原理

借助于人类大脑的能力

进行对古旧数据中

难以被计算机自动识别的

字符进行辨别

re-captcha每次都会

显示两个单词让人来识别

其中一个是

需要用户识别的难认词

另一个是答案已知的真正的

captcha词

程序将能够正确识别

captcha词的用户

看成是人类

把他们对难认词的识别结果

添加到数据库中

认为具有一定的可信度

他们还将困难的词

发给多个用户

并挑选其中具有相同结果的

作为正确答案

这样经过实验表明

他们对这些难认词的识别结果

在大家的努力下

可以达到99%的正确率

用户的使用过程

实际上就是在帮助

数字化1908年的纽约时报

或者古书中的一页

这对考古学具有重大的意义

由于很多人气极高的网站

都采用了这种re-captcha

目前每天大约可以处理

约100万个难认的单词

在这个例子中我们可以看到

算法利用人脑和人类的协作

完成了一个高难度的任务

我们把这些联系起来

就可以看到一幅

可能的未来图景

数据已经成为

人类社会最重要的资产

Google由横跨

约20个数据中心的

45万个系统组成

每过 14 个月

微软的数据中心的数目

就会翻番

计算变成一种公共资源

今后有可能就像

使用市政水电一样

只需要打开水龙头

或者接上插头

而人们使用算法

处理数据获取知识

同时也被算法所规则和使用

这样人自身也成为

数学模型和算法的一部分

这是一种全新的生态系统

最后我们来总结一下

我们这个课程

数据是对客观世界的

符号表示

是信息的载体

是算法处理的对象

算法是处理数据的系统

根据数据特性和目标

才能设计更有效的算法

数据算法和人类

将向未来信息社会的

生态系统演化

希望同学们今后

认真学习和掌握

数据算法相关的知识和能力

因为数据和算法对于你们的

学习工作生活

都会很有帮助

同时数据和算法也是你们

认知世界理解社会的

有力工具

谢谢

电子信息科学与技术导引(1)课程列表：

第一讲：电磁学与分析数学史概览

-第一节序言

--第一节序言

-第二节电磁学和分析数学发展史：磁学

--第二节电磁学和分析数学发展史：磁学

-第三节电磁学与分析数学发展史：静电

--第三节电磁学与分析数学发展史：静电

-第四节电磁学和分析数学发展史：动电

--第四节电磁学和分析数学发展史：动电

-第五节电子器件的发明及电子技术的发展

--第五节电子器件的发明及电子技术的发展

-第六节电磁学的广泛应用

--第六节电磁学的广泛应用

-第七节电磁系统理论

--第七节电磁系统理论

-第八节电子科学技术各学科间的关系

--第八节电子科学技术各学科间的关系

-第九节电子科学技术的学科体系

--第九节电子科学技术的学科体系

-第一讲：电磁学与分析数学史概览--第一次作业

第二讲：电磁场与物质的相互作用

-第一节序言

--第一节序言

-第二节电磁场（一）

--第二节电磁场（一）

-第三节电磁场（二）

--第三节电磁场（二）

-第四节物质

--第四节物质

-第五节电磁场与物质的相互作用：非共振作用

--第五节电磁场与物质的相互作用：非共振作用

-第六节电磁场与物质的相互作用：共振作用

--第六节电磁场与物质的相互作用：共振作用

-第七节电磁场理论与电路理论

--第七节电磁场理论与电路理论

第三讲：电路抽象

-第一节空间离散化

--第一节空间离散化

-第二节静场电路分析

--第二节静场电路分析

-第三节非静场电路抽象

--第三节非静场电路抽象

-第三讲：电路抽象--电路抽象练习题

-第四节电路元件抽象

--第四节电路元件抽象

-第五节非线性元件抽象

--第五节非线性元件抽象

-第六节电路抽象三原则

--第六节电路抽象三原则

-第七节分层抽象思想

--第七节分层抽象思想

-第八节电路基本问题

--第八节电路基本问题

-第九节数字化抽象

--第九节数字化抽象

-第三讲：电路抽象--Quiz 3

第四讲：比特与逻辑

-第一节序言

--第一节序言

-第二节什么是比特

--第二节什么是比特

-第三节比特与编码

--第三节比特与编码

-第四节比特与信息

--第四节比特与信息

-第五节比特的用途示例

--第五节比特的用途示例

-第六节什么是逻辑

--第六节什么是逻辑

-第七节逻辑的用途示例

--第七节逻辑的用途示例

-第八节与数字电路的关系

--第八节与数字电路的关系

-第九节小结

--第九节小结

-第四讲：比特与逻辑--Quiz4

第五讲：程序与处理器

-第一节：从算盘到ENIAC

--第一节：从算盘到ENIAC

-第二节：通用计算机模型

--第二节：通用计算机模型

-第三节：指令集体系结构

--第三节：指令集体系结构

-第四节：程序和程序设计语言

--第四节程序和程序设计语言

-第五节：处理器的工作原理

--第五节：处理器的工作原理

-第六节：性能问题

--第六节：性能问题

-第七节：小结

--第七节：小结

第六讲：数据与算法

-第一节：数据与数据处理技术的发展

--第一节：数据与数据处理技术的发展

-第二节：数据处理举例

--第二节：数据处理举例

-第三节：数据模型和算法的概念

--第三节：数据模型和算法的概念

-第四节：问题的抽象和建模

--第四节：问题的抽象和建模

-第五节：数值分析问题研究

--第五节：数值分析问题研究

-第六节：数据和算法的关系I

--第六节：数据和算法的关系I

-第七节：数据和算法的关系II

--第七节：数据和算法的关系II

-第八节：大数据

--第八节：大数据

-第九节：数据挖掘技术和数据算法的展望

--第九节：数据挖掘技术和数据算法的展望

-第六讲：数据与算法--Quiz6

第七讲：通讯与网络

-第一节：基本内容简介

--第一节：基本内容简介

-第二节：信息的基本概念和传输的几种方式

--第二节：信息的基本概念和传输的几种方式

-第三节：交换的概念和网络的几种形式

--第三节：交换的概念和网络的几种形式

-第四节：模拟与数字通信

--第四节：模拟与数字通信

-第五节：调制和解调

--第五节：调制和解调

-第六节：传输涉及的基本理论

--第六节：传输涉及的基本理论

-第七节：信息论和几种相关的编码方式

--第七节：信息论和几种相关的编码方式

-第八节：多址方式

--第八节：多址方式

-第九节：交换的基本概念

--第九节：交换的基本概念

-第十节：网络分层的基本概念

--第十节：网络分层的基本概念

-第十一节：互联网的基本原理和有限状态机模型

--第十一节：互联网的基本原理和有限状态机模型

-第七讲：通讯与网络--Quiz7

第八讲：媒体与认知

-第一讲：内容简介

--第一讲：内容简介

-第二讲：信息与媒体

--第二讲：信息与媒体

-第三讲：人类感知与认知

--第三讲：人类感知与认知

-第四讲：智能信息处理

--第四讲：智能信息处理

-第五讲：媒体与认知相互作用

--第五讲：媒体与认知相互作用

-第六讲：媒体认知应用

--第六讲：媒体认知应用

-第七讲：总结

--第七讲：总结

-第八讲：媒体与认知--Quiz8

期末考试

-期末考试--Final Exam

第九节：数据挖掘技术和数据算法的展望笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。