当前课程知识点:电子信息科学与技术导引(1) > 第六讲:数据与算法 > 第九节:数据挖掘技术和数据算法的展望 > 第九节:数据挖掘技术和数据算法的展望
下面我们谈一下
数据挖掘技术和
我们对数据算法的未来展望
传统的科学研究方式
一般的说法是
根据我们所掌握的知识
以及我们对社会的分析理解
建立起数学模型
并用观测数据
来获取模型参数
设计实现算法求解问题
然后用新的数据来验证
结果的正确性
以及数学模型
和算法的正确性
我们前面讨论的
数据拟合模式分类
都是这样的例子
但是在大数据的领域
传统的做法就有些力不从心
面对海量高维的数据
不能仅仅依赖于人的
观察和猜想
如何有效地提取其中的信息
需要有新的技术和方法
数据挖掘的一个经典例子
就是所谓啤酒和尿布的故事
沃尔玛是全球最大的
连锁零售商
大量顾客在连锁超市的
购物行为累计起来
就会形成海量的数据
在海量数据中
人们发现有这样一个现象
很多顾客会同时购买
啤酒和尿布
经过进一步的分析
他们发现是因为
美国的妇女经常会嘱咐丈夫
在下班回家的路上
给孩子买尿布
而丈夫在买尿布的同时
又会顺手购买
自己爱喝的啤酒
那么在啤酒和尿布之间
就形成了数据挖掘中
所谓的关联规则
在发现这个关联规则以后
沃尔玛在货架上
就把啤酒和尿布摆放在一起
有效提升了销售业绩
同样的例子还有很多
比如买了钢笔的顾客
很有可能会购买墨水
买了牛奶的顾客
很有可能会购买果汁
在夏天,买了薯片的顾客
也可能去买冰激凌
因此超市摆放的原则可能
并不是分门别类
而是把相互关联的产品
放在了一起
这样看似杂乱无章
却会取得更好的销售业绩
更进一步针对用户特点
和偏好的个性化推荐系统
在互联网时代已经展现出了
极大的市场价值
搜索引擎是人们
获取信息的重要通道之一
用户的每个查询
能够匹配上的网页数量
往往十分惊人
但是能够真正被用户
看到的数量却非常有限
很显然越是靠前的结果
越容易得到用户的关注
而用户很少会浏览
三页以后的搜索结果
因此信息的展示非常关键
把更可靠、更有价值的网页
放到前面
这对用户体验非常重要
由于互联网上的网页规模
极为巨大
情况也非常复杂
因此网页重要程度的评估
也是难度很大的一个任务
Google搜索引擎的基础
就是著名的PageRank算法
它的基本思路使用网页之间的
超链接关系
来确定一个页面的等级
他们把从A页面到B页面的链接
解释为A页面给B页面投票
那么一个页面的外部链接越多
越有助于提升
页面链接的等级
被高等级页面链接
也有助于提升
这个页面的等级
我们看到的这个公式
就是PageRank算法的
基本模型
通过求解它
我们就可以得到
每个网页页面的评级
当然实际算法
会比这个复杂的多
历史上曾经有很多
著名的百科全书
比如中国古代的永乐大典
和四库全书
近现代的大英百科全书
美国哥伦比亚百科全书
和中国大百科全书等等
但在互联网的浪潮中
诞生了百科全书的
一种全新形式维基百科
维基百科是一个
自由免费内容开放的
百科全书协作计划
是一个动态的
可自由访问和编辑的
全球知识体
为什么在互联网的时代
维基百科能够取得
这么大的成功呢
我们觉得主要有两个核心点
第一有大量的作者
愿意无偿的做贡献
从分享知识中获得快乐
第二经过群体智慧的努力
维基百科的质量
能够得到有效的保证
互联网上出现了这样的
一种新的协作方式
就叫众包
就是通过互联网
向不确定的外部群体
实行任务的外包
维基百科的成功
体现了众包的力量
原本复杂困难的任务
借助互联网的平台
集聚大众的力量
就有可能获得成功
在前面我们讨论数据挖掘
和网页评级的例子中
算法的处理对象是数据
而在维基百科这样的
众包事件中
人和人们也成为
算法规范和管理的要素
作为网站的安全措施之一
现在很多网站在登录的时候
都需要输入验证码
captcha就是一种区分
用户是机器还是人的程序
这种程序要生成
人类能够很容易通过
但计算机却通不过的测试
因此它往往通过扭曲字体
加入背景等手段
防止验证码被自动识别
从而保证网站的安全性
这种技术还有一个新的用途
就是re-captcha
re-captcha就是用
captcha的原理
借助于人类大脑的能力
进行对古旧数据中
难以被计算机自动识别的
字符进行辨别
re-captcha每次都会
显示两个单词让人来识别
其中一个是
需要用户识别的难认词
另一个是答案已知的真正的
captcha词
程序将能够正确识别
captcha词的用户
看成是人类
把他们对难认词的识别结果
添加到数据库中
认为具有一定的可信度
他们还将困难的词
发给多个用户
并挑选其中具有相同结果的
作为正确答案
这样经过实验表明
他们对这些难认词的识别结果
在大家的努力下
可以达到99%的正确率
用户的使用过程
实际上就是在帮助
数字化1908年的纽约时报
或者古书中的一页
这对考古学具有重大的意义
由于很多人气极高的网站
都采用了这种re-captcha
目前每天大约可以处理
约100万个难认的单词
在这个例子中我们可以看到
算法利用人脑和人类的协作
完成了一个高难度的任务
我们把这些联系起来
就可以看到一幅
可能的未来图景
数据已经成为
人类社会最重要的资产
Google由横跨
约20个数据中心的
45万个系统组成
每过 14 个月
微软的数据中心的数目
就会翻番
计算变成一种公共资源
今后有可能就像
使用市政水电一样
只需要打开水龙头
或者接上插头
而人们使用算法
处理数据获取知识
同时也被算法所规则和使用
这样人自身也成为
数学模型和算法的一部分
这是一种全新的生态系统
最后我们来总结一下
我们这个课程
数据是对客观世界的
符号表示
是信息的载体
是算法处理的对象
算法是处理数据的系统
根据数据特性和目标
才能设计更有效的算法
数据算法和人类
将向未来信息社会的
生态系统演化
希望同学们今后
认真学习和掌握
数据算法相关的知识和能力
因为数据和算法对于你们的
学习工作生活
都会很有帮助
同时数据和算法也是你们
认知世界理解社会的
有力工具
谢谢
-第一节 序言
--第一节 序言
-第二节 电磁学和分析数学发展史:磁学
-第三节 电磁学与分析数学发展史:静电
-第四节 电磁学和分析数学发展史:动电
-第五节 电子器件的发明及电子技术的发展
-第六节 电磁学的广泛应用
-第七节 电磁系统理论
-第八节 电子科学技术各学科间的关系
-第九节 电子科学技术的学科体系
-第一讲:电磁学与分析数学史概览--第一次作业
-第一节 序言
--第一节 序言
-第二节 电磁场(一)
-第三节 电磁场(二)
-第四节 物质
--第四节 物质
-第五节 电磁场与物质的相互作用:非共振作用
-第六节 电磁场与物质的相互作用:共振作用
-第七节 电磁场理论与电路理论
-第一节 空间离散化
-第二节 静场电路分析
-第三节 非静场电路抽象
-第三讲:电路抽象--电路抽象 练习题
-第四节 电路元件抽象
-第五节 非线性元件抽象
-第六节 电路抽象三原则
-第七节 分层抽象思想
-第八节 电路基本问题
-第九节 数字化抽象
-第三讲:电路抽象--Quiz 3
-第一节 序言
--第一节 序言
-第二节 什么是比特
-第三节 比特与编码
-第四节 比特与信息
-第五节 比特的用途示例
-第六节 什么是逻辑
-第七节 逻辑的用途示例
-第八节 与数字电路的关系
-第九节 小结
--第九节 小结
-第四讲:比特与逻辑--Quiz4
-第一节:从算盘到ENIAC
-第二节:通用计算机模型
-第三节:指令集体系结构
-第四节:程序和程序设计语言
-第五节:处理器的工作原理
-第六节:性能问题
--第六节:性能问题
-第七节:小结
--第七节:小结
-第一节:数据与数据处理技术的发展
-第二节:数据处理举例
-第三节:数据模型和算法的概念
-第四节:问题的抽象和建模
-第五节:数值分析问题研究
-第六节:数据和算法的关系I
-第七节:数据和算法的关系II
-第八节:大数据
--第八节:大数据
-第九节:数据挖掘技术和数据算法的展望
-第六讲:数据与算法--Quiz6
-第一节:基本内容简介
-第二节:信息的基本概念和传输的几种方式
-第三节:交换的概念和网络的几种形式
-第四节:模拟与数字通信
-第五节:调制和解调
-第六节:传输涉及的基本理论
-第七节:信息论和几种相关的编码方式
-第八节:多址方式
--第八节:多址方式
-第九节:交换的基本概念
-第十节:网络分层的基本概念
-第十一节:互联网的基本原理和有限状态机模型
-第七讲:通讯与网络--Quiz7
-第一讲:内容简介
--第一讲:内容简介
-第二讲:信息与媒体
-第三讲:人类感知与认知
-第四讲:智能信息处理
-第五讲:媒体与认知相互作用
-第六讲:媒体认知应用
-第七讲:总结
--第七讲:总结
-第八讲:媒体与认知--Quiz8
-期末考试--Final Exam










