当前课程知识点:电子信息科学与技术导引(1) > 第六讲:数据与算法 > 第七节:数据和算法的关系II > 第七节:数据和算法的关系II
数据和算法
还有什么样的关系呢
我们需要进一步的去挖掘
数据和算法之间的关系
数据是信息的载体
只有根据数据的特性
和处理目标选择和设计
合适的模型和算法
才能有效的处理数据
我们来看这样一个问题
假设地球赤道的周长
是四万公里
如果在赤道上空
一米处有一个环
需要估计
这个环的周长是多少
这个问题
似乎并不太容易求解
但如果我们把地球
假设为一个球体
则地球赤道就近似为一个圆
圆的周长C和半径R之间
就有这样一个关系
C = 2πR
赤道上空的圆环
也可以假设为一个圆
那么这个圆的周长C
就等于2π(R+1)
因此赤道上方
这个圆环的周长
就比赤道的周长大了2π
两倍的π大约为6米
由于地球赤道的周长
C为4万公里
远远大于6米
因此赤道上空
这个圆环的周长
也约为4万公里
当我们建立了
这样一个数学模型以后
我们就会发现
这个问题实际上很容易求解
在数值算法部分
我们介绍过线性拟合
同样我们也可以
对数据进行非线性的拟合
这个图表示的就是
对5个数据点进行
二次曲线的拟合
给定数据点
如果选择不同的曲线
进行拟合
就会得到完全不同的结果
在这个例子中
我们给定了一个平面上的
十个数据点
分别采用三次拟合
和三次样条插值
我们会看到
我们得到的拟合曲线
完全不同
因此尽管数据时确定的
只有选择合适的模型
才能得到正确的结果
在某个地方
渔民出海打渔
主要会捕捞到两种鱼
一种鱼长而窄
另一种鱼短而宽
为了减轻渔民的负担
提高工作效率
我们希望制造一个机器
能够自动分辨这两种
为了实现这个分类器
我们就需要选择合适的特征
在这个例子中
鱼的长度和宽度
最具有区分性
因此是合适的特征
只有我们提取了特征
符合数据的特点
这个分类器
才能有好的分类效果
从上面这几个例子中
我们可以看到
只有认真的分析和理解
数据的特性
才能设计和实现有效的
模型和算法
数据时信息的载体
算法是处理数据的系统
数据和算法的结合
并不能保证其结论的正确性
或者说正确的结论
来自于对实践结果的
正确解读
如果有这样一个论断
说有10个人的平均财富
都是100万
那么这十个人都是富人么
答案是否定的
因为如果有一个千万富翁
和9个身无分文的人在一起
那么他们的平均财富
也是一百万
盖洛普集团
是著名的咨询公司
他组织的盖洛普民意测验
举世闻名
但在1948年美国的总统选举中
盖洛普的民意测验就出错了
他们预测杜威会当选总统
而不是杜鲁门
实际选举的结果正好相反
那么是什么原因造成民意测验
和真实情况出现了差距呢
经过分析
发现一个很重要的原因
是盖洛普民意测验
采用的是电话访问的形式
但是在1948年的美国
电话在普通民众之中
还没有得到普及
装电话的家庭,
大多属于富裕阶层
这就使得
样本的选取是有偏的
在数据统计分析中
另一个容易引起歧义的
就是相关性和因果性的问题
我们对数据经过统计分析
就会发现冰激凌的销量
和溺死事故的数量正相关
那是否就说明冰激凌
导致了溺死事故的发生呢
这里有一个重要的季节变量
没有被考虑到
夏天由于天气热
冰激凌的销量会明显增加
同样因为夏天天气热
游泳
特别是露天游泳的人增多
发生溺死事故的可能性
就会增加
只是根据统计相关就断定
冰激凌会导致溺死事故
显然是不正确的
同样统计数据显示
从20世纪五十年代开始
大气中的二氧化碳
出现了增长
与此同时美国的肥胖率数字
也在显著增加
这种相关是否说明
是大气二氧化碳的增长
导致了肥胖的增加呢
从2006年以后
Facebook的用户持续增长
同时希腊国债利率
也不断提高
两者也在统计上
呈正相关的关系
那是否能说
是Facebook的发展推动了
希腊的债务危机呢
从1993年以后
美国国家科学基金
科研预算持续增长
同时全球平均温度
也不断提高
在统计上同样
呈正相关的关系
那是否能说是
美国的科研投入增长
导致了全球的变暖呢
这些荒谬的结论说明
把相关性理解为因果性
不仅是错误的
还是非常危险的
数据是信息的载体
算法是处理数据的系统
但数据和算法的结合
并不能保证结论的正确性
做研究的人需要很谨慎
而社会大众也需要
有自己的鉴别能力
提升全民的科学素质
对于社会的发展和进步
是非常重要的
-第一节 序言
--第一节 序言
-第二节 电磁学和分析数学发展史:磁学
-第三节 电磁学与分析数学发展史:静电
-第四节 电磁学和分析数学发展史:动电
-第五节 电子器件的发明及电子技术的发展
-第六节 电磁学的广泛应用
-第七节 电磁系统理论
-第八节 电子科学技术各学科间的关系
-第九节 电子科学技术的学科体系
-第一讲:电磁学与分析数学史概览--第一次作业
-第一节 序言
--第一节 序言
-第二节 电磁场(一)
-第三节 电磁场(二)
-第四节 物质
--第四节 物质
-第五节 电磁场与物质的相互作用:非共振作用
-第六节 电磁场与物质的相互作用:共振作用
-第七节 电磁场理论与电路理论
-第一节 空间离散化
-第二节 静场电路分析
-第三节 非静场电路抽象
-第三讲:电路抽象--电路抽象 练习题
-第四节 电路元件抽象
-第五节 非线性元件抽象
-第六节 电路抽象三原则
-第七节 分层抽象思想
-第八节 电路基本问题
-第九节 数字化抽象
-第三讲:电路抽象--Quiz 3
-第一节 序言
--第一节 序言
-第二节 什么是比特
-第三节 比特与编码
-第四节 比特与信息
-第五节 比特的用途示例
-第六节 什么是逻辑
-第七节 逻辑的用途示例
-第八节 与数字电路的关系
-第九节 小结
--第九节 小结
-第四讲:比特与逻辑--Quiz4
-第一节:从算盘到ENIAC
-第二节:通用计算机模型
-第三节:指令集体系结构
-第四节:程序和程序设计语言
-第五节:处理器的工作原理
-第六节:性能问题
--第六节:性能问题
-第七节:小结
--第七节:小结
-第一节:数据与数据处理技术的发展
-第二节:数据处理举例
-第三节:数据模型和算法的概念
-第四节:问题的抽象和建模
-第五节:数值分析问题研究
-第六节:数据和算法的关系I
-第七节:数据和算法的关系II
-第八节:大数据
--第八节:大数据
-第九节:数据挖掘技术和数据算法的展望
-第六讲:数据与算法--Quiz6
-第一节:基本内容简介
-第二节:信息的基本概念和传输的几种方式
-第三节:交换的概念和网络的几种形式
-第四节:模拟与数字通信
-第五节:调制和解调
-第六节:传输涉及的基本理论
-第七节:信息论和几种相关的编码方式
-第八节:多址方式
--第八节:多址方式
-第九节:交换的基本概念
-第十节:网络分层的基本概念
-第十一节:互联网的基本原理和有限状态机模型
-第七讲:通讯与网络--Quiz7
-第一讲:内容简介
--第一讲:内容简介
-第二讲:信息与媒体
-第三讲:人类感知与认知
-第四讲:智能信息处理
-第五讲:媒体与认知相互作用
-第六讲:媒体认知应用
-第七讲:总结
--第七讲:总结
-第八讲:媒体与认知--Quiz8
-期末考试--Final Exam