当前课程知识点:电子信息科学与技术导引(1) >  第六讲:数据与算法 >  第七节:数据和算法的关系II >  第七节:数据和算法的关系II

返回《电子信息科学与技术导引(1)》慕课在线视频课程列表

第七节:数据和算法的关系II在线视频

第七节:数据和算法的关系II

下一节:第八节:大数据

返回《电子信息科学与技术导引(1)》慕课在线视频列表

第七节:数据和算法的关系II课程教案、知识点、字幕

数据和算法

还有什么样的关系呢

我们需要进一步的去挖掘

数据和算法之间的关系

数据是信息的载体

只有根据数据的特性

和处理目标选择和设计

合适的模型和算法

才能有效的处理数据

我们来看这样一个问题

假设地球赤道的周长

是四万公里

如果在赤道上空

一米处有一个环

需要估计

这个环的周长是多少

这个问题

似乎并不太容易求解

但如果我们把地球

假设为一个球体

则地球赤道就近似为一个圆

圆的周长C和半径R之间

就有这样一个关系

C = 2πR

赤道上空的圆环

也可以假设为一个圆

那么这个圆的周长C

就等于2π(R+1)

因此赤道上方

这个圆环的周长

就比赤道的周长大了2π

两倍的π大约为6米

由于地球赤道的周长

C为4万公里

远远大于6米

因此赤道上空

这个圆环的周长

也约为4万公里

当我们建立了

这样一个数学模型以后

我们就会发现

这个问题实际上很容易求解

在数值算法部分

我们介绍过线性拟合

同样我们也可以

对数据进行非线性的拟合

这个图表示的就是

对5个数据点进行

二次曲线的拟合

给定数据点

如果选择不同的曲线

进行拟合

就会得到完全不同的结果

在这个例子中

我们给定了一个平面上的

十个数据点

分别采用三次拟合

和三次样条插值

我们会看到

我们得到的拟合曲线

完全不同

因此尽管数据时确定的

只有选择合适的模型

才能得到正确的结果

在某个地方

渔民出海打渔

主要会捕捞到两种鱼

一种鱼长而窄

另一种鱼短而宽

为了减轻渔民的负担

提高工作效率

我们希望制造一个机器

能够自动分辨这两种

为了实现这个分类器

我们就需要选择合适的特征

在这个例子中

鱼的长度和宽度

最具有区分性

因此是合适的特征

只有我们提取了特征

符合数据的特点

这个分类器

才能有好的分类效果

从上面这几个例子中

我们可以看到

只有认真的分析和理解

数据的特性

才能设计和实现有效的

模型和算法

数据时信息的载体

算法是处理数据的系统

数据和算法的结合

并不能保证其结论的正确性

或者说正确的结论

来自于对实践结果的

正确解读

如果有这样一个论断

说有10个人的平均财富

都是100万

那么这十个人都是富人么

答案是否定的

因为如果有一个千万富翁

和9个身无分文的人在一起

那么他们的平均财富

也是一百万

盖洛普集团

是著名的咨询公司

他组织的盖洛普民意测验

举世闻名

但在1948年美国的总统选举中

盖洛普的民意测验就出错了

他们预测杜威会当选总统

而不是杜鲁门

实际选举的结果正好相反

那么是什么原因造成民意测验

和真实情况出现了差距呢

经过分析

发现一个很重要的原因

是盖洛普民意测验

采用的是电话访问的形式

但是在1948年的美国

电话在普通民众之中

还没有得到普及

装电话的家庭,

大多属于富裕阶层

这就使得

样本的选取是有偏的

在数据统计分析中

另一个容易引起歧义的

就是相关性和因果性的问题

我们对数据经过统计分析

就会发现冰激凌的销量

和溺死事故的数量正相关

那是否就说明冰激凌

导致了溺死事故的发生呢

这里有一个重要的季节变量

没有被考虑到

夏天由于天气热

冰激凌的销量会明显增加

同样因为夏天天气热

游泳

特别是露天游泳的人增多

发生溺死事故的可能性

就会增加

只是根据统计相关就断定

冰激凌会导致溺死事故

显然是不正确的

同样统计数据显示

从20世纪五十年代开始

大气中的二氧化碳

出现了增长

与此同时美国的肥胖率数字

也在显著增加

这种相关是否说明

是大气二氧化碳的增长

导致了肥胖的增加呢

从2006年以后

Facebook的用户持续增长

同时希腊国债利率

也不断提高

两者也在统计上

呈正相关的关系

那是否能说

是Facebook的发展推动了

希腊的债务危机呢

从1993年以后

美国国家科学基金

科研预算持续增长

同时全球平均温度

也不断提高

在统计上同样

呈正相关的关系

那是否能说是

美国的科研投入增长

导致了全球的变暖呢

这些荒谬的结论说明

把相关性理解为因果性

不仅是错误的

还是非常危险的

数据是信息的载体

算法是处理数据的系统

但数据和算法的结合

并不能保证结论的正确性

做研究的人需要很谨慎

而社会大众也需要

有自己的鉴别能力

提升全民的科学素质

对于社会的发展和进步

是非常重要的

电子信息科学与技术导引(1)课程列表:

第一讲:电磁学与分析数学史概览

-第一节 序言

--第一节 序言

-第二节 电磁学和分析数学发展史:磁学

--第二节 电磁学和分析数学发展史:磁学

-第三节 电磁学与分析数学发展史:静电

--第三节 电磁学与分析数学发展史:静电

-第四节 电磁学和分析数学发展史:动电

--第四节 电磁学和分析数学发展史:动电

-第五节 电子器件的发明及电子技术的发展

--第五节 电子器件的发明及电子技术的发展

-第六节 电磁学的广泛应用

--第六节 电磁学的广泛应用

-第七节 电磁系统理论

--第七节 电磁系统理论

-第八节 电子科学技术各学科间的关系

--第八节 电子科学技术各学科间的关系

-第九节 电子科学技术的学科体系

--第九节 电子科学技术的学科体系

-第一讲:电磁学与分析数学史概览--第一次作业

第二讲:电磁场与物质的相互作用

-第一节 序言

--第一节 序言

-第二节 电磁场(一)

--第二节 电磁场(一)

-第三节 电磁场(二)

--第三节 电磁场(二)

-第四节 物质

--第四节 物质

-第五节 电磁场与物质的相互作用:非共振作用

--第五节 电磁场与物质的相互作用:非共振作用

-第六节 电磁场与物质的相互作用:共振作用

--第六节 电磁场与物质的相互作用:共振作用

-第七节 电磁场理论与电路理论

--第七节 电磁场理论与电路理论

第三讲:电路抽象

-第一节 空间离散化

--第一节 空间离散化

-第二节 静场电路分析

--第二节 静场电路分析

-第三节 非静场电路抽象

--第三节 非静场电路抽象

-第三讲:电路抽象--电路抽象 练习题

-第四节 电路元件抽象

--第四节 电路元件抽象

-第五节 非线性元件抽象

--第五节 非线性元件抽象

-第六节 电路抽象三原则

--第六节 电路抽象三原则

-第七节 分层抽象思想

--第七节 分层抽象思想

-第八节 电路基本问题

--第八节 电路基本问题

-第九节 数字化抽象

--第九节 数字化抽象

-第三讲:电路抽象--Quiz 3

第四讲:比特与逻辑

-第一节 序言

--第一节 序言

-第二节 什么是比特

--第二节 什么是比特

-第三节 比特与编码

--第三节 比特与编码

-第四节 比特与信息

--第四节 比特与信息

-第五节 比特的用途示例

--第五节 比特的用途示例

-第六节 什么是逻辑

--第六节 什么是逻辑

-第七节 逻辑的用途示例

--第七节 逻辑的用途示例

-第八节 与数字电路的关系

--第八节 与数字电路的关系

-第九节 小结

--第九节 小结

-第四讲:比特与逻辑--Quiz4

第五讲:程序与处理器

-第一节:从算盘到ENIAC

--第一节:从算盘到ENIAC

-第二节:通用计算机模型

--第二节:通用计算机模型

-第三节:指令集体系结构

--第三节:指令集体系结构

-第四节:程序和程序设计语言

--第四节 程序和程序设计语言

-第五节:处理器的工作原理

--第五节:处理器的工作原理

-第六节:性能问题

--第六节:性能问题

-第七节:小结

--第七节:小结

第六讲:数据与算法

-第一节:数据与数据处理技术的发展

--第一节:数据与数据处理技术的发展

-第二节:数据处理举例

--第二节:数据处理举例

-第三节:数据模型和算法的概念

--第三节:数据模型和算法的概念

-第四节:问题的抽象和建模

--第四节:问题的抽象和建模

-第五节:数值分析问题研究

--第五节:数值分析问题研究

-第六节:数据和算法的关系I

--第六节:数据和算法的关系I

-第七节:数据和算法的关系II

--第七节:数据和算法的关系II

-第八节:大数据

--第八节:大数据

-第九节:数据挖掘技术和数据算法的展望

--第九节:数据挖掘技术和数据算法的展望

-第六讲:数据与算法--Quiz6

第七讲:通讯与网络

-第一节:基本内容简介

--第一节:基本内容简介

-第二节:信息的基本概念和传输的几种方式

--第二节:信息的基本概念和传输的几种方式

-第三节:交换的概念和网络的几种形式

--第三节:交换的概念和网络的几种形式

-第四节:模拟与数字通信

--第四节:模拟与数字通信

-第五节:调制和解调

--第五节:调制和解调

-第六节:传输涉及的基本理论

--第六节:传输涉及的基本理论

-第七节:信息论和几种相关的编码方式

--第七节:信息论和几种相关的编码方式

-第八节:多址方式

--第八节:多址方式

-第九节:交换的基本概念

--第九节:交换的基本概念

-第十节:网络分层的基本概念

--第十节:网络分层的基本概念

-第十一节:互联网的基本原理和有限状态机模型

--第十一节:互联网的基本原理和有限状态机模型

-第七讲:通讯与网络--Quiz7

第八讲:媒体与认知

-第一讲:内容简介

--第一讲:内容简介

-第二讲:信息与媒体

--第二讲:信息与媒体

-第三讲:人类感知与认知

--第三讲:人类感知与认知

-第四讲:智能信息处理

--第四讲:智能信息处理

-第五讲:媒体与认知相互作用

--第五讲:媒体与认知相互作用

-第六讲:媒体认知应用

--第六讲:媒体认知应用

-第七讲:总结

--第七讲:总结

-第八讲:媒体与认知--Quiz8

期末考试

-期末考试--Final Exam

第七节:数据和算法的关系II笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。