当前课程知识点：智能时代下的创新创业实践 > 第三章智能时代的创新技术 > 3.3机器是如何学习的？ > 3.36

返回《智能时代下的创新创业实践》慕课在线视频课程列表

3.36在线视频

3.36

返回《智能时代下的创新创业实践》慕课在线视频列表

3.36课程教案、知识点、字幕

下面

我们就通过案例详细讨论这个过程

从第一步设置假设模型集开始

刚才我们通过降维

已经把模型函数的关系简化成了

研究型

特征值跟计算机金融专业匹配度的关系

我们用Xr来表示研究型这个特征值

用y来表示对应的匹配度

这个函数可以表示为y=H(Xr)

如何设置这个函数呢

也就要运用统计学的知识了

我们需要从已有的数据当中找出他们的关系

比如我先抽出10位同学的数据

每一位同学都有研究型特征值

也都有相对应的匹配度得分

比如说Xr为10.6

对应的 y 等于21.3%

也就是说研究型的得分是10.6

那么对应的计算机

金融的匹配度

应该是21.3%

我们就得到了这样的多对数据

那么这些数据都是真实的

是以前已经存在的数据

我们把这些数据绘制在一张图表上

x轴是研究型的得分

y轴就是对应的计算机金融的匹配值

这样

我们就得到了一张

描述他们之间关系的统计图

我们能不能从这些点的关系当中

找到一些规律呢

好

现在我想请大家来观察这些点之间的关系

你认为

他们可以用一条什么样的线

连在一起呢

如果运用人类特有的直觉系统

我们发现可以用一条直线或是曲线

大致的通过这些点

也就是说

可以用一条线性的直线或者曲线

来拟合这些点

这里用到了统计学关于样本分析的知识

在数学上

可以用简单的线性方程

来表示Rx与y之间的关系

y=b+wx

这是一个最简单的线性模型了

y与x之间就是一个直线关系

W是直线的斜率

b是直线跟y轴的截距

因为w和b这两个参数

可能有多种的组合

因此这是一个模型的集合叫H(x)

这样

我们就设置了假设模型集合

当然

这个模型不仅是线性的

也是回归的

所谓回归

regression

是指模型的输入x

是一个连续的实数

这些输入对应的

相应的输出值y也是连续的

它就是回归模型

如果相应的输出y是一个二进制的数

或者是一些离散的数

我们叫它分类模型

所以我们设置的模型集合

是线性回归方程的集合

这么多的w和b参数的组合

我们如何找到最合理的参数

使得这条直线对样本的拟合度

是最高的呢

这里需要用到一些微积分

以及概率论和统计学的知识

假设我们用一条直线

穿过了这些样本点

那么这些样本和这条直线之间

是不可能是完全拟合的

每一个点与直线之间都是有距离

也就是有误差

如果完全拟合的话那么误差就是0

我们设这个距离为e

它的也叫均方误差

我们可以通过运算得到十个点的均方误差

我们把所有这些均方误差加在一起

得到一个总误差

我们称它为损失函数

loss function

这个函数

是一个关于参数w和b的函数

我们希望某一个w和b的组合

能让让这个总误差的值最小

也就是要求得一个w和b

参数的组合使得损失函数最小化

这种基于均方误差最小化

进行的模型求解的方法也叫

最小二乘法

在具体操作上

运用了梯度下降法的这种数学工具

通过对w和b分别进行偏微分

来得到使得损失函数最小的

w和b的参数组合

在这里我就不详细说明梯度下降法了

有兴趣的同学可以查找相关的资料

总之

运用这种方式我们可以计算出

最理想的参数组合

最理想的参数组合

是b等于12.5

w等于2.7

我们认为

这样一条直线

样本点的拟合度是最高的

在确定了这个线性函数以后

我们就可以计算出

那10个样本

和这条直线的总误差是25.9

我们称之为样本误差

另外

我们还可以再找10位

其他的同学的数据来验证一下

看看如果用这个模型的效果

到底是怎么样呢

通过计算

我们可以得到总误差是18.7

这个误差我们叫测试误差

这两个误差都是我们选择

理想数学模型的依据

从这两个误差来看

效果是不错的

这样

第二个步骤就完成了

我们通过一系列的数学手段

找到了那个最理想的数学模型

但是我们也注意到

刚才设置的线性回归模型非常简单

参数RX和y之间的关系是简单的直线关系

那么有没有可能它们之间存在平方

立方甚至四次方的关系呢

有没有可能这样的方程

能够更好的拟合样本呢

所以这里就需要

再一次设置假设模型集

也就是用更复杂的函数模型

去拟合那些样本

因此

我们需要进行第三个步骤

通过迭代找到更合理的模型

怎样得到更合理的模型呢

我们可以分别通过计算得到

x和y在平方关系

立方关系等情况下的理想函数

并计算出它们的样本误差和测试误差

通过比较

在RX与Y 是立方关系时

我们认为总体效果是最好的

当然

这个模型仅仅描述了霍兰德量表里

研究型

这一个特征值

与计算机金融匹配度之间的关系

显然

还没有达到我们的预期

这只是一个简化的模型

离真实的模型还有距离

我们需要考虑霍兰德量表中其他的特征参数

以便获得更准确的模型

这个时候

就需要观察更多的数据

比如

我们从1000份数据中

拿出200份进行分析

并且

按刚才的方式分别找出霍兰德

其他的特征参数

和计算机金融之间的关系

最后

我们会得到一个比较复杂的模型

这个模型的自变量

包括了霍兰德所有的六个特征参数

输出是计算机金融专业的匹配值

这样

我们终于得到了那个理想的数学

模型g(x)

可以用它来估计

任何一个测试者

与计算机金融专业的匹配度了

智能时代下的创新创业实践课程列表：

绪章导论

-0.1我们为什么设计这门课

-0.2我们聊什么

-0.3你们能学到什么

第一章人工智能时代的机遇与挑战

-短片：AlphaGo

-1.1本章概述

-1.2人与机器的本质区别

-1.3我们会被智能机器抢了饭碗吗

-1.4人和智能机器的和谐之道-增强智能

-1.5项目指南一：如何找到好的项目

-第一章测试

第二章创新创业能力训练

-2.1本章概述

-2.2创业能力模型

-2.3创新是人类的本能

-2.4创新能力培养——创新心智模式

-2.5创新能力要素培养-思维方式

-2.6项目指南二：创新项目的开发

-2.7互联网心理学

-第二章测试

第三章智能时代的创新技术

-3.1本章概述

-3.2机器有“智慧”吗？

-3.3机器是如何学习的？

-3.4智能技术带来的认知升级

-3.5项目指南三：投资者和创始人的心得经验

-第三章测试

3.36笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。