当前课程知识点：计算思维导论 > 第九单元 > 9.13 峰回路转的自然语言处理 > Video

返回《计算思维导论》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《计算思维导论》慕课在线视频列表

Video课程教案、知识点、字幕

大家好

这一节我们介绍

峰回路转的自然语言处理

上一节中

我们介绍了

两种机器翻译的思路和方法

一种是机械的“逐词替换”

另一种是

基于“规则”的人工智能方法

这两种方法都遇到了困难

1970年以后

统计语言学的出现

使得自然语言处理重获新生

并取得了非凡的成就

推动该技术的关键人物

是弗里德里克·贾里尼克

和他领导的IBM华生实验室

2005年前后

Google基于统计方法的翻译系统

已全面超越基于“规则”的

（SysTran）翻译系统

非常有意思的是

最初贾里尼克和他的团队

并没有想解决

整个自然语言处理的各种问题

而只是希望解决语音识别问题

采用基于统计的方法

IBM将当时的语音识别率

从70％提升到了90％

随着计算能力的提高

和“语料”数据量的不断增加

过去看似不可能通过

统计模型完成的任务

渐渐地都变成可能了

包括很复杂的句法分析

众所周知

现在手机的语音识别率

已经很高了

背后的“秘密”

肯定是大家想了解的

我们知道

自然语言是上下文相关的

也就是说前一句话

和后一句话是相关的

因此让计算机处理自然语言

一个基本的问题就是为自然语言

这种上下文相关的特性

建立数学模型

这个数学模型就是在

自然语言处理中

常说的统计语言模型

它是今天所有

自然语言处理的基础

并且广泛应用于

机器翻译

语音识别

印刷体或者手写体识别

拼写纠错

汉字输入和文献查询等等

统计语言模型产生的初衷

是为了解决语音识别问题

在语音识别中

计算机需要知道

一个文字序列里

是否能构成一个

大家理解而且有意义的句子

然后才显示或者打印出来

贾里尼克他的想法很简单

一个句子是否合理

就看它存在的

可能性到底有多大

而可能性就用概率来衡量

比如

美联储主席本·伯南克

昨天告诉媒体

7000亿美元的救助资金

将借给

上市公司

银行

保险公司

和汽车公司

这个句子它符合语法要求

语义也很清晰

我们再看第二个句子

本·伯南克美联储主席昨天

7000亿美元的救助金告诉媒体

将借给

银行

保险公司

和汽车公司上百家

这个句子看起来不太符合语法

但是语义

我们基本上还是清楚的

我们再看第三个句子

联主美储席本·伯诉体

这么一个句子

我们基本上念起来都很困难

也很难理解它的意思

那么通过这三句子

我们可以看出来

第一个句子

它符合语法大家能够理解

第二个句子基本上符合语法

语义大致上也清楚

第三个句子

我们念起来都很困难

更不用说去理解它的含义

其实我们可以去计算

这三个句子的概率

第一个句子它的概率是

十的负二十次方

第二个句子它的概率是

十的负二十五次方

第三个句子它存在的可能性

就是十的负七十次方

通过这个句子的概率

我们对比一下

第一个存在句子的可能性最大

第三个句子几乎是不可能的

如何确定句子的可能性

也就是概率的大小呢

假定我们用一个S

来表示一个句子

它由一连串特定顺序排列的词

W1　W2以及Wn组成

这里n就是句子的长度

表示有多少个词组成这个句子

现在我们想知道句子S

在自然语言中出现的可能性

也就是数学上所说的

S的概率

我们不妨用P(S)来表示

解决这个问题最朴素的一种思想

就是把人类有史以来

书写过的句子统计一下

当然啦同时不要忘记

统计进化了几百年

几千年人们可能讲过的各种话

就知道这句话可能出现的概率了

这种方法

看起来可以

但实际上

连傻子都知道它行不通

我们不得不感谢数学家们

他们为我们提供了概率估算的方法

一个概率估算的模型

我们不妨以

大学的本质就是追求卓越

这个句子为例

已知S这个句子

它由N个词组成

比如说W1 W2一直到Wn

那么不妨把P(S)也就是S的概率

写成P(S)等于P

W1

W2

一直到Wn

针对我们上面给的例子

这个公式

就是P(S)等于P大学的本质

就是追求卓越

这个不难理解

利用条件概率公式

P(S)可以展开

变成这么一个公式

在这个公式里边

比如说

P(W1)指的就是

W1它的概率

P(W1) P(Wn) W(n-1)

它其实是一种条件概率

我们看到这样的公式

很多人感觉头晕

其实不难

对于这个例子来说

就是P(S)

它等于P(大学,的)

P(本质丨大学,的)

等等

从数学上来说

计算大学的概率比较容易

但是计算

P(卓越大学的本质就是追求)

这样一个条件概率就很困难

怎么办呢

20世纪初

俄罗斯数学家马尔可夫

他给出了一个有效的简化模型

这个模型他假设任意一个词

Wi出现的概率

只与它前面的Wi-1有关

于是问题就变得简单了

现在

S出现的概率

就可以用这么一个式子来表示

也就是说针对刚刚我们举的例子

简化以后它的计算公式就是这样

那么我们如何估计条件概率

P(Wi丨Wi-1)

根据条件概率的定义

P(Wi丨Wi-1)

它等于P(Wi-1丨Wi)

这么一个联合概率

再除以P(Wi-1)

估计概率P(Wi-1丨Wi)

这么一个联合概率

和P(Wi-1)的概率现在已经不难了

为什么呢

因为有了互联网

我们可以很容易地构造大型的语料库

也就说把网上各种各样的语句

我们收录下来

构成一个大的数据库

只要统计这个库里边

Wi-1

Wi这一对前后相邻的词

在语料库中出现了多少次

这个次数

我们用

N

Wi-1

Wi来表示

以及Wi-1本身

在语料库中出现了多少次

我们用N(Wi-1)来表示

然后分别除以语料库的大小

也就可以得到这些词

或者二元组的相对频度

根据大数定理

只要统计这个量足够大

相对频度就约等于它的概率

也就是说

P(Wi-1丨Wi)它的概率

就约等于

N(Wi-1,Wi)除以M

这个M就是语料库的大小

P(Wi-1)就约等于

N(Wi-1)除以M

因此条件概率P(Wi丨Wi-1)

就可以用这么一个式子

来进行计算

也就是说

构建一个大型的语料库

然后充分发挥

计算机的统计计算能力

就可以解决这个问题了

这似乎有点令人难以置信

用这么简单的数学模型

能解决复杂的语音识别

机器翻译这样的问题

而用很复杂的文法规则

和人工智能却做不到

其实不光是普通人

就连很多语言学家都曾质疑

这种方法的有效性

但事实证明

统计语言模型

比任何已知的解决方案更加有效

到此我们不妨总结一下

逐词替换法太机械了

不可能达到预期的目的

基于“规则”的方法

需要语言学家和计算机科学家

通力合作

前者需要考虑各种情景

各种语境模拟人类翻译

编写大型词典和与语法

语义学有关的大型文法规则

而后者再构建复杂的程序

最后发现

人类语言实在是太复杂了

穷举式的做法

根本达不到最基本的翻译质量

基于“统计”的方法

就是扬长避短

充分发挥

机器本身强大的计算能力

和数据处理能力

而不是试图让计算机去理解

复杂的自然语言

这样做看似不可思议

但效果却非常好

因此

目前从事机器翻译的团队中

有数学家和计算机科学家

但却没有纯粹的语言学家了

很显然

思路决定着出路

好这节就讲到这

谢谢

计算思维导论课程列表：

第一单元

-1.1 计算思维及其教育

第二单元

-2.1 计算是什么

-2.2 计算与自动计算

-2.3 计算机及其计算本质特征（I）

-2.4 计算机及计算的本质特征（II）

第三单元

-3.1 数的表示与模拟计算

-3.2 数的表示与数字计算

-3.3 二进制加法运算的机器化

-3.4 “九九归一”的加法运算

-3.5 二进制之优越性及问题与代价

第四单元

-4.1 从数学危机到图灵机

-4.2 图灵机的计算能力

-4.3 什么问题都能计算吗？

-4.4 冯•诺依曼机及其发展与演化

-4.5 从算盘到图灵机——机械计算的本质

-4.6 电子计算机——透过现象看本质

第五单元

-5.1 思维可机械计算吗（I）

-5.2 思维可机械计算吗（II）

第六单元

-6.1 量子理论

-6.2 量子计算机

第七单元

-7.1 人类求解问题之过程

-7.2 基于计算（机）的问题求解过程

-7.3 面向过程的结构化设计方法学

-7.4 面向对象之方法学

-7.5 面向对象技术

-7.6 抽象

-7.7 计算学科中的抽象

-7.8 时间与空间及其相互转换

-7.9 技术层面的其他方法学

-7.10 认知层面的其他方法学

第八单元

-8.1 算法与程序

-8.2 算法设计方法——枚举

-8.3 算法设计方法——递推

-8.4 算法设计方法——递归

-8.5 算法设计方法——分治

-8.6 算法设计方法——仿生

第九单元

-9.1 机器间的通信方式

-9.2 数据转发方法

-9.3 网络分层体系结构

-9.4 有趣的对称加密技术

-9.5 难解的非对称加密技术

-9.6 数字签名及其应用

-9.7 从自然智能到人工智能

-9.8 符号主义的基本思想

-9.9 连接主义Ⅰ

-9.10 连接主义Ⅱ

-9.11 行为主义的基本思想

-9.12 机器翻译的愿景与困难

-9.13 峰回路转的自然语言处理

-9.14 信息传输中的问题与挑战

-9.15 重复传输与冗余编码

-9.16 校验与校验和

-9.18 自纠错技术及应用

-9.19 两种简单的数据压缩方法

-9.20 哈夫曼编码

-9.21 数据压缩极限与LZ压缩方法

-9.22 大海捞针的搜索引擎

-9.23 网页排序方法（PageRank）

第十单元

-10.1 计算文化

期末考试

-期末考试--作业

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。