当前课程知识点:计算思维导论 >  第九单元 >  9.12 机器翻译的愿景与困难 >  Video

返回《计算思维导论》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《计算思维导论》慕课在线视频列表

Video课程教案、知识点、字幕

大家好

这一节我们介绍

机器翻译的愿景与困难

机器翻译

属于自然语言处理的范畴

自然语言

就是人类自然演化出来的语言

比如说汉语 英语等等

而自然语言处理呢

除机器翻译外

还包括语音识别

语音合成等等内容

我们知道

不同国家

不同地区

不同民族

往往使用不同的语言

这就给相互交流带来了不便

不妨让我们看一张新闻照片

国家领导人经常需要会见外宾

我们不可能要求领导们能

听会说

各个国家的语言

所以会见外宾时

椅子后面还得坐着另外一个人

他们负责记录和翻译

其间的不便大家可想而知

我们大家从小就开始学习外语

一直学到大学

结果怎么样呢

客观地说

一方面我们付出了大量的人力

物力 财力和时间

消耗了大量的资源

另一方面呢

只能说部分人学的还不错

不少人却不怎么样

这不能不说

这是一件非常令人遗憾的事情

因此

人们早就梦想着

希望有一天

能够制造出一个小的机器

它能够理解并翻译自然语言

有了它

您不学外语也能走遍天下

而不怕

比如说

到了英国

它能听说英语

到了法国

它又会讲法语

无论与谁交流

它都能准确地表情达意

到那时

又何愁“天下谁人不识君”呢

是的

那么这样的梦想有可能实现吗

有可能的话

又怎么实现呢

早在20世纪20年代

有位俄国人

就想把这样的“梦想”

变成现实

他制造了一台机械装置

试图通过那些齿轮的转动

把俄语翻译成英语

结果呢

以失败而告终

1949年

美国学者沃伦·韦弗它在想

可否让计算机

模拟人类翻译的方法

使用双语对照词典作工具

用一种语言的单词

去查出另一种语言的等价词

然后把结果整理成文

1954年

实力雄厚的IBM公司

和乔治城大学合作

试图按韦弗的设想研制

这种“词对词”的机器翻译系统

看起来

在两种语言间实现“逐词替换”

似乎并不困难

比如说

这么一句简单的英语

This is a computer

这是一台计算机

是的

简单的语句看起来还行

复杂一点的句子呢

比如说

文学名著《红楼梦》中

就有这么一段文字

黛玉自在枕上感念宝钗

又听见窗外竹梢焦叶之上

雨声淅沥

清寒透彻不觉又滴下泪来

逐字翻译的结果大致如下

文学翻译家霍克斯翻译的版本

和逐字翻译的差异实在太大了

不妨看一看

我们对比最后一个句子

不觉又滴下泪来

逐字翻译的结果是

Not feeling again fall dow tears come

而霍克斯翻译的是

Almost without noticing

it she had begun to cry

这个差异大家可以对比一下

有意思的是

为了讽刺

这样的“逐词替换”翻译系统

有人专门编了一个经典的笑话

说的是

把英语心有余而力不足

先用这样的系统翻译成俄语

再从俄语翻译成英语

结果就变成了

伏特加酒是浓的

但肉却腐烂了

事实上

人们很快就沮丧地发现

通过逐词替换

顶多可完成80%的翻译工作

还有20%的文字

根本“顶替”不下来

更不能容忍的是

整个翻译过程很慢

甚至达不到人工翻译的速度

同时

机器翻译的文章

必须由人进行整理

才能看得懂

这样还不如让人自己来干了

显然生搬硬套不行

那么人类是怎么翻译的呢

其实

人类翻译的时候是先基于理解

而非机械的替换

那么

摆在科学家面前的问题是

怎样才能理解自然语言呢

20世纪60年代

当时普遍的认识

是首先要做好两件事情

其一是分析语法

其二呢 是获取语义

这实际上又是惯性思维的结果

因为它受到了

传统语言学研究的影响

怎么说呢

18 19世纪

西方的语言学家

已经对各种自然语言

进行了非常形式化的总结

形成了十分完备的理论体系

比如说语法规则

比如说构词法等等

其实

中国古代语言学的研究

主要集中在语义而非语法上

很多古老的专著

比如《说文解字》

它都是语义学研究的成果

不管怎么说

从计算机机械地模仿

到理解人类的语言

机器翻译逐步向

人工智能方向靠拢

人们似乎已在黑暗的摸索中

看到了黎明的晨曦

不妨让我们先看一个简单的句子

徐志摩喜欢林徽因

要分析这个句子的语法

我们先画出它的语法分析树

然后写出文法规则

从语法上来说

这个句子它由

主语

谓语

加句号组成

主语是一个名词

那就是徐志摩

那么谓语呢

它是动词加名词短语

动词就是喜欢

名词短语就是林徽因

后面再加一个句号

要把这么一颗语法分析树

再写成文法规则

就有若干条

看起来语法分析不是很难

但是未必

不妨看一个复杂一点的例子

这个句子来自于《华尔街日报》

说的是

美联储主席本.伯南克

昨天告诉媒体七千亿美元的救助金

将借给上百家银行

保险公司和汽车公司

不难想象

这个句子的语法树会很复杂

对应的语法规则数量也很多

这还仅仅是语法

既便解决了语法问题

又如何确定它的语义呢

认真分析一下

发现的问题与困难还真的很多

比如

自然语言并不严格遵循语法

即便是像鲁迅一样的文学大家

写的作品

也是如此

更不用说日常生活中的用语了

比如说 生活中人们常说

您先走

您走先

先走吧 您

尽管颠三倒四

但人们都能理解

再比如说

把一个句子

如何切分成若干个词

比如

一个半劳力

是切分成

一个 | 半劳力

还是切分成

一个半 | 劳力

再比如说语用环境

一句话

它跟人物 时间 地点等有关

比如说

“红塔山一包 ”

抽烟的人就知道说的是什么

不抽烟的人就未必知道

甚至都会感觉莫名其妙

再比如说

语言经过多年的演化

会变得非常精炼

比如说

有个传统的相声段子

逗捧双方的演员打赌

看谁能用最短的话

表现一个情节

这个情节说的是

小孩夜间起床小便

家人问他干什么

结果

用河南方言表演出来令人叫绝

大家不妨听听

再比如

词的多义性

同一个词

在不同的地方含义不一样

看一个英文句子

John was loojing for his tov box

Finallv he found it

The box was in the pen

John was very happy

再看一个中文句子

山上到处是盛开的杜鹃

树林里传来了杜鹃的叫声

要想通过语法规则

覆盖哪怕20%的真实语句

语法规则的数量

少说也有几万条

更不用说涵盖全部了

这就有点

类似于现有的英语教学

无论在中学和大学

我们的英语考试成绩多么好

也未必能考好GRE

也未必能看懂英文原版的电影

再者

即使能够写出

涵盖所有

自然语言现象的语法规则

用计算机解析它们

也是相当困难的

因为前者是

复杂的上下文有关文法

而后者采用的是

简单的上下文无关文法

其实

我们还可以总结出

好些困难之所在

很显然

要让机器真正理解自然语言

确实非常困难

尽管人们通过努力

取得了不少进展和成果

但前路弥漫

我们必须另谋出路

怎么办呢

我们在下一节

进一步来介绍

谢谢

计算思维导论课程列表:

第一单元

-1.1 计算思维及其教育

--Video

第二单元

-2.1 计算是什么

--Video

-2.2 计算与自动计算

--Video

-2.3 计算机及其计算本质特征(I)

--Video

-2.4 计算机及计算的本质特征(II)

--Video

第三单元

-3.1 数的表示与模拟计算

--Video

-3.2 数的表示与数字计算

--Video

-3.3 二进制加法运算的机器化

--Video

-3.4 “九九归一”的加法运算

--Video

-3.5 二进制之优越性及问题与代价

--Video

第四单元

-4.1 从数学危机到图灵机

--Video

-4.2 图灵机的计算能力

--Video

-4.3 什么问题都能计算吗?

--Video

-4.4 冯•诺依曼机及其发展与演化

--Video

-4.5 从算盘到图灵机——机械计算的本质

--Video

-4.6 电子计算机——透过现象看本质

--Video

第五单元

-5.1 思维可机械计算吗(I)

--Video

-5.2 思维可机械计算吗(II)

--Video

第六单元

-6.1 量子理论

--Video

-6.2 量子计算机

--Video

第七单元

-7.1 人类求解问题之过程

--Video

-7.2 基于计算(机)的问题求解过程

--Video

-7.3 面向过程的结构化设计方法学

--Video

-7.4 面向对象之方法学

--Video

-7.5 面向对象技术

--Video

-7.6 抽象

--Video

-7.7 计算学科中的抽象

--Video

-7.8 时间与空间及其相互转换

--Video

-7.9 技术层面的其他方法学

--Video

-7.10 认知层面的其他方法学

--Video

第八单元

-8.1 算法与程序

--Video

-8.2 算法设计方法——枚举

--Video

-8.3 算法设计方法——递推

--Video

-8.4 算法设计方法——递归

--Video

-8.5 算法设计方法——分治

--Video

-8.6 算法设计方法——仿生

--Video

第九单元

-9.1 机器间的通信方式

--Video

-9.2 数据转发方法

--Video

-9.3 网络分层体系结构

--Video

-9.4 有趣的对称加密技术

--Video

-9.5 难解的非对称加密技术

--Video

-9.6 数字签名及其应用

--Video

-9.7 从自然智能到人工智能

--Video

-9.8 符号主义的基本思想

--Video

-9.9 连接主义Ⅰ

--Video

-9.10 连接主义Ⅱ

--Video

-9.11 行为主义的基本思想

--Video

-9.12 机器翻译的愿景与困难

--Video

-9.13 峰回路转的自然语言处理

--Video

-9.14 信息传输中的问题与挑战

--Video

-9.15 重复传输与冗余编码

--Video

-9.16 校验与校验和

--Video

-9.18 自纠错技术及应用

--Video

-9.19 两种简单的数据压缩方法

--Video

-9.20 哈夫曼编码

--Video

-9.21 数据压缩极限与LZ压缩方法

--Video

-9.22 大海捞针的搜索引擎

--Video

-9.23 网页排序方法(PageRank)

--Video

第十单元

-10.1 计算文化

--Video

期末考试

-期末考试--作业

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。