当前课程知识点:计算思维导论 > 第九单元 > 9.12 机器翻译的愿景与困难 > Video
大家好
这一节我们介绍
机器翻译的愿景与困难
机器翻译
属于自然语言处理的范畴
自然语言
就是人类自然演化出来的语言
比如说汉语 英语等等
而自然语言处理呢
除机器翻译外
还包括语音识别
语音合成等等内容
我们知道
不同国家
不同地区
不同民族
往往使用不同的语言
这就给相互交流带来了不便
不妨让我们看一张新闻照片
国家领导人经常需要会见外宾
我们不可能要求领导们能
听会说
各个国家的语言
所以会见外宾时
椅子后面还得坐着另外一个人
他们负责记录和翻译
其间的不便大家可想而知
我们大家从小就开始学习外语
一直学到大学
结果怎么样呢
客观地说
一方面我们付出了大量的人力
物力 财力和时间
消耗了大量的资源
另一方面呢
只能说部分人学的还不错
不少人却不怎么样
这不能不说
这是一件非常令人遗憾的事情
因此
人们早就梦想着
希望有一天
能够制造出一个小的机器
它能够理解并翻译自然语言
有了它
您不学外语也能走遍天下
而不怕
比如说
到了英国
它能听说英语
到了法国
它又会讲法语
无论与谁交流
它都能准确地表情达意
到那时
又何愁“天下谁人不识君”呢
是的
那么这样的梦想有可能实现吗
有可能的话
又怎么实现呢
早在20世纪20年代
有位俄国人
就想把这样的“梦想”
变成现实
他制造了一台机械装置
试图通过那些齿轮的转动
把俄语翻译成英语
结果呢
以失败而告终
1949年
美国学者沃伦·韦弗它在想
可否让计算机
模拟人类翻译的方法
使用双语对照词典作工具
用一种语言的单词
去查出另一种语言的等价词
然后把结果整理成文
1954年
实力雄厚的IBM公司
和乔治城大学合作
试图按韦弗的设想研制
这种“词对词”的机器翻译系统
看起来
在两种语言间实现“逐词替换”
似乎并不困难
比如说
这么一句简单的英语
This is a computer
这是一台计算机
是的
简单的语句看起来还行
复杂一点的句子呢
比如说
文学名著《红楼梦》中
就有这么一段文字
黛玉自在枕上感念宝钗
又听见窗外竹梢焦叶之上
雨声淅沥
清寒透彻不觉又滴下泪来
逐字翻译的结果大致如下
文学翻译家霍克斯翻译的版本
和逐字翻译的差异实在太大了
不妨看一看
我们对比最后一个句子
不觉又滴下泪来
逐字翻译的结果是
Not feeling again fall dow tears come
而霍克斯翻译的是
Almost without noticing
it she had begun to cry
这个差异大家可以对比一下
有意思的是
为了讽刺
这样的“逐词替换”翻译系统
有人专门编了一个经典的笑话
说的是
把英语心有余而力不足
先用这样的系统翻译成俄语
再从俄语翻译成英语
结果就变成了
伏特加酒是浓的
但肉却腐烂了
事实上
人们很快就沮丧地发现
通过逐词替换
顶多可完成80%的翻译工作
还有20%的文字
根本“顶替”不下来
更不能容忍的是
整个翻译过程很慢
甚至达不到人工翻译的速度
同时
机器翻译的文章
必须由人进行整理
才能看得懂
这样还不如让人自己来干了
显然生搬硬套不行
那么人类是怎么翻译的呢
其实
人类翻译的时候是先基于理解
而非机械的替换
那么
摆在科学家面前的问题是
怎样才能理解自然语言呢
20世纪60年代
当时普遍的认识
是首先要做好两件事情
其一是分析语法
其二呢 是获取语义
这实际上又是惯性思维的结果
因为它受到了
传统语言学研究的影响
怎么说呢
18 19世纪
西方的语言学家
已经对各种自然语言
进行了非常形式化的总结
形成了十分完备的理论体系
比如说语法规则
比如说构词法等等
其实
中国古代语言学的研究
主要集中在语义而非语法上
很多古老的专著
比如《说文解字》
它都是语义学研究的成果
不管怎么说
从计算机机械地模仿
到理解人类的语言
机器翻译逐步向
人工智能方向靠拢
人们似乎已在黑暗的摸索中
看到了黎明的晨曦
不妨让我们先看一个简单的句子
徐志摩喜欢林徽因
要分析这个句子的语法
我们先画出它的语法分析树
然后写出文法规则
从语法上来说
这个句子它由
主语
谓语
加句号组成
主语是一个名词
那就是徐志摩
那么谓语呢
它是动词加名词短语
动词就是喜欢
名词短语就是林徽因
后面再加一个句号
要把这么一颗语法分析树
再写成文法规则
就有若干条
看起来语法分析不是很难
但是未必
不妨看一个复杂一点的例子
这个句子来自于《华尔街日报》
说的是
美联储主席本.伯南克
昨天告诉媒体七千亿美元的救助金
将借给上百家银行
保险公司和汽车公司
不难想象
这个句子的语法树会很复杂
对应的语法规则数量也很多
这还仅仅是语法
既便解决了语法问题
又如何确定它的语义呢
认真分析一下
发现的问题与困难还真的很多
比如
自然语言并不严格遵循语法
即便是像鲁迅一样的文学大家
写的作品
也是如此
更不用说日常生活中的用语了
比如说 生活中人们常说
您先走
您走先
先走吧 您
尽管颠三倒四
但人们都能理解
再比如说
把一个句子
如何切分成若干个词
比如
一个半劳力
是切分成
一个 | 半劳力
还是切分成
一个半 | 劳力
再比如说语用环境
一句话
它跟人物 时间 地点等有关
比如说
“红塔山一包 ”
抽烟的人就知道说的是什么
不抽烟的人就未必知道
甚至都会感觉莫名其妙
再比如说
语言经过多年的演化
会变得非常精炼
比如说
有个传统的相声段子
逗捧双方的演员打赌
看谁能用最短的话
表现一个情节
这个情节说的是
小孩夜间起床小便
家人问他干什么
结果
用河南方言表演出来令人叫绝
大家不妨听听
再比如
词的多义性
同一个词
在不同的地方含义不一样
看一个英文句子
John was loojing for his tov box
Finallv he found it
The box was in the pen
John was very happy
再看一个中文句子
山上到处是盛开的杜鹃
树林里传来了杜鹃的叫声
要想通过语法规则
覆盖哪怕20%的真实语句
语法规则的数量
少说也有几万条
更不用说涵盖全部了
这就有点
类似于现有的英语教学
无论在中学和大学
我们的英语考试成绩多么好
也未必能考好GRE
也未必能看懂英文原版的电影
再者
即使能够写出
涵盖所有
自然语言现象的语法规则
用计算机解析它们
也是相当困难的
因为前者是
复杂的上下文有关文法
而后者采用的是
简单的上下文无关文法
其实
我们还可以总结出
好些困难之所在
很显然
要让机器真正理解自然语言
确实非常困难
尽管人们通过努力
取得了不少进展和成果
但前路弥漫
我们必须另谋出路
怎么办呢
我们在下一节
进一步来介绍
谢谢
-1.1 计算思维及其教育
--Video
-2.1 计算是什么
--Video
-2.2 计算与自动计算
--Video
-2.3 计算机及其计算本质特征(I)
--Video
-2.4 计算机及计算的本质特征(II)
--Video
-3.1 数的表示与模拟计算
--Video
-3.2 数的表示与数字计算
--Video
-3.3 二进制加法运算的机器化
--Video
-3.4 “九九归一”的加法运算
--Video
-3.5 二进制之优越性及问题与代价
--Video
-4.1 从数学危机到图灵机
--Video
-4.2 图灵机的计算能力
--Video
-4.3 什么问题都能计算吗?
--Video
-4.4 冯•诺依曼机及其发展与演化
--Video
-4.5 从算盘到图灵机——机械计算的本质
--Video
-4.6 电子计算机——透过现象看本质
--Video
-5.1 思维可机械计算吗(I)
--Video
-5.2 思维可机械计算吗(II)
--Video
-6.1 量子理论
--Video
-6.2 量子计算机
--Video
-7.1 人类求解问题之过程
--Video
-7.2 基于计算(机)的问题求解过程
--Video
-7.3 面向过程的结构化设计方法学
--Video
-7.4 面向对象之方法学
--Video
-7.5 面向对象技术
--Video
-7.6 抽象
--Video
-7.7 计算学科中的抽象
--Video
-7.8 时间与空间及其相互转换
--Video
-7.9 技术层面的其他方法学
--Video
-7.10 认知层面的其他方法学
--Video
-8.1 算法与程序
--Video
-8.2 算法设计方法——枚举
--Video
-8.3 算法设计方法——递推
--Video
-8.4 算法设计方法——递归
--Video
-8.5 算法设计方法——分治
--Video
-8.6 算法设计方法——仿生
--Video
-9.1 机器间的通信方式
--Video
-9.2 数据转发方法
--Video
-9.3 网络分层体系结构
--Video
-9.4 有趣的对称加密技术
--Video
-9.5 难解的非对称加密技术
--Video
-9.6 数字签名及其应用
--Video
-9.7 从自然智能到人工智能
--Video
-9.8 符号主义的基本思想
--Video
-9.9 连接主义Ⅰ
--Video
-9.10 连接主义Ⅱ
--Video
-9.11 行为主义的基本思想
--Video
-9.12 机器翻译的愿景与困难
--Video
-9.13 峰回路转的自然语言处理
--Video
-9.14 信息传输中的问题与挑战
--Video
-9.15 重复传输与冗余编码
--Video
-9.16 校验与校验和
--Video
-9.18 自纠错技术及应用
--Video
-9.19 两种简单的数据压缩方法
--Video
-9.20 哈夫曼编码
--Video
-9.21 数据压缩极限与LZ压缩方法
--Video
-9.22 大海捞针的搜索引擎
--Video
-9.23 网页排序方法(PageRank)
--Video
-10.1 计算文化
--Video
-期末考试--作业