当前课程知识点:人工智能 > 7.自然语言理解 > 7.4 统计语言建模 > 7.4.2N-gram模型
1.N-gram模型
实际应用中,由于严重的数据稀疏和系统处理能力的限制,统计语言建模只能考虑有限长度的历史。通过将语言模拟成N−1阶马尔科夫源,N-gram模型减少了参数估计的维数:
N值的选择要考虑参数估计的稳定性和描述能力的折衷。Trigram 和 Bigram 是通常的选择。
Bigram实例
Trigram实例
2.基于词类的N-gram模型
设Ci 为词wi 所属的类,多种基于类的模型结构可被使用。典型地,一个Trigram可选择如下计算方法:
3.构造方法
采用语言学家构造的词的语法分类体系,按词性(Part-of-Speech)进行词类划分,借助于词性标注技术,构造基于词性的N-POS模型
采用词的自动聚类技术,自动构造基于词的自动聚类的类N-gram模型
4.模型比较
基于词的N-gram模型对近邻的语言约束关系的描述能力最强,应用程度最为广泛。一般N<=3,难以描述长距离的语言约束关系
N-POS模型的参数空间最小,一般不存在数据稀疏问题,可以构造高元模型,用于描述长距离的语言约束关系。但由于词性数目过少,过于泛化,因此又限制了语言模型的描述能力
自动聚类生成的词类数量介于词和词性的数量之间,由此建立的类N-gram模型,既不存在严重的数据稀疏问题,又不存在过于泛化问题
-1.1人工智能的定义与发展
--人工智能的诞生
--定义
--发展
-1.2智能的本质
--人类智能
--人工的智能
-1.3人工智能各学派的认知观
--AI的萌芽
-1.4人工智能的研究与应用领域
--AI的研究范围
--AI在中国
-资源推荐
--有趣的资源
-章节习题
-2.1知识的基本概念
-2.2状态空间法
--习题
-2.3问题归约法
-2.4谓词逻辑法
-章节习题
-3.1图搜索策略
--图搜索策略概述
-3.2盲目搜索策略
-3.3启发式搜索策略
-3.4消解原理
-章节习题
-4.1概述
--计算智能定义
-4.2神经网络
-4.3进化计算
-4.4蚁群算法
-4.5模拟退火算法
-4.6博弈搜索策略
--教师讲解:博弈树
--教师讲解:剪枝
-章节习题
-5.1专家系统概述
-5.2专家系统结构
--5.4 黑板模型
-5.3专家系统的应用与发展概况
-5.4专家系统实例
-6.1机器学习的基本概念
-6.2记忆学习
-6.3归纳学习
-- 6.3.3决策树学习
-6.4解释学习
-6.5神经学习
-章节习题
-7.1自然语言理解概述
--7.1.1概述
-7.2词法分析
--词法分析
-7.3句法分析
-7.4 统计语言建模
-7.5信息检索