当前课程知识点:人工智能 > 7.自然语言理解 > 7.5信息检索 > 7.5.4信息检索中的自然语言处理方法
1. 信息检索中的自然语言处理方法,是指通过对文档中的自然语言文本进行语法语义分析,以提高信息检索的精确度或者召回率的方法的统称。
通常只能停留在“浅层”(Shallow)处理的层次上,例如,对文档中的名词短语进行自动识别和分类等。
与统计方法并没有明显的界限,可以将自然语言处理方法视为基于统计的信息检索技术的有益补充。
2.信息检索涉及的自然语言处理层次:
词形分析:词干抽取
词法分析:停用词表中词汇的选择等
专有名词的自动识别与分类
文档文本的自动词性标注
语义分析--语义相似度计算
3.语义相似度(Semantic Similarity)
同一语义可以有多种不同的表达方式,而不同用户使用相同的词汇进行查询的可能性很小->“语义相关”
计算词汇间的语义相似度,据此对用户的查询词汇进行语义相似词汇的扩展或改进用户查询与文档相似度的计算方法
汉语缺乏语法形态,语义知识更加重要。确定汉语词汇的语义,不仅在于标明一个词的语义属性,更需要确定该词汇与其他词汇的关系,“关系是词汇语义的灵魂”
语义相似度:将词汇间的种种不同的直接或间接语义关系映射为一个表示词汇间语义相关的紧密程度的数值
4.基于语义辞典的 语义相似度计算方法
基于按照概念间结构层次关系组织的语 义辞典的方法
两个词汇具有一定的语义相关性当且仅当它们在概念间的结构层次网络图中存在一条通路(假设)
主要是根据在这类语言学资源中概念之 间的上下位关系和同义关系来计算
5.文本自动分类技术
文本自动分类技术(Text Automatic Classification):基本任务是对一篇文档,根据其内容,从预先定义好的标记集中找出一个或者多个最适合于该文档的标记。
类别标记是一组符号。例如,大多数搜索引擎使用的类别体系, 包括科学技术、社会文化、政治军事、医疗健康、体育健身等; 文档对类别的隶属度应该是基于文档的内容,而不是基于描述 文档的元数据(Metadata)(例如文档出版日期、文档类型等)为一条件概率
a i,j=p(ci|dj) ,如果ai, j = 1 ,表示第 j 个文 档完全属于第 i 个类别(或者说完全相关);ai, j = 0 ,表示文档 j 和 类别 i 完全无关。
文本分类系统
-1.1人工智能的定义与发展
--人工智能的诞生
--定义
--发展
-1.2智能的本质
--人类智能
--人工的智能
-1.3人工智能各学派的认知观
--AI的萌芽
-1.4人工智能的研究与应用领域
--AI的研究范围
--AI在中国
-资源推荐
--有趣的资源
-章节习题
-2.1知识的基本概念
-2.2状态空间法
--习题
-2.3问题归约法
-2.4谓词逻辑法
-章节习题
-3.1图搜索策略
--图搜索策略概述
-3.2盲目搜索策略
-3.3启发式搜索策略
-3.4消解原理
-章节习题
-4.1概述
--计算智能定义
-4.2神经网络
-4.3进化计算
-4.4蚁群算法
-4.5模拟退火算法
-4.6博弈搜索策略
--教师讲解:博弈树
--教师讲解:剪枝
-章节习题
-5.1专家系统概述
-5.2专家系统结构
--5.4 黑板模型
-5.3专家系统的应用与发展概况
-5.4专家系统实例
-6.1机器学习的基本概念
-6.2记忆学习
-6.3归纳学习
-- 6.3.3决策树学习
-6.4解释学习
-6.5神经学习
-章节习题
-7.1自然语言理解概述
--7.1.1概述
-7.2词法分析
--词法分析
-7.3句法分析
-7.4 统计语言建模
-7.5信息检索