当前课程知识点:医学文献检索 > 第一章 绪论 > 第5节 如何选用恰当的检索词构建检索表达式 > 如何选用恰当的检索词构建检索表达式
同学们好
我是中南大学
信息安全与大数据研究院胡德华
下面我主要介绍
如何选用恰当的检索词 构建检索表达式
那么什么是检索词呢
以及它的选用原则
检索词是表达信息需求
与检索课题内容的基本单元
选用是否恰当会直接影响检索效果
检索词我们一般分为四大类
第一是表达主题概念的检索词
包括标题词 单元词 叙词和关键词
第二是表达作者的检索词
包括作者的姓名
或者作者的单位 机构名称
第三是表达分类的检索词
如类目名称 分类号
表达特殊意义的检索词
如专利号 标准号与分子式等等
那么检索词我们要遵循什么样的原则
第一应该根据课题所涉及的学科专业
和技术主题进行选词
第二 应选用规范的 科学的专业名词术语
第三 要考虑检索词不同的表达
如同义词 近义词 上位词 下位词
拼写变异 缩略语等等
那么我们看这个课题
心房纤维性颤动的相关因素研究
这个相关因素它包括哪些呢
C反应蛋白 同型半胖氨酸等等
与心房纤维性颤动的这种关系
那么这里面最核心的概念是什么
心房纤维性颤动
那么它有哪些表达的方式呢
我们可以看到 一个是心房纤维性颤动
还有心房纤维颤动
心房纤颤 心房颤动 房颤等等
这些表达在
我们在做课题 写论文 发表文章的时候
作者都可以使用 但在我们在检索的时候
那么这些词怎么运用
所以我们看一看 进入中国知网
我们就它的高级检索 默认所有的文献
我的检索时间是最近
那么我们在这里我在检索词
我使用了就是心房纤维性颤动
在主题途径里面我使用了就是心房纤维性颤动
在主题途径里面
在主题检索途径里面我们检出了190篇
我们检索了190篇
那我把它放在篇名里面检出了24篇
那么我心房纤维颤动
我们在主题途径165篇
篇名里面检出了48篇
我们这个就多了一倍了
另外我们还有心房纤颤
检出的文献就更多了
有两千多篇文献在篇名里面
我们心房颤动
那么就检出了一万一千多篇
就增加了500倍了 比这个
我是从篇名来看
那么我们还有房颤
在篇名里面也检出了7000多篇
增加了300倍 比这个在我们心房纤维颤动
那么我们把所有的 把它进行组配起来
那么检出了21000多篇
所以接近了900倍
所以我们 假如大家一检索的时候
就采用了心房纤维性颤动的话
你就漏检了大量的文献
所以这个是跟我们这个用词存在这个问题了
所以怎么来实现呢
你看我在这里用所有的文献
在中国知网里面它的主题
这个途径把所有的这些组配这个不同的表达
用all把它组配起来
所以检出的文献就是非常多
所以这样的话
如果我们找这个方面的文献
加上其他的相关因素再and起来
所以我们首先要保证
每个概念 每个检索词都查得非常准确
非常全面 系统
那么是不是我们这样检索就好了呢
我们还有更多的这个表达
像持续性心房颤动
阵发性的 特发性的
快速的 慢性的 反复性的
窦性心律不齐等等
这些在我们写文章的时候都可能会使用
都可以查到文献
所以我们在检索为了查全这个课题
这个概念
我们这些词都要纳入到我们的检索范围
那么就涉及到一个问题
我怎么去选择恰当的检索词
那么我们这么多的词我们怎么去选用呢
所以第一个原则
我觉得就是尽量选用主题词
那么主题词并不是每一个系统都有
所以就要支持主题词检索的
数据库和检索系统才能够有主题词
所以才能够采用主题词的检索
你看在我们医药领域的话
最重要的就是PubMed
它的里面有Mesh词
另外一个中国生物医学文献
数据库服务系统SinoMed
它就是把Mesh词表把它汉化以后
嵌入到中文文献的这个检索
构建了这个SinoMed的检索系统
所以它里面的主题检索
是主题词检索
但是我们刚才在中国知网里面
我不是也选择了这个主题途径的检索么
它的主题检索
并不是主题词检索
所以主题词我们在是规范化的
专业的名词术语
对每一篇文献都进行了主题词标引
所以我们当然在我们检索的时候可以采用
尽量使用在这些系统里面使用主题词检索
那么我们看第二个课题
脑血管造影术
在脑缺血患者诊断中的应用
这里面最核心的概念
一个是脑血管造影
第二个是脑缺血
那么首先我们就需要找
这个里面的核心概念
是不是能够采用主题词检索
所以我们也可以采用自由词来检索
像我们这个在PubMed里的检索
比如说这个是脑血管造影术
这个是脑缺血 我们检出一千七百多篇文献
就是当然我们加了这个引号
表示它是一个精确的检索
但是我们可以把它作为一个主题词来检索
你像我们这个脑血管造影术
它是一个Mesh词
另外and 脑缺血 再加上一个Mesh词
这个为什么后面多了这个 就是它不扩展的
我们脑缺血我这个
它有可能等一下我们看到它有很多上位词
但是我们没有把它扩展
这样检出了1600多篇
另外一个就是
我们把脑血管造影术的这个Mesh词
再把这个脑缺血的作为Majr
Majr就是主要主题词
就是这篇文章
标引了它是主要的概念
这时候检出来的有3584篇
另外一个就是
我们在把它所有的
你不管它主要主题词 扩不扩展
我们都捡出来以后就有5000多篇
就是采用主题词来检索就5000多篇
如果当然我们在
这里作为一个自由词来检索的时候
你看着就用脑血管造影术
跟脑出血检出来有8000多篇
就是在基本检索上面
作为一个自由词的检索
所以有8000多篇
那么我们看这个检索有什么不同
我们在PudMed我们做了一个界面
这个就是什么呢
这个就是
我们第一个作为精确检索以后
得到的这个结果
这个结果的话
它是把你的检索策略记在里面
这个是基本检索
我们以后黄老师也会给大家介绍一下
它这个检索方式
所以你看
这样检索出来的结果就是一千多篇
那么下一个 下一张图
就是我们是采用了
这个Mesh词的这种检索
所以检出的文献是5000多篇
所以这个检索里有什么不同
它采用了主题词
这个主题词的检索
所以文献量比我们的这个精确检索大大扩展了
那么还有一个
我们如果作为一个系统 在基本检索下面
我们不要加引号
也不从主题词来检索
那么它作为一个自由文本词关键词来检索
你看大家就在这里面检出了8000多篇
大家可以看
它的Details
转换后的检索策略
大家可以看到这是我们这个脑出血
在所有字段里面
还有这些词
它的脑出血作为主题词来进行检索的
再把它这个中间是or的关系
另外一个它那个脑出血还有一个表达
就是脑在所有字段里面
缺血在所有字段里面
再and起来
所以说还要脑缺血所有字段在里面
进行一个检索
所以这个的话呢
就是它就大大的扩展了我们的检索
另外一个就是我们可以看到
就是脑血管造影术
它作为一个Mesh词检索
也把它作为单个词的检索
这里存在一个什么问题
大家可能没注意到
作为单个词
你像这个脑(brain)
在所有字段里面
再and 缺血(ischaemia)
在所有字段里面
可能那篇文章不是你所需要的
就是说我们这个8000多篇文献里面
可能有一些误检的这些文献
所以它虽然转换了
你像我们在它的这个脑血管造影术
同样也是一样的
同样这个一样的 看到没有
这个词and这个词来表达
这个脑血管造影术
然后它检索就可能误检
所以我们利用
它的主题词来检索5000多篇
是比较密切相关的
这些可能会导致这些不相关的文献
它虽然可以检出有8000多篇保证了查全
但是没有保证这个查准率
但是没有保证这个查准率
那么我们在Mesh词里
PubMed里面主题词检索
它是提供了自动的扩展检索功能
所以我们来看一看脑缺血这个词
它就有多个的下位词
你像我们这样 输入脑缺血这个词
在我们的Mesh Database里面
可以查得到它的这个相关的这些词 在我们的Mesh Database
可以查得到它的相关的这些词
以及它的树状结构表
这些它的上位词 它的下位词
那么在它的下位词里面
它的 这个是脑梗塞
还有更多的下位词
你像这个脑血管梗塞的话
那么还有这个
有个加号
加号是表示它有更多的下位词
那么它这些词是跟它是同级的关系
就是它是它的下位词
所以我们就说
脑血管梗塞的话
还有更多的这些下位词
所以这里是个加号
这样的话在我们采用这个词
进行检索的时候
它你可以刚才我们看到的是不扩展的
如果系统默认的是自动主动的
自动的这个扩展检索功能
所以这样的话
大大提高我们的查全率和查准率
因为这些词
你不一定每个词都要去进行检索一下
但是它可以帮你一次性解决了
第二个方面的的话
就是关键词检索的时候
我们要尽量选用这个单元词
什么是单元词检索呢
单元词的话
是从文献的题目
正文或者摘要中抽出来的
最基本的
概念不可再分的这些词
为什么我们要采用单元词来检索
所以我们看这个课题
就是皮牵引
在股骨骨折中的应用研究
那么我们采用中国知网
利用它的专业检索
我们使用它的这个字段
大家可以看得到
就是我们在主题
主题采用皮牵引再and
这个主题股骨骨折的时候主题采用这个皮牵引在and
主题 股骨骨折的时候
我们可以找到好多 37篇
那么我们把它股骨 骨折的话
它是一个概念
但是我们作为关键词上
它并不是单元词
它并不是单元词
我们把它的这个股骨
把它作为一个单元词
再把骨折作为一个单元词
再把它and起来
再and皮牵引
我们检出了一百六十篇文献
所以比这个文献就多多了
所以我们在关键词时候
要注意的一点
就是尽量概念不可再分
这样的检索的话可以提高我们的查全率
第三个方面
要尽量考虑关键词的
不同的表达形式
所以我们在使用关键词
包括自由词来进行
不是主题词的来检索的时候
要尽量考虑到它的同义词
近义词 缩略语和相关词
那么我们这里可以看到
这个同义词在我们的医学文献中
就非常之多
并且它的学名
俗名 全称 缩写 简称等等很多
那么我们像这个肾功能衰竭
到我们的这个中文里面
就有不同的表达
那么这个时候
我们这些词是不是都要去检索
如果你只检出了肾衰
那么就麻烦了 是不是
肾功能衰竭
你用全称检索可能就更多了
又如系统性红斑狼疮
它有不同的表达
所以我们在检索时候都要纳入
那么还有白介素它的
不同的这个表现形式
因为它翻译出来
有没有大写 短横杠
有没有影响
还有英文的这个表达 缩写等等
所以我们在要考虑到
这些都是同义词
所以我们在这里
要注意到它的书写和表达的这些不同
要考虑这个近义词
近义词在我们的医学领域也非常多
像制备 制造 合成 生产
都是跟研制有关的
另外生存质量和生活质量
它们实际上也是相近的一个概念
只是稍微有一点点区别
那么另外还要考虑到
这个缩略语和元素符号
所以我们检索像胰岛素生长因子
我们可以用IGF
那我们在中文里面和英文里面
就可以用IGF
以及它的缩写 全称来进行检索
另外一个考虑 我们考虑族性检索
你像我们要查找干扰素
α1β方面的文献
那么我们可以利用它的上位类的这个词
像刚才说干扰素α直接来进行检索
其他的这些表达都可以给你检索出来
另外还可以考虑截词检索
星号表示多个截断
问号是表示一个字母的一个截断
所以我们在中文 在英文检索的时候
都可以采用这些截词检索
第四个方面
尽量不选用这个虚词作为检索词
在我们的检索课题
课题里面常见的虚词也非常多
像一些什么什么的课题的研究
进展 综述 应用等等这些词
我们不建议大家
作为检索词来进行一个检索
但是有的像我们第四个课题
大学生心理障碍的影响因素分析
成因及其对策
那么我们在初检的时候
大学生可以加
就用大学生和心理因素来进行检索
检索结果过多的时候
我们可以使用这个大学生加上心理障碍
再加上它的因素和成因和对策
就去除其它不相关的这些文献
这个是我们可以考虑到
但是我们在初次检索的时候
我们不需要
把这些因素这些词虚词加进去
那么第三个方面
如何构建我们的检索表达式
检索表达式 简称检索式
或者提问式 是表达检索需求的一种提问式
是我们检索策略的一个具体体现
是检索策略构成的关键环节
它会直接影响我们检索效果
对检索结果产生决定性作用
检索表达式是由什么构成的
检索表达式一般是由检索词
加上布尔逻辑算符
加上位置算符 截词算符等等
一些组配的算符所把它构成的
那么在我们的类型里面
你像我们在表达式的类型里面
有简单型和复合型两种
那么简单型可能就是一个
这个检索词或者检索词加上它的
这个表达算符
你像我们在这里
你像这个是单个词的
那么还有就是
我们这个夏家辉是作者
in au就是在作者字段里面
这个就是字段算符
是吧 这个就是抗氧化剂
这个是采用了截词检索
像这个tive tion
这些词都可以给你检索出来
另外一个我们可以采用这个什么
这个组配 就是这个是移植
它的心理学方面的
我们可以作为Mesh词表
把它限制在Mesh词表进行检索
所以这样的话检索比较准确
另外还有一个是复合型的
就是两个
或者两个以上检索词的时候
那么我们基本上采用布尔逻辑算符
或者位置算符等等
一些算符把它连接起来
像我们这个acute
就是急性的near
near1就是临近一个词
那么这个胰腺炎 老鼠急性胰腺炎
那么这个胰腺炎 老鼠的急性胰腺炎
我要查找这方面课题
就可以采用这个检索式来构建
那么它就可以检出了是什么
就可以急性胰腺炎这个中间没有一个词的
那么也可以或者急性坏死性的胰腺炎
或者急性的胆汁性的胰腺炎
或者急性的炎症性的胰腺炎等等
这些含有这些词的这些文献
都给你检索出来
所以这个中间的这个near
体现了运用了多种的 一个是邻近算符
另外一个就是什么
and or还可以用到先和后的关系
来表达我们的这个检索需求
那么在我们的检索表达式我们怎么来实现
然后怎么来评价
这个检索式
刚才我们看到了就是对于简单的
那么我们可以把这个词输进去
就可以检索出来了
对于一些复合的这个检索的这个表达式的话
我们可以分步骤来完成
我们先检索某个概念
然后我们再采用and
在结果中检所采用等等这些方式
来分步骤来完成
还有一个要注意的
就是检索表达式对一个课题的不是唯一的
所以我们可以构建不同的检索表达式
得到的结果是不一样的
那么我们要评价我们的检索的这个效果的话
我们有两个很重要的指标
一个是查全了没有 查全率
一个是查准了没有 查准率
那么什么是查全率查准率
查全率是我们检出的相关文献量
除以我们系统中相关文献总量
实际上这个(相关)就很难判断
这个是最难判断的
另外还有一个就是怎么是相关的
这个就需要我们每一个同学
根据你的需求情况
来判断这些结果是不是相关的
那么查准率是什么呢
是检出的这个相关文献量
这个是分子都是一样的
但是分母不一样了
它是检出的文献总量
这个是你检出的 这个是系统中的
所以说它们的 检出了好多篇
就是说这个是你就误检了吗
所以说你就查的不准了
所以这两个指标可以判断
你检出了一次
也可以判断
它们结果的查全率和查准率
来评价你的检索效果
本知识点主要讲述了
检索词及其选用原则
并且我们以大量的真实的案例
详细讲解了如何选用恰当的检索词
以及如何构建我们的检索表达式
本知识点就讲到这里
谢谢大家
-第1节 信息检索涵义
--信息检索涵义
-第2节 学习信息检索的意义
-第3节 如何分析检索课题
--如何分析检索课题
-第4节 如何选择合适的数据库
-第5节 如何选用恰当的检索词构建检索表达式
-第6节 如何有效利用搜索引擎
-第一章测试题
-第1节 中文医学数据库检索概述
-第2节 中国知网
--中国知网
-第3节 万方数据
--万方数据
-第4节 维普资源
--维普资源
-第5节 中国生物医学文献服务系统
-第二章测试题
-第1节 PubMed与MEDLINE概述
-第2节 PubMed检索方式
-第3节 PubMed基本检索
-第4节 PubMed结果处理
-第三章测试题
-第1节 引文检索基础知识
--引文检索基础知识
-第2节 引文检索的作用——独特的文献检索
-第3节 引文检索的作用——评价作用
-第4节 Web of Science核心合集检索
-第5节 中文引文检索
--中文引文检索
-第四章测试题
-第1节 参考文献作用与选择
-第2节 参考文献标注体系与著录项目
-第3节 图书与期刊著录
--图书与期刊著录
-第4节 中国专利文献著录
--中国专利文献著录
-第5节 美国专利文献著录
--美国专利文献著录
-第6节 其它特种参考文献著录
-第五章测试题