当前课程知识点:医学文献检索 > 第一章 绪论 > 第6节 如何有效利用搜索引擎 > 如何有效利用搜索引擎
同学们好
我是中南大学信息安全与大数据研究院
胡德华
下面我们主要介绍
如何有效地利用搜索引擎
什么是搜索引擎
搜索引擎是根据一定的搜索策略
通过“爬虫”“蜘蛛”等搜索程序
搜索网页信息资源
经过信息的分类 组织 索引等处理
建立相应的索引库
通过用户接口提供信息检索服务的
一种网络信息资源检索系统
根据搜索引擎的组成和功能
我们看到它主要包括
采集器
索引器 检索器以及用户的接口
每一个组成部分实施相应的功能
把采集器网页的信息自动的采集
然后索引器进行索引
抽取出主要的信息
建立索引库
然后通过检索器
用户可以根据自己的提问词从索引库中进行匹配
找到最相关的信息
然后进行相关性的评价
检出的结果进行排序
用户接口主要是输入用户的提问
显示检出结果提供相关的反馈的机制
那么搜索引擎分为哪些类型
根据工作方式分
我们可以看到分为
目录型的搜索引擎
还有就是全文型搜索引擎以及元搜索引擎
根据搜索的内容来讲
有综合性的搜索引擎和专业性的搜索引擎
那么为什么我们要利用搜索引擎
搜索引擎具有哪些优势
第一个优势就是
能够弥补传统检索的“盲区”
传统检索的话
我们所讲的文献数据库检索
它的资源的类型
收录的学科的范围
文件的格式
检索的方式
都是具有一定的局限性
而搜索引擎的话
能够克服这些限制
实现全方位的 多角度的检索
还可以满足一些特定的检索
像图像 视频 音频等多媒体的检索
以及网上链接的搜索
这些垂直的搜索引擎来提供这些服务
那么第二个优势就是
提高传统检索的时效
所以近年来
新理论 新方法 新技术 新产品不断的涌现
传统的学术交流的载体 像报纸期刊
以及我们所讲的信息 收集起来建立的数据库
来报道 它的更新时间相对滞后
像期刊的话
一般的是月刊
它滞后了一个月
如果就是很多期刊
它从收稿到发表要半年左右的时间
所以说它就滞后
另外一个
数据库滞后的时间还要更长
因为它发表以后
还要经过采集加工处理以后才能收到数据库中
所以这个时间就更长了
搜索引擎就可以弥补传统检索的时差问题
尤其是对于一些新技术和新产品的查询
第三个优势是
降低传统检索的成本
随着开放存取运动的蓬勃发展
以及学术自由和交流共享理念的持续深入
所以开放存取方面资源也越来越多
我们在从事这个研究上
开放存取期刊这个方面
像DOAJ
就收录了全世界9000多种开放存取期刊
以及其中期刊上的论文的全文
第二是开放存取仓储
在开放存取仓储的目录数据库(DOAR)中
也有2600多个
另外还有开放数据
近几年来
越来越多了
像美国政府的开放数据
它的数据集的话
就有19万多个
另外今年开放课程也在不断的发展
所以像麻省理工的
开放的课程有2400多门
这些开放的资源可以免费的共享 获取
所以搜索引擎的话
可以检索到这些免费的资源的一种有效的工具
能够大大的降低成本
提高我们的检索的效率
第三 我们为什么要有效的利用
搜索引擎
我们在利用搜索引擎的时候
就会存在的一个
因特网的信息检索的这个魔咒
这个魔咒是什么呢
就是在互联网上你总能找到
甚至只能找到你不需要的信息
所以这个与我们的检索是背道而驰的
你像我们要查
咖啡因可以降低高血压的风险吗
那么我们就可以百度一下
你看我们检索
把整个的提问输入到里面去以后
找到了263万条检索结果
哪一个是你所需要的
这么多的结果里面
所以这个就需要我们去鉴别了
需要我们检出最准确的信息
你不可能把所有的信息都阅读完
所以我们就在网上面
不是要强调你查全
而是要强调查准
查准
第二个方面
就是“魏则西事件”
敲响了我们的警钟
“魏则西事件”
是怎么产生的呢
就是2014年4月 魏则西
查出了滑膜肉瘤
他就在网上面进行百度搜索
搜索以后看到了
排在最前面的结果是武警医院
武警北京总队第二医院
那么他可能还不相信
但是他派
他的父母去先行考察
考察以后除了我们
对于滑膜肉瘤可以采用生物的免疫疗法
然后就借钱去治疗
但是治疗效果不见效
这样也导致了致死
所以这个事
敲响了警钟
我们怎么去有效的利用搜索引擎
因为滑膜肉瘤是一种软组织的一个肉瘤
在网上面查找出当时的一个结果
那么现在来查找的话
那都基本上都是查找的
好大夫在线 百度百科 什么百科方面的这个
科普知识方面的信息
但是这些信息的话只是给我们知识
我们还要鉴别这些知识的真假
就是说这个就对于我们外行人来说
可能就有一定的难度了
所以我们要
如何有效的来利用搜索引擎
那么我们是搞学术的
那么我们可以要查找学术方面的资源
第一个我们可以利用
综合性的搜索引擎的文档的检索功能
因为我们知道
在搜索引擎它没有文档的这个限制
它所以把所有的文档都可以检索出来
在网上面搜索引擎的这个文档的类型
对我们学术来讲
当然最好的就是它的PDF
PDF文档
所以我们在检索的时候
我们的检索策略的方式是
采用我们的检索词 再空一格
再filetype:PDF
把我们把这个写在前面
把这个检索词写在后面 都是可以的
都是可以的
你像这个就是我们
在检索的时候就是百度的一个搜索
把我们的就是滑膜肉瘤
然后加上这个什么
Filetype:PDF检出来的这个结果
检出来的这个结果
那么第二个
我们也可以在Yahoo里面检索
你看我们Yahoo的话
我们是二型糖尿病
再加上Filetype:PDF
大家在Yahoo里面
你看我们构建的这个检索式
检索式然后所有的Web
然后查找出来的
你看我们这个每一个文档的后面
都是PDF的
看到吗
这个这样的话
所以查出来的就是学术方面的资源
另外一个就是Bing
Bing
我们查这也输入同样的检索策略
我们在他的文本的前面都有一个PDF
这样的话
查出来的文献结果就大大优化了
一些科普性的东西
这个可能就没有了
第二个
我们可以利用搜索引擎的精确检索功能
因为我们在网上面是要查准
这个是百度 怎么来查准
我们就可以加两个“耳朵”(双引号)
就是加引号
加引号
这样的话
扫出来的结果就可能更加精确
这个是Bing
我们同样也可以加引号
这就是Bing的查找出来结果
第三个
我们可以利用搜索引擎的高级检索功能
高级检索
这是百度的
我们可以把它作为一个精确值
还可以作为它的时间等等一些
网页文件等等一些
出现了地方就是网页的任何位置
网页的标题
检索可能更加准确一些
所以这个就是百度它的高级检索功能里面
我们可以进一步的限定
这个是Yahoo
Yahoo的话
他同样可以
根据自己的喜好
去进行一一的设定
使我们的检索的不相关的结果大大减小
这是它的高级检索功能
第四个方面的话
我们可以利用学术搜索引擎
来查找我们所需要的
学术的资源
那么学术搜索引擎是网络学术资源为收录的对象
一般涵盖了互联网上
免费的学术资源和以网络形式存在的学术资源
这样的话
对这一类资源进行爬行 抓取
可以统一的界面来提供这个服务
这一类的搜索引擎我们称之为学术搜索引擎
现在的话主要有百度的学术搜索引擎
这个是它的一个百度学术搜索引擎的一个界面
这个上面是它的资源的来源
另外一个它提供的服务
有学术搜索 论文收藏 文献互助以及学术订阅
这个就是我们在查找二型糖尿病治疗
利用百度学术搜索查找出来的
这些都是学术方面的文章
并且它们可以进行进一步的优化
进一步的优化
另外还有一个
就是来源最好的像查国外的这个搜索
这个学术搜索索引方式是Google
但是Google 我们现在用不了
我们可以利用Bing的学术搜索引擎
它的底层的是Google的搜索引擎
所以我们在bing里面也可以
在它这个许可里面找到这个学术的类型
它的来源主要是网络免费的学术资源
还有开放存储方面的这个资源
以及出版商免费的电子资源
和图书馆资源的一些链接
所以这个Bing利用
二型糖尿病在Bing查找学术方面的资源里面
我们找到了这么多的结果
所以我们在网上面也可以找到
大量的学术方面的信息
学术方面的资源
第五个方面
可以利用医学专业搜索引擎
医学专业搜索引擎是面向医药领域的
一个网络信息资源的一个门户网站
或者搜索的一种工具
它针对医学领域进行了优化
像这个大家看到的
就是一个健康在线基金会
它所开发的HON这个搜索引擎
它在1997年就建立了
这个是它的这个网址
这是它的主页
在这里的话我们就可以
它针对了一般的用户和医学专业的用户
和科研员进行了这个优化
所以我们对每一条信息可以进行一个优化
像这里我在这里检索出的肥胖
肥胖这个词检出来的这个结果是388条
这个方面这个资源
如果我们用肥胖在百度里面去搜索之后
可能会得到大量的这个结果
它的这个结果都正式经过了这个认证的
如果这个大家以后看到
国外这个网站出现了这个认证的标识的话
表示这个资源是经过了HON认证
还有我们就是另外一个医学方面的搜索引擎的话
就是Medscape
就是我们称之为医景
建立于1994年
这个是它的网页的地址
它针对它的很重要的是
面向临床医生提供了非常重要的医学方面的资源
以及在线的教育等等方面的重要的资源
这个是我们在检索利用这个Medscape
来检索肥胖
这个词查找出来的结果
查找出来的结果有16000多条
16000多条
第六个方面 我们可以利用元搜索引擎
什么是元搜索引擎
就是用户的查询请求 他的提问
同时提交过多个搜索引擎进行搜索
然后按照自己定义的
关联运算的规则就对检索的结果进行
储存排序以后把这个结果返回给用户
因为它集合了多个搜索引擎的结果
使我们的检索更加全面系统
当然我们在这里的话
在国内的话主要是用360搜索
就是在2012年
奇虎360所开发出来的
另外一个是国外的
是用的比较多的是Dogpile
1995年InfoSpace开发出来的
这个就是360搜索就是
Dogpile元搜索引擎
元搜索引擎
这个是Dogpile
我们在查找肥胖方面的信息
但是到底查出了多少
我们在这个网上也没有看到
但是它这个一般都不公布出来
但是我们可以从这里可以看到
我们可以进一步的限定
是查它的期刊方面的信息
还是查这个疾病方面信息 综述方面信息
这样对信息的类型可以进一步的
分类 分档 进行搜索
所以我们可以得到更精准的信息
第五个方面
有效利用我们的搜索引擎要注意哪些事项
第一个就是我们要根据检索的需求
来把握不同搜索引擎的这种特点
我们来进行合理的有效的利用这个搜索引擎
第二个
对我们的搜索引擎的结果
那大家一定要进行可信度的分析
它的质量的分析
我们在用搜索引擎的时候
我们不是追求查全
而是要查准确
第三个方面
只能把作为我们检索课题的辅助手段
所以我们不能够说在搜索引擎里没查到
这课题没有的话
这个就可以了
所以一定要作为辅助手段
我们更重要的
还是要查文献数据库
所以我们利用搜索引擎的时候
特别是在我们中文的
大家都基本上都用百度来搜索了
所以百度之外还有更美好的世界
所以希望大家都利用这个中外文的
重要的文献数据库
然后搜索自己所需要的信息
本次课
主要我们介绍了
搜索引擎的一些基本知识
包括它的涵义 组成 功能以及它的类型
探讨了为什么我们要有效地利用搜索引擎
最后我们详细讲解了如何去利用搜索引擎
本知识点就讲到这里
谢谢大家
-第1节 信息检索涵义
--信息检索涵义
-第2节 学习信息检索的意义
-第3节 如何分析检索课题
--如何分析检索课题
-第4节 如何选择合适的数据库
-第5节 如何选用恰当的检索词构建检索表达式
-第6节 如何有效利用搜索引擎
-第一章测试题
-第1节 中文医学数据库检索概述
-第2节 中国知网
--中国知网
-第3节 万方数据
--万方数据
-第4节 维普资源
--维普资源
-第5节 中国生物医学文献服务系统
-第二章测试题
-第1节 PubMed与MEDLINE概述
-第2节 PubMed检索方式
-第3节 PubMed基本检索
-第4节 PubMed结果处理
-第三章测试题
-第1节 引文检索基础知识
--引文检索基础知识
-第2节 引文检索的作用——独特的文献检索
-第3节 引文检索的作用——评价作用
-第4节 Web of Science核心合集检索
-第5节 中文引文检索
--中文引文检索
-第四章测试题
-第1节 参考文献作用与选择
-第2节 参考文献标注体系与著录项目
-第3节 图书与期刊著录
--图书与期刊著录
-第4节 中国专利文献著录
--中国专利文献著录
-第5节 美国专利文献著录
--美国专利文献著录
-第6节 其它特种参考文献著录
-第五章测试题