第14讲 Web信息检索简介慕课视频播放-互联网大规模数据分析技术-MOOC慕课视频教程-柠檬大学

欢迎来到

互联网大规模数据分析技术

的课堂

我是今天的主讲教师李琳

来自武汉理工大学

今天我们一起来学习

第十四讲

Web信息检索简介

在这一讲当中的我们将从

以下四个方面跟大家一起来探讨

首先我们看一下信息检索

英文叫做

Information Retrieval

我们简称IR

那么什么是信息检索呢

信息检索是指的是

当用户提出查询需求的时候

我能够将相关的结果反馈给用户

而这样一个结果

主要是以文档的形式作为结果

返回给用户

在这样一个

搜索的过程当中

返回结果的过程当中

我们如何来进行评价

如何来满足用户的需求呢

这需要我们从以下几个方面

来进行一些探讨

比如说

一、当你给出查询词的时候

如何找到relevant document

这个relevant

指的就是指的相关

我们这里举一个例子

当你输入java到一个搜索引擎

或者

到一个信息检索引擎系统的时候

你希望返回的文档

是包含什么内容呢

作为IT业的人士

肯定会想到java

那不就是一种编程语言吗

那么作为热爱旅游的同事会想

那不是一个小岛吗

所以大家可以看到

Relevant

是一个非常主观的评价

这个

对于搜索引擎和检索系统来说

是一个需要解决的问题

第二

我们要从大量的文档集合当中

快速地找到相关的文档

Efficiently

大家用过搜索

都有这样一个体验

当你输入查询词

等待超过5秒以上

可能很多同学们或者使用者

就会觉得怎么这么慢呢

没有耐心去花更长的时间

来获得更好的服务

所以搜索引擎需要解决的是

在相关性和有效性当中

取一个折中来满足用户的需求

所以典型的信息检索的任务

是什么呢

我们有什么我们要干什么呢

我们有document

而我们这个document

大家可以看到是

textual natural-language

也就是一种free text

纯文本

或者是说

文字与自然语言表达为主的

文字型的文档

用户的查询

我们作为输入

它也是一种文字形式

我们需要找到什么呢

找到一些文档

它要和你的查询词相关

而且这些文档你最好给我

排个序

所以叫ranking

那么

我们把信息检索系统的整体

给大家作一个介绍

假设你已经搭建了

这样一个信息检索系统

你已经收集了大量的文档

你说我有很多本书了

就像图书馆一样

欢迎大家来查阅借阅书籍

那么用户就会说

我想要一些

什么样的文档和书籍呢

我要告诉管理员

我要告诉信息检索系统

我要这样的书籍

那么信息检索系统

就要根据自己的一整套运算机制

找出符合你查询要求的文档

进行排序，返回给用户

所以我们一定是排序

大家可以看到排序的文档

一般是按相关性来进行排序

而前面我们通过java的例子

可以看到

相关性是一个什么样的判别呢

Subjective，主观的

这种主观

各因人而异

因情景而异

我们在这里对这个主观

作了一个简要的介绍

一、你必须找到正确的

二、你必须是，最好是

也不是说必须

最好是最近的信息

特别是查一些

新闻类的资料的时候

另外你还要确定你的权威性

大家在微博上

喜欢关注一些大V的信息

因为你考虑到

他是这个方面的专家

他的信息来源可能比较可靠

最后我们希望达到最终的目的

是满足用户的需求

这一点实际上是非常难做到的

我们看到

输入java到底是找一个岛

还是找一个编程语言呢

输入苹果apple你到底是找

苹果手机苹果电脑

还是找水果呢

所以这个因人而异

因事而异，因情景而异

所以在传统的

基于关键词的查询当中

我们用关键词Keyword

很简单

很方便大家去使用

约束也很少

所以这种在用户输入关键词

作为查询需求的方式得到了广泛应用

关键词的方式就会带来很多问题

刚才我们已经讲到了

java和苹果的例子

同样，我们也有一些其他的例子

比如说

这个大家应该非常熟悉吧

PRC和China

PRC代表

People’s Republic of China

也是中国

China也是中国

如果按照字符串的匹配

它们只有一个C是相同的

其它的都完全不同

计算机认为

这两个词可能不怎么相关

而实际上它们就是一个意思

同样大家看到Bat

它既可以代表网球的拍子

也可以代表蝙蝠这样一种动物

还有很多这样的例子

所以对于简单的关键词

作为输入查询词的这样一种方式

会带来一系列的问题

尽管它有这样的问题

由于它的方便、简单

我们仍然采用这种方式

来进行检索

刚才我们讲到了信息检索

Information Retrieval

信息检索在Web上

在我们互联网上的最成功的应用

就是我们的搜索引擎

百度谷歌雅虎这样一些

耳熟能详的名字

Web上的信息检索和传统的信息检索

又有什么区别呢

等会儿我们会有一个整体图

来跟大家介绍

现在，看一下它的几个点

一、我的文档来自哪里

作为一个图书馆

我可以向发行商提出要求

请把我的书送到我的图书馆来

从而向读者提供借阅服务

而对于谷歌百度这样的公司

它能不能

向别人提出请求来获取网页呢

怎么来实现呢

二、书籍是带有格式化的

自然语言文本

而我们网络上的网页

大家都知道它是以什么

Html为后缀的结构化

或者叫半结构化的这样一种语言

那么我又该怎么来获取内容的

第三点

Document change uncontrollably

网络上的网页

它的改变是不受搜索引擎控制的

我改了就改了

我想换成别的内容就换了

没有人去通知搜索引擎说我换了

但是在图书馆不一样

当我的书籍改版了之后

发行商会给图书馆发通知

说告诉你

我这个书已经改版升级了

请你用新版的

那么在Web上也有这样的情况

另外在我们的Web上

还有一个非常有趣的信息

超链接

所以在后面的课程当中

我们会专门就

超链接的链接分析

跟大家做一个详细的介绍

好，那我门来看这样一个图

这是传统的信息检索系统

我已经有了

但是传统的信息检索系统里面

它有文档

但是在Web上面

我的文档在互联网上

我的Web要设计一个

爬虫程序

去自动的地把这些网页爬取下来

搜集到信息检索系统当中去

这样我的信息检索系统

才有了可供用户查询使用的文档

然后用户提出查询需求

我才能反馈结果给你

所以从这样的一个图上面

我们发现

在Web信息检索系统当中

最主要的就是这只，蜘蛛

怎么设计有效的蜘蛛

能把整个网页都爬取下来

成了互联网公司的一个立足之本

那么这个方面

谷歌做了很多的尝试

大家可以查阅相关的文献

来获取知识

前面我们对Web信息检索

和信息检索作了一个对比的分析

除了检索查询这样的任务之外

实际上在信息检索领域

我们也有很多其它相关的领域

比如说文本的分类

大家可以借助

在前面课程当中所学习的

分类算法来实现

还有垃圾的过滤

比如说垃圾邮件

垃圾网页

还有聚类的分析

前面大家学过

K-means

聚类

以及推荐系统

也和信息检索是相关的

在后续的课程当中

我们可以给大家介绍

推荐系统的一些原理

另外还有现在非常热门的，Q&A

也就是Question and Answer

这可以代表了

信息检索或者是

搜索引擎的未来的一个发展方向

因为当搜索引擎发展到至今

人们不是简简单单的

去查询获取网页

人们向搜索引擎

提出了更高的要求

我提问

你能回答我的问题

我问你世界上最高的峰是什么

你能告诉我是珠穆朗玛峰

我再问你最高峰的高度是多少

你能告诉我它的海拔

所以这个对信息检索

提供了更高的要求

那么这样一些领域

也有待我们感兴趣的同学

和学者们做进一步的探讨

接下来呢我们回顾一下

信息检索的历史

在最初的时候呢

我们只是一些很小的文档集合

而且主要是一些什么呢

科学文献

法律文献

商业文件

文档管理

那个时候还只能叫

我们学术界有个非常著名的教授

来自康奈尔大学

他在这个领域是一个领导者

很早就在这个方向

开展他的科学研究

后来我们从small变成了large

的document database

我们有了这样一些非常有名的

数据库的公司

比如说MEDLINE

到了九十年代

我们出现了非常有趣的

在Web上的搜索

因为那个时候

我们已经能够用互联网了

我们老百姓能够用互联网

来完成信息检索了

在这里大家看到了，雅虎

九十年代末期我们有了谁呢

我们有了大家非常熟悉的谷歌

在这里我把它放到链接分析

后面我会作介绍

同时我们的学术界

也开展了Q & A的研究

我们有这样一些专门的学术会议

来对它进行探讨

现在我们对搜索

提出了更高的要求

我们不仅仅是想找文档

我们还想找什么呢

找图片找视频找音乐

当然有人说说老师

百度和谷歌里面

不是已经能够搜索图片啦

那么我想问大家一个问题

如果这张图片画的是一只猫

但是它的文件名存的是老虎.jpg

当你输入猫作为查询词的时候

这张图片能够出现吗

在目前的商业化产品当中

它是不能够出现的

也就是说

我们对于图片的检索

不能仅仅按照标题来进行

应该按照图片实际的内容来完成

这样一些研究工作

就已经开展了大量

谷歌在这方面有非常突出的成绩

同时我们还想做什么呢

我不懂英文，我不懂德语

我不懂法语，我输入中文

能不能找到法国的网页呢

法语的网页呢

所以我们有跨语言的检索

另外一点也非常有意思

虽然大家看到这个英文单词

会比较陌生着的东西

叫做Document Summarization

叫作什么啊

文档摘要

大家在小学的时候

老师有没有让同学们写过

中心思想段落大意

可能有同学还记忆犹新

觉得那是最痛苦的事情了

以后我们可能就有计算机

能够帮助我们完成这样的工作

大家是不是觉得非常有趣呢

所以

如果大家对这个领域感兴趣

想进入这个领域来进行一些研究

和进行一些商业上的运作的话

我们需要一些哪方面的知识

信息检索绝对是一个

跨领域交叉的这样一个学科

我们需要你知道数据库的知识

我们要有情报领域的知识

信息领域，情报领域，图书领域

我们还需要有人工智能

现在人工智能非常火热

我们还需要去处理自然语言

因为我是

用人的自然语言描述出来的

也就是说你的语文必须好

我还要有机器学习

因为我希望用计算机

来帮助我分析和解决这些问题

而不是用人工去算

所以这就是一个

跨领域交叉学科学习

今天的课就到这里

感谢同学们观看

第14讲 Web信息检索简介在线视频

第14讲 Web信息检索简介课程教案、知识点、字幕

互联网大规模数据分析技术课程列表：

第一章大数据与数据挖掘概述

第二章关联规则

第三章分类算法

第四章聚类算法

第五章大数据平台与技术

第六章信息检索

第七章 Web链接分析

第八章推荐系统

自我提升练习

第14讲 Web信息检索简介笔记与讨论

也许你还感兴趣的课程:

第14讲 Web信息检索简介在线视频

第14讲 Web信息检索简介课程教案、知识点、字幕

互联网大规模数据分析技术课程列表：

第一章 大数据与数据挖掘概述

第二章 关联规则

第三章 分类算法

第四章 聚类算法

第五章 大数据平台与技术

第六章 信息检索