当前课程知识点:互联网大规模数据分析技术 > 第六章 信息检索 > 第14讲 Web信息检索简介 > 第14讲 Web信息检索简介
欢迎来到
互联网大规模数据分析技术
的课堂
我是今天的主讲教师李琳
来自武汉理工大学
今天我们一起来学习
第十四讲
Web信息检索简介
在这一讲当中的我们将从
以下四个方面跟大家一起来探讨
首先我们看一下信息检索
英文叫做
Information Retrieval
我们简称IR
那么什么是信息检索呢
信息检索是指的是
当用户提出查询需求的时候
我能够将相关的结果反馈给用户
而这样一个结果
主要是以文档的形式作为结果
返回给用户
在这样一个
搜索的过程当中
返回结果的过程当中
我们如何来进行评价
如何来满足用户的需求呢
这需要我们从以下几个方面
来进行一些探讨
比如说
一、当你给出查询词的时候
如何找到relevant document
这个relevant
指的就是指的相关
我们这里举一个例子
当你输入java到一个搜索引擎
或者
到一个信息检索引擎系统的时候
你希望返回的文档
是包含什么内容呢
作为IT业的人士
肯定会想到java
那不就是一种编程语言吗
那么作为热爱旅游的同事会想
那不是一个小岛吗
所以大家可以看到
Relevant
是一个非常主观的评价
这个
对于搜索引擎和检索系统来说
是一个需要解决的问题
第二
我们要从大量的文档集合当中
快速地找到相关的文档
Efficiently
大家用过搜索
都有这样一个体验
当你输入查询词
等待超过5秒以上
可能很多同学们或者使用者
就会觉得怎么这么慢呢
没有耐心去花更长的时间
来获得更好的服务
所以搜索引擎需要解决的是
在相关性和有效性当中
取一个折中来满足用户的需求
所以典型的信息检索的任务
是什么呢
我们有什么我们要干什么呢
我们有document
而我们这个document
大家可以看到是
textual natural-language
也就是一种free text
纯文本
或者是说
文字与自然语言表达为主的
文字型的文档
用户的查询
我们作为输入
它也是一种文字形式
我们需要找到什么呢
找到一些文档
它要和你的查询词相关
而且这些文档你最好给我
排个序
所以叫ranking
那么
我们把信息检索系统的整体
给大家作一个介绍
假设你已经搭建了
这样一个信息检索系统
你已经收集了大量的文档
你说我有很多本书了
就像图书馆一样
欢迎大家来查阅借阅书籍
那么用户就会说
我想要一些
什么样的文档和书籍呢
我要告诉管理员
我要告诉信息检索系统
我要这样的书籍
那么信息检索系统
就要根据自己的一整套运算机制
找出符合你查询要求的文档
进行排序,返回给用户
所以我们一定是排序
大家可以看到排序的文档
一般是按相关性来进行排序
而前面我们通过java的例子
可以看到
相关性是一个什么样的判别呢
Subjective,主观的
这种主观
各因人而异
因情景而异
我们在这里对这个主观
作了一个简要的介绍
一、你必须找到正确的
二、你必须是,最好是
也不是说必须
最好是最近的信息
特别是查一些
新闻类的资料的时候
另外你还要确定你的权威性
大家在微博上
喜欢关注一些大V的信息
因为你考虑到
他是这个方面的专家
他的信息来源可能比较可靠
最后我们希望达到最终的目的
是满足用户的需求
这一点实际上是非常难做到的
我们看到
输入java到底是找一个岛
还是找一个编程语言呢
输入苹果apple你到底是找
苹果手机苹果电脑
还是找水果呢
所以这个因人而异
因事而异,因情景而异
所以在传统的
基于关键词的查询当中
我们用关键词Keyword
很简单
很方便大家去使用
约束也很少
所以这种在用户输入关键词
作为查询需求的方式得到了广泛应用
关键词的方式就会带来很多问题
刚才我们已经讲到了
java和苹果的例子
同样,我们也有一些其他的例子
比如说
这个大家应该非常熟悉吧
PRC和China
PRC代表
People’s Republic of China
也是中国
China也是中国
如果按照字符串的匹配
它们只有一个C是相同的
其它的都完全不同
计算机认为
这两个词可能不怎么相关
而实际上它们就是一个意思
同样大家看到Bat
它既可以代表网球的拍子
也可以代表蝙蝠这样一种动物
还有很多这样的例子
所以对于简单的关键词
作为输入查询词的这样一种方式
会带来一系列的问题
尽管它有这样的问题
由于它的方便、简单
我们仍然采用这种方式
来进行检索
刚才我们讲到了信息检索
Information Retrieval
信息检索在Web上
在我们互联网上的最成功的应用
就是我们的搜索引擎
百度谷歌雅虎这样一些
耳熟能详的名字
Web上的信息检索和传统的信息检索
又有什么区别呢
等会儿我们会有一个整体图
来跟大家介绍
现在,看一下它的几个点
一、我的文档来自哪里
作为一个图书馆
我可以向发行商提出要求
请把我的书送到我的图书馆来
从而向读者提供借阅服务
而对于谷歌百度这样的公司
它能不能
向别人提出请求来获取网页呢
怎么来实现呢
二、书籍是带有格式化的
自然语言文本
而我们网络上的网页
大家都知道它是以什么
Html为后缀的结构化
或者叫半结构化的这样一种语言
那么我又该怎么来获取内容的
第三点
Document change uncontrollably
网络上的网页
它的改变是不受搜索引擎控制的
我改了就改了
我想换成别的内容就换了
没有人去通知搜索引擎说我换了
但是在图书馆不一样
当我的书籍改版了之后
发行商会给图书馆发通知
说告诉你
我这个书已经改版升级了
请你用新版的
那么在Web上也有这样的情况
另外在我们的Web上
还有一个非常有趣的信息
超链接
所以在后面的课程当中
我们会专门就
超链接的链接分析
跟大家做一个详细的介绍
好,那我门来看这样一个图
这是传统的信息检索系统
我已经有了
但是传统的信息检索系统里面
它有文档
但是在Web上面
我的文档在互联网上
我的Web要设计一个
爬虫程序
去自动的地把这些网页爬取下来
搜集到信息检索系统当中去
这样我的信息检索系统
才有了可供用户查询使用的文档
然后用户提出查询需求
我才能反馈结果给你
所以从这样的一个图上面
我们发现
在Web信息检索系统当中
最主要的就是这只,蜘蛛
怎么设计有效的蜘蛛
能把整个网页都爬取下来
成了互联网公司的一个立足之本
那么这个方面
谷歌做了很多的尝试
大家可以查阅相关的文献
来获取知识
前面我们对Web信息检索
和信息检索作了一个对比的分析
除了检索查询这样的任务之外
实际上在信息检索领域
我们也有很多其它相关的领域
比如说文本的分类
大家可以借助
在前面课程当中所学习的
分类算法来实现
还有垃圾的过滤
比如说垃圾邮件
垃圾网页
还有聚类的分析
前面大家学过
K-means
聚类
以及推荐系统
也和信息检索是相关的
在后续的课程当中
我们可以给大家介绍
推荐系统的一些原理
另外还有现在非常热门的,Q&A
也就是Question and Answer
这可以代表了
信息检索或者是
搜索引擎的未来的一个发展方向
因为当搜索引擎发展到至今
人们不是简简单单的
去查询获取网页
人们向搜索引擎
提出了更高的要求
我提问
你能回答我的问题
我问你世界上最高的峰是什么
你能告诉我是珠穆朗玛峰
我再问你最高峰的高度是多少
你能告诉我它的海拔
所以这个对信息检索
提供了更高的要求
那么这样一些领域
也有待我们感兴趣的同学
和学者们做进一步的探讨
接下来呢我们回顾一下
信息检索的历史
在最初的时候呢
我们只是一些很小的文档集合
而且主要是一些什么呢
科学文献
法律文献
商业文件
文档管理
那个时候还只能叫
我们学术界有个非常著名的教授
来自康奈尔大学
他在这个领域是一个领导者
很早就在这个方向
开展他的科学研究
后来我们从small变成了large
的document database
我们有了这样一些非常有名的
数据库的公司
比如说MEDLINE
到了九十年代
我们出现了非常有趣的
在Web上的搜索
因为那个时候
我们已经能够用互联网了
我们老百姓能够用互联网
来完成信息检索了
在这里大家看到了,雅虎
九十年代末期我们有了谁呢
我们有了大家非常熟悉的谷歌
在这里我把它放到链接分析
后面我会作介绍
同时我们的学术界
也开展了Q & A的研究
我们有这样一些专门的学术会议
来对它进行探讨
现在我们对搜索
提出了更高的要求
我们不仅仅是想找文档
我们还想找什么呢
找图片找视频找音乐
当然有人说说老师
百度和谷歌里面
不是已经能够搜索图片啦
那么我想问大家一个问题
如果这张图片画的是一只猫
但是它的文件名存的是老虎.jpg
当你输入猫作为查询词的时候
这张图片能够出现吗
在目前的商业化产品当中
它是不能够出现的
也就是说
我们对于图片的检索
不能仅仅按照标题来进行
应该按照图片实际的内容来完成
这样一些研究工作
就已经开展了大量
谷歌在这方面有非常突出的成绩
同时我们还想做什么呢
我不懂英文,我不懂德语
我不懂法语,我输入中文
能不能找到法国的网页呢
法语的网页呢
所以我们有跨语言的检索
另外一点也非常有意思
虽然大家看到这个英文单词
会比较陌生着的东西
叫做Document Summarization
叫作什么啊
文档摘要
大家在小学的时候
老师有没有让同学们写过
中心思想段落大意
可能有同学还记忆犹新
觉得那是最痛苦的事情了
以后我们可能就有计算机
能够帮助我们完成这样的工作
大家是不是觉得非常有趣呢
所以
如果大家对这个领域感兴趣
想进入这个领域来进行一些研究
和进行一些商业上的运作的话
我们需要一些哪方面的知识
信息检索绝对是一个
跨领域交叉的这样一个学科
我们需要你知道数据库的知识
我们要有情报领域的知识
信息领域,情报领域,图书领域
我们还需要有人工智能
现在人工智能非常火热
我们还需要去处理自然语言
因为我是
用人的自然语言描述出来的
也就是说你的语文必须好
我还要有机器学习
因为我希望用计算机
来帮助我分析和解决这些问题
而不是用人工去算
所以这就是一个
跨领域交叉学科学习
今天的课就到这里
感谢同学们观看
-第1讲 大数据与数据挖掘概述
-第2讲 频繁项集和关联规则的基本概念
-第3讲 Apriori算法
-第4讲 Apriori算法的改进与兴趣度度量
-第5讲 分类的基本概念
-第6讲 决策树
--第6讲 决策树
-第7讲 简单贝叶斯分类
-第8讲 聚类的基本概念
-第9讲 K-Means & K-Medoids Clustering
--第9讲 K-Means & K-Medoids Clustering
-第四章 聚类算法--习题
-第10讲 大数据处理平台Hadoop
-第11讲 MapReduce编程
-第12讲 大数据处理平台Spark
-第13讲 NoSQL数据库
-第14讲 Web信息检索简介
-第15讲 信息检索之倒排索引
-第16讲 信息检索之TFIDF
--Video
-第17讲 信息检索之相似度排序
-第18讲 Web搜索之链接分析
-第19讲 Web搜索之PageRank
-第20讲 Lucene信息检索平台
-第七章 Web链接分析--习题
-第21讲 推荐系统简介
-第22讲 推荐系统之协同过滤
-第23讲 Mahout数据挖掘平台
-第24讲 信息过滤评价体系
-第八章 推荐系统--习题一
-第八章 推荐系统--习题二
-综合编程题