当前课程知识点:计算机文化基础 > 第10课:从信息为王到选择为王 > 信息检索背后的关键技术 > 搜索结果排名
我们再思考一下
搜索结果
出来以后
那么相关的搜索结果
如何进行排序呢
也就是说
如果保存在缓存里面的信息
无法满足用户的需求
搜索引擎
需要调用网页排序模块的功能
根据用户查询
实时计算
哪些网页是满足用户需求的
并排序输出作为搜索结果
对搜索结果排序
最重要的两个参考因素
一个是内容相似性因素
即哪些网页是和用户查询密切相关的
这是判断内容相似性模块的功能
另一个
是网页的重要性因素
即哪些网页
是质量较好
或者相对重要的
这一点
可以从链接分析的结果获得
结合以上两个因素综合考虑
就可以对网页进行排序
排序结果作为搜索结果
我们先从用户查询和网页内容的相关性的角度
进行分析
简单的判断方法
会有许多局限性
我们先看最简单的方法
包含关键词较多的网页
应该比包含较少的网页相关
在这儿
没有考虑到文章的长短
我们也可以通过
关键词
求关键词频率的方式
这种方法忽略了
不同词性的重要程度
实际上是不同的
那么它实际采用的方法是什么呢
用户给定搜索词
判断网页内容
与用户查询相关性
依赖于搜索引擎所采用的检索模型
如常用的布尔模型
向量空间模型
概率模型
语言模型
以及最近几年兴起的
机器学习排序算法等
尽管检索模型多种多样
但其在搜索引擎当中所处的位置和功能
是相同的
核心都是通过使用检索模型
计算判断哪些文档
是和用户需求相关的
并按照相关程度排序
如何判断网页的质量好坏呢
每个不同的搜索引擎
都有它的链接分析算法
其中最著名的
当属谷歌的PageRank算法
用来衡量网页的重要性
对URL的优先级进行排序
我们看这张图
球的大小反映了球的重要程度
我们想象越大的球越重要
首先我们进行两个假设
第一个是数量假设
在web图模型中
如果一个页面节点
接收到的其他网页的指向的入链数量越多
那么这个页面就越重要
我们看黄球
那么它有8个入链
而蓝球
它有6个入链
显然
黄球要比蓝球要大
质量假设
指向页面A的
入链质量不同
虽然只有一个入链指向它
而它的质量非常高
所以它也足够的大
质量高的页面会通过
链接向其他页面传递更多的权重
所以越是质量高的页面
指向页面A
页面A就越重要
利用以上两个假设
PageRank算法
刚开始赋予每个网页
相同的重要性得分
通过迭代递归计算
来更新每个页面节点的
PageRank得分
PageRank计算得出的结果
是网页的重要性评价
这和用户输入的查询
是没有任何关系的
如果搜索引擎完全采用PageRank进行排序
则对于任意不同的查询请求返回的结果
都是相同的
即返回PageRank值最高的页面
我们再看一下这个例子
研究者检索
依赖两方面的因素
相关度和权威度
其中相关度
由查询词基于索引检索得出
而权威度
是基于研究者合作网络
离线算出
这两方面加权给出
最终的研究者的排序
此外
系统还提供
按照研究者的一些属性
例如H-Index
性别
国籍
工作地
进行过滤
总结一下
我们在这一部分给大家介绍了
如何通过爬虫下载网页
如何通过索引把下载的信息
实现快速检索
用户通过搜索引擎给出的界面
输入查询词
搜索引擎给出排好序的
搜索结果
-由一个短片引出......
-梳理IT产业大脉络(上)
-梳理IT产业大脉络(下)
-你的第一门计算机入门课
--课程介绍及要求
-实践:图像处理入门
--实践小作业要求
--操作前的几点准备
-第1课习题作业
-第1课导学帖
--第1课导学帖
-现代计算机为什么是电子数字的?
-二进制与十进制有什么区别?
--了解二进制
-为什么莱布尼兹没有认识到二进制的重要性?
--与、或、非
-从ENIAC到现代通用计算机
--新材料带来新发展
-摩尔定律会失效吗?
--摩尔定律失效
-讲座:计算机世界中的巨无霸
-参观:感受世界巨无霸(太湖之光)
--神威太湖之光简介
--探秘神威太湖之光
-参观补充:走进济南国家超算中心
--走进国家超算中心
-实践:我的计算机有多快?
-第2课习题作业
-第2课导学帖
--第2课导学帖
-数码相机是如何“计算”出一张数字照片?
--如何拍摄彩色照片
-认识图像数字化过程中的采样和量化
--采样和量化
-计算机是如何感知声音波形的?
--声音量化三要素
-换一种思路来数字化文本信息
--字符集的发展历程
-实践:常用网络资源下载
--常见下载方法介绍
--常见文件类型下载
- 第3课习题作业
-第3课导学帖
--第3课导学帖
-软件解决的目标是什么?
--软件的目的是什么
-我们使用的软件是怎么来的?
--软件是怎么来的1
--软件是怎么来的2
-操作系统拥有什么样的神力?
--操作系统的演变1
--操作系统的演变2
--CPU的管理调度
--虚拟存储技术
-访谈:如何成功研发一款手机APP
-实践:如何利用注册表进行系统优化
--注册表概述
--注册表与信息安全
-第4课习题作业
-第4课导学帖
--第4课导学帖
-数字存储前言
--梳理数字存储历史
--磁、光存储介质
--半导体存储介质
-怎样在存储介质上表示1和0?
-怎样从存储介质读取1和0?
-如何找到所需的数据?
-实践:文章排版基本技能
--引言
--中文输入
--图文混排
--页面设置
--利用表格布局标题
--分栏和首字下沉
--设置页眉与页脚
--设置插图润色排版
--LaTeX入门
-第5课习题作业
-第5课导学帖
--第5课导学帖
-演示文稿制作准备
--操作前的几个概念
--实践前的环境准备
-制作演示文稿
--设置超链接按钮
--设置超链接文本
-作品赏析
-第6课习题作业
-第6课导学帖
--第6课导学帖
-联网目的和资源共享模式的变迁
--资源共享模式
--异构网互联
-物联网连入互联网
--互联网与因特网
-访谈:PC在智能穿戴生态系统中的定位
--对话联想(上)
--对话联想(下)
-参观:联想创新中心掠影
--探秘联想创新中心
-第7课习题作业
-第7课导学帖
--第7课导学帖
-从网络组织来描述计算机网络
--计算机网络的定义
--网络软件
-从功能角度来认识计算机网络
--网络体系结构
--IPv4(上)
--IPv4(下)
--IPv6
-实践:网络不通怎么办
--网络连接
-第8课习题作业
-第8课导学帖
--第8课导学帖
-认识图像传感器
--认识图像传感器
--图像传感器的应用
--图像传感器的市场
-图像传感器的应用
--在汽车中的应用1
--在汽车中的应用2
--物联网中的应用
-了解图像传感器技术
--图像传感器的技术
-图像传感器的挑战
--问题与挑战
-讲座:如何在大数据中精准生活
--走进大数据
--生活中的大数据
-实践:HTML入门实践
--HTML作业要求
--HTML基本标记
--综合样例(上)
--综合样例(下)
-第9课习题作业
-第9课导学帖
--第9课导学帖
-认识搜索引擎
--这就是搜索引擎
-信息检索背后的关键技术
--海量数据的获取
--搜索结果排名
-搜索引擎的未来
--情境感知的搜索
--社会化搜索
--智能搜索
-实践:Aminer学术搜索
--Aminer介绍
-第10课习题作业
-第10课导学帖
--第10课导学帖
-信息安全的基本要求
--早期的计算机安全
-新型的网络攻击有哪些
--信息泄露
--移动安全
-未知攻 焉知防
--未知攻焉知防
--未知攻焉知防2
--信息加密
--安全防范原则
-实践:Excel实践
--实例操作
--实例操作2
--实例操作3
--绘制图表
-第11课习题作业
-第11课导学帖
--第11课导学帖
-回顾与展望
--回顾与展望1
--回顾与展望2
--回顾与展望3
--回顾与展望4
-什么是计算
--什么是计算
-访谈:信息技术交叉应用
--对话风投专家1
--对话风投专家2
--对话风投专家3
-嘉宾分享:闲谈数字产业创新
-第12课习题作业
-第12课导学帖
--第12课导学帖