当前课程知识点:计算机文化基础 >  第10课:从信息为王到选择为王 >  信息检索背后的关键技术 >  搜索结果排名

返回《计算机文化基础》慕课在线视频课程列表

搜索结果排名在线视频

搜索结果排名

下一节:情境感知的搜索

返回《计算机文化基础》慕课在线视频列表

搜索结果排名课程教案、知识点、字幕

我们再思考一下

搜索结果

出来以后

那么相关的搜索结果

如何进行排序呢

也就是说

如果保存在缓存里面的信息

无法满足用户的需求

搜索引擎

需要调用网页排序模块的功能

根据用户查询

实时计算

哪些网页是满足用户需求的

并排序输出作为搜索结果

对搜索结果排序

最重要的两个参考因素

一个是内容相似性因素

即哪些网页是和用户查询密切相关的

这是判断内容相似性模块的功能

另一个

是网页的重要性因素

即哪些网页

是质量较好

或者相对重要的

这一点

可以从链接分析的结果获得

结合以上两个因素综合考虑

就可以对网页进行排序

排序结果作为搜索结果

我们先从用户查询和网页内容的相关性的角度

进行分析

简单的判断方法

会有许多局限性

我们先看最简单的方法

包含关键词较多的网页

应该比包含较少的网页相关

在这儿

没有考虑到文章的长短

我们也可以通过

关键词

求关键词频率的方式

这种方法忽略了

不同词性的重要程度

实际上是不同的

那么它实际采用的方法是什么呢

用户给定搜索词

判断网页内容

与用户查询相关性

依赖于搜索引擎所采用的检索模型

如常用的布尔模型

向量空间模型

概率模型

语言模型

以及最近几年兴起的

机器学习排序算法等

尽管检索模型多种多样

但其在搜索引擎当中所处的位置和功能

是相同的

核心都是通过使用检索模型

计算判断哪些文档

是和用户需求相关的

并按照相关程度排序

如何判断网页的质量好坏呢

每个不同的搜索引擎

都有它的链接分析算法

其中最著名的

当属谷歌的PageRank算法

用来衡量网页的重要性

对URL的优先级进行排序

我们看这张图

球的大小反映了球的重要程度

我们想象越大的球越重要

首先我们进行两个假设

第一个是数量假设

在web图模型中

如果一个页面节点

接收到的其他网页的指向的入链数量越多

那么这个页面就越重要

我们看黄球

那么它有8个入链

而蓝球

它有6个入链

显然

黄球要比蓝球要大

质量假设

指向页面A的

入链质量不同

虽然只有一个入链指向它

而它的质量非常高

所以它也足够的大

质量高的页面会通过

链接向其他页面传递更多的权重

所以越是质量高的页面

指向页面A

页面A就越重要

利用以上两个假设

PageRank算法

刚开始赋予每个网页

相同的重要性得分

通过迭代递归计算

来更新每个页面节点的

PageRank得分

PageRank计算得出的结果

是网页的重要性评价

这和用户输入的查询

是没有任何关系的

如果搜索引擎完全采用PageRank进行排序

则对于任意不同的查询请求返回的结果

都是相同的

即返回PageRank值最高的页面

我们再看一下这个例子

研究者检索

依赖两方面的因素

相关度和权威度

其中相关度

由查询词基于索引检索得出

而权威度

是基于研究者合作网络

离线算出

这两方面加权给出

最终的研究者的排序

此外

系统还提供

按照研究者的一些属性

例如H-Index

性别

国籍

工作地

进行过滤

总结一下

我们在这一部分给大家介绍了

如何通过爬虫下载网页

如何通过索引把下载的信息

实现快速检索

用户通过搜索引擎给出的界面

输入查询词

搜索引擎给出排好序的

搜索结果

计算机文化基础课程列表:

第1课:说在前面的话

-由一个短片引出......

--由一个短片引出......

-梳理IT产业大脉络(上)

--梳理IT产业大脉络(上)

-梳理IT产业大脉络(下)

--梳理IT产业大脉络(下)

-你的第一门计算机入门课

--课程介绍及要求

-实践:图像处理入门

--实践小作业要求

--操作前的几点准备

--操作1:素材整体布局

--操作2:制作收割后裸露土地的效果

--操作3:人物主体抠像

--操作4:图像合成的余下步骤

-第1课习题作业

-第1课导学帖

--第1课导学帖

第2课:揭开计算机的神秘面纱

-现代计算机为什么是电子数字的?

--数字装置与模拟装置

-二进制与十进制有什么区别?

--了解二进制

-为什么莱布尼兹没有认识到二进制的重要性?

--与、或、非

--二进制数的数字实现

-从ENIAC到现代通用计算机

--ENIAC到现代计算机

--新材料带来新发展

-摩尔定律会失效吗?

--摩尔定律失效

-讲座:计算机世界中的巨无霸

--计算机世界中的巨无霸

-参观:感受世界巨无霸(太湖之光)

--神威太湖之光简介

--探秘神威太湖之光

--神威太湖之光应用领域

-参观补充:走进济南国家超算中心

--走进国家超算中心

-实践:我的计算机有多快?

--我的计算机有多快?

-第2课习题作业

-第2课导学帖

--第2课导学帖

第3课:数字世界中形形色色的“数”

-数码相机是如何“计算”出一张数字照片?

--照相机如何感知世界

--如何拍摄彩色照片

-认识图像数字化过程中的采样和量化

--采样和量化

--像素、分辨率和色深

-计算机是如何感知声音波形的?

--声音量化三要素

-换一种思路来数字化文本信息

--机内码是如何产生的

--字符集的发展历程

-实践:常用网络资源下载

--常见下载方法介绍

--常见文件类型下载

- 第3课习题作业

-第3课导学帖

--第3课导学帖

第4课:最熟悉的陌生人APP

-软件解决的目标是什么?

--软件的目的是什么

-我们使用的软件是怎么来的?

--软件是怎么来的1

--软件是怎么来的2

-操作系统拥有什么样的神力?

--开机过程发生了什么

--操作系统的演变1

--操作系统的演变2

--CPU的管理调度

--虚拟存储技术

--统一驱动外设的方法

-访谈:如何成功研发一款手机APP

--互联网模式下的APP

--ColorV的应用亮点

--如何在互联网中掘金

--ColorV操作讲解

-实践:如何利用注册表进行系统优化

--注册表概述

--用注册表进行系统优化

--注册表与信息安全

-第4课习题作业

-第4课导学帖

--第4课导学帖

第5课:数据如何安好

-数字存储前言

--梳理数字存储历史

--磁、光存储介质

--半导体存储介质

-怎样在存储介质上表示1和0?

--光盘怎样表示1和0

--磁带和半导体怎样表示

-怎样从存储介质读取1和0?

--怎样读取1和0(上)

--怎样读取1和0(下)

-如何找到所需的数据?

--如何找到数据(上)

--如何找到数据(下)

-实践:文章排版基本技能

--引言

--中文输入

--排版的基本编辑对象

--打印字符与非打印字符

--图文混排

--页面设置

--利用样式润色文件段落

--利用表格布局标题

--分栏和首字下沉

--设置页眉与页脚

--设置插图润色排版

--LaTeX入门

-第5课习题作业

-第5课导学帖

--第5课导学帖

第6课:演示文稿制作

-演示文稿制作准备

--操作前的几个概念

--实践前的环境准备

--参考上机练习完成制作

-制作演示文稿

--具体版式幻灯片制作1

--具体版式幻灯片制作2

--具体版式幻灯片制作3

--具体版式幻灯片制作4

--幻灯片切换动画效果

--幻灯片元素动画效果1

--幻灯片元素动画效果2

--幻灯片元素动画效果3

--设置超链接按钮

--设置超链接文本

--设置演示文稿背景音乐

-作品赏析

--咖啡作品:演示效果的普适性

--机器猫作品:路径动画和背景音效

--夏天的风作品:Mac OS制作

--游戏作品:密室逃脱(上)

--游戏作品:密室逃脱(下)

-第6课习题作业

-第6课导学帖

--第6课导学帖

第7课:从单机到联网

-联网目的和资源共享模式的变迁

--中央主机-终端联网

--资源共享模式

--异构网互联

-物联网连入互联网

--互联网与因特网

-访谈:PC在智能穿戴生态系统中的定位

--对话联想(上)

--对话联想(下)

-参观:联想创新中心掠影

--探秘联想创新中心

-第7课习题作业

-第7课导学帖

--第7课导学帖

第8课:+互联网

-从网络组织来描述计算机网络

--计算机网络的定义

--通信线路和设备(上)

--通信线路和设备(下)

--网络软件

-从功能角度来认识计算机网络

--网络体系结构

--IPv4(上)

--IPv4(下)

--IPv6

--查看IP地址/DNS

-实践:网络不通怎么办

--网络连接

--用ping测试连通性

--ipconfig确定配置

--默认网关的MAC地址

--如何知道数据走哪条路

-第8课习题作业

-第8课导学帖

--第8课导学帖

第9课:从图像传感器看世界的物联

-认识图像传感器

--认识图像传感器

--图像传感器的应用

--图像传感器的市场

--图像传感器发展阶段

-图像传感器的应用

--在汽车中的应用1

--在汽车中的应用2

--物联网中的应用

-了解图像传感器技术

--图像传感器的技术

-图像传感器的挑战

--问题与挑战

-讲座:如何在大数据中精准生活

--走进大数据

--探秘腾讯大数据平台

--生活中的大数据

-实践:HTML入门实践

--HTML作业要求

--HTML基本标记

--综合样例(上)

--综合样例(下)

-第9课习题作业

-第9课导学帖

--第9课导学帖

第10课:从信息为王到选择为王

-认识搜索引擎

--这就是搜索引擎

--著名的搜索引擎公司

--搜索引擎技术的发展

--搜索引擎的目标与广告

-信息检索背后的关键技术

--海量数据的获取

--建立快速有效的索引

--搜索结果排名

-搜索引擎的未来

--情境感知的搜索

--社会化搜索

--智能搜索

-实践:Aminer学术搜索

--Aminer介绍

-第10课习题作业

-第10课导学帖

--第10课导学帖

第11课:信息安全知多少

-信息安全的基本要求

--信息安全的基本要求

--早期的计算机安全

-新型的网络攻击有哪些

--联线网络信息安全专家

--信息泄露

--信息安全与社会工程学

--移动安全

-未知攻 焉知防

--未知攻焉知防

--未知攻焉知防2

--信息加密

--安全防范原则

-实践:Excel实践

--认识Excel表格

--实例操作

--实例操作2

--实例操作3

--绘制图表

-第11课习题作业

-第11课导学帖

--第11课导学帖

第12课:说在后面的话

-回顾与展望

--回顾与展望1

--回顾与展望2

--回顾与展望3

--回顾与展望4

-什么是计算

--什么是计算

-访谈:信息技术交叉应用

--对话风投专家1

--对话风投专家2

--对话风投专家3

-嘉宾分享:闲谈数字产业创新

--闲谈数字产业创新(上)

--闲谈数字产业创新(下)

-第12课习题作业

-第12课导学帖

--第12课导学帖

搜索结果排名笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。