当前课程知识点:计算机文化基础 >  第10课:从信息为王到选择为王 >  信息检索背后的关键技术 >  建立快速有效的索引

返回《计算机文化基础》慕课在线视频课程列表

建立快速有效的索引在线视频

建立快速有效的索引

下一节:搜索结果排名

返回《计算机文化基础》慕课在线视频列表

建立快速有效的索引课程教案、知识点、字幕

刚才我们介绍完了

海量数据的获取

接下来的内容

是如何建立快速有效的索引

以及索引结果如何排名

我们考虑一下

如何能实现快速索引

面对海量的网页内容

如何能快速

快到不到1秒钟

找到包含用户查询词的网页

那就使用索引

索引在日常生活中是很常见的

我们的书籍目录

图书馆的索书单

使用索引的根本目的

就是为了在具体应用中

加快查找速度

具体到搜索引擎

索引更是其中最重要的

核心技术之一

我们简单描述一下

如何进行索引

真实的情况会更加复杂

我们看一下表格

在这个表格中

第一列是单词ID

记录每个单词的单词编号

第二列

关键词

对应用户的搜索信息

第三列

包含该关键词的网页的文件序号

搜索引擎的索引表

是一张超大的表

根据网页的序号

将索引分成很多份

分别存储在不同的服务器中

接受查询时

被分配到许许多多的服务器中

服务器并行处理

结果送回主服务器

进行合并

再返回给用户

有了这个

索引系统

搜索引擎就可以很方便的响应用户的查询

比如

用户输入查询关键词

云计算的应用

搜索系统从查询索引中

读出包含这两个

查询词的文档

搜索引擎会对网页

进行解析

抽取出网页主体内容

以及页面中包含的

指向其他页面的链接

网页内容通过倒排索引

这种高效查询数据结构

来保存

倒排索引

是搜索引擎用来快速查找

包含某个单词的文档

集合的数据结构

我们现在看到的

单词文档矩阵

是表达两者之间所具有的

一种包含关系的概念模型

每一列代表一个文档

每一行代表一个单词

而对勾

代表包含关系

网页之间的链接关系

也会通过

链接关系模块予以保存

之所以要保存链接关系

是因为这种关系

在网页相关性排序阶段

是可利用的

存储大量信息的硬件

可以通过使用云存储

与云计算平台的方式

即使用数以万计的普通PC

搭建的海量信息的

可存储与计算架构

以此作为搜索引擎

及其相关应用的基础支撑

但大的商业搜索引擎

如谷歌百度

会建造专门的数据中心

作为硬件支撑

搜索引擎的反作弊模块

也是搜索引擎重要的组成部分

什么叫作弊

就是通过各种手段

将网页的搜索排名

提高到与网页质量不相符的位置

该模块用于自动发现

作弊网页

并对其进行处罚

好我们看一下

在大数据背后强大的硬件支撑

以谷歌为例

谷歌自家设计的低功耗服务器

被安置在标准的海运集装箱里

每个集装箱可容纳

1160台服务器

1个数据中心

被部署约50个集装箱

总功率约一万千瓦

谷歌的搜索速度为什么会这么快

这主要因为

谷歌在全球范围内

部署着众多的数据中心

大部分集中在美国和欧洲

谷歌的所有服务器

均为自己一手打造

比像戴尔惠普IBM

和SUN厂商直接购买服务器

节省了大笔的费用

谷歌一直钟情于开源软件

也一直支持开源技术

谷歌服务器使用的是Linux操作系统

谷歌的数据中心

支撑着全球最大规模的搜索引擎

数据中心是谷歌的核心引擎

和竞争力

多年来

谷歌扮演着大规模web数据中心

技术的创始者和创新者的角色

其数据中心的基础架构设计

走在了行业的前列

数据中心的选址

有着严格的标准

体现在再生能源的利用

低功耗制冷

新能源利用

以及数据中心机房设计

等多个方面

我们再看一下

我们的例子

就是Aminer的研究者索引

在此建索引的目标

是通过查询词

能找到与之相关的研究者

因此

需要对研究者发表的论文

进行解析

具体的

我们对论文的标题和摘要

进行分词

同时

利用关键词抽取技术

对论文的标题和摘要

抽取关键词

然后基于分词结果和抽取的关键词

对专家建立倒排索引

我们看这张图

图中的每一行

表示一个词

或抽取的关键词

以及它们相关的研究者

和该词在这个研究者的论文当中

所出现的次数

结合查询词和用户信息

来给出用户的真正搜索意图

用户在交互界面当中

输入的每个查询词

都隐含了其深层次的查询意图

往往需要深入挖掘

搜索引擎的查询分析模块

能够根据查询词

找出背后用户搜索意图

根据搜索结果的启发

给出改写查询的建议

使查询词更抽象化

比如东北虎

可以抽象成老虎

更具体化

与抽象化相反

或者是同义重构

比如说旧车和二手车

结合查询词

和用户信息

来给出用户的真正搜索意图

在查询意图分析的时候

还可以借助搜索日志

搜索日志一般会记载

用户发出的查询

发出查询的时间

点击过哪些搜索结果等数据

搜索引擎

会重新给出查询请求的建议

用户可以根据建议改写查询

如此形成用户和搜索引擎交互的一个闭合回路

直到解决了用户的需求

或无果而终

搜索出隐藏在用户查询背后的

真正的搜索意图

提供更好的用户体验

构造查询完成后

首先要在缓存当中查找

能在缓存系统中

找到满足用户需求的信息

则直接将搜索结果返回

这样可以大大加快搜索速度

我们再看一下Aminer

查询意图的一个理解

当用户输入一个查询词时

我们会试图理解用户的查询意图

究竟他输入的是一个人名

还是一个主题词

亦或是一篇论文的标题

我们的做法是

为每一个查询词

估计属于每种实体类型的概率

然后按照概率

来推荐相关实体

例如

我们在此输入jiawei

系统估算

它属于人的可能性是最大的

所以

先推荐姓名里面包含jiawei的研究者

然后再推荐论文标题里面

包含jiawei的论文

这个图中

输入data

系统估算它

属于话题的可能性是最大的

所以先推荐话题当中

包含data的词组

然后再推荐论文标题当中

包含data的论文

计算机文化基础课程列表:

第1课:说在前面的话

-由一个短片引出......

--由一个短片引出......

-梳理IT产业大脉络(上)

--梳理IT产业大脉络(上)

-梳理IT产业大脉络(下)

--梳理IT产业大脉络(下)

-你的第一门计算机入门课

--课程介绍及要求

-实践:图像处理入门

--实践小作业要求

--操作前的几点准备

--操作1:素材整体布局

--操作2:制作收割后裸露土地的效果

--操作3:人物主体抠像

--操作4:图像合成的余下步骤

-第1课习题作业

-第1课导学帖

--第1课导学帖

第2课:揭开计算机的神秘面纱

-现代计算机为什么是电子数字的?

--数字装置与模拟装置

-二进制与十进制有什么区别?

--了解二进制

-为什么莱布尼兹没有认识到二进制的重要性?

--与、或、非

--二进制数的数字实现

-从ENIAC到现代通用计算机

--ENIAC到现代计算机

--新材料带来新发展

-摩尔定律会失效吗?

--摩尔定律失效

-讲座:计算机世界中的巨无霸

--计算机世界中的巨无霸

-参观:感受世界巨无霸(太湖之光)

--神威太湖之光简介

--探秘神威太湖之光

--神威太湖之光应用领域

-参观补充:走进济南国家超算中心

--走进国家超算中心

-实践:我的计算机有多快?

--我的计算机有多快?

-第2课习题作业

-第2课导学帖

--第2课导学帖

第3课:数字世界中形形色色的“数”

-数码相机是如何“计算”出一张数字照片?

--照相机如何感知世界

--如何拍摄彩色照片

-认识图像数字化过程中的采样和量化

--采样和量化

--像素、分辨率和色深

-计算机是如何感知声音波形的?

--声音量化三要素

-换一种思路来数字化文本信息

--机内码是如何产生的

--字符集的发展历程

-实践:常用网络资源下载

--常见下载方法介绍

--常见文件类型下载

- 第3课习题作业

-第3课导学帖

--第3课导学帖

第4课:最熟悉的陌生人APP

-软件解决的目标是什么?

--软件的目的是什么

-我们使用的软件是怎么来的?

--软件是怎么来的1

--软件是怎么来的2

-操作系统拥有什么样的神力?

--开机过程发生了什么

--操作系统的演变1

--操作系统的演变2

--CPU的管理调度

--虚拟存储技术

--统一驱动外设的方法

-访谈:如何成功研发一款手机APP

--互联网模式下的APP

--ColorV的应用亮点

--如何在互联网中掘金

--ColorV操作讲解

-实践:如何利用注册表进行系统优化

--注册表概述

--用注册表进行系统优化

--注册表与信息安全

-第4课习题作业

-第4课导学帖

--第4课导学帖

第5课:数据如何安好

-数字存储前言

--梳理数字存储历史

--磁、光存储介质

--半导体存储介质

-怎样在存储介质上表示1和0?

--光盘怎样表示1和0

--磁带和半导体怎样表示

-怎样从存储介质读取1和0?

--怎样读取1和0(上)

--怎样读取1和0(下)

-如何找到所需的数据?

--如何找到数据(上)

--如何找到数据(下)

-实践:文章排版基本技能

--引言

--中文输入

--排版的基本编辑对象

--打印字符与非打印字符

--图文混排

--页面设置

--利用样式润色文件段落

--利用表格布局标题

--分栏和首字下沉

--设置页眉与页脚

--设置插图润色排版

--LaTeX入门

-第5课习题作业

-第5课导学帖

--第5课导学帖

第6课:演示文稿制作

-演示文稿制作准备

--操作前的几个概念

--实践前的环境准备

--参考上机练习完成制作

-制作演示文稿

--具体版式幻灯片制作1

--具体版式幻灯片制作2

--具体版式幻灯片制作3

--具体版式幻灯片制作4

--幻灯片切换动画效果

--幻灯片元素动画效果1

--幻灯片元素动画效果2

--幻灯片元素动画效果3

--设置超链接按钮

--设置超链接文本

--设置演示文稿背景音乐

-作品赏析

--咖啡作品:演示效果的普适性

--机器猫作品:路径动画和背景音效

--夏天的风作品:Mac OS制作

--游戏作品:密室逃脱(上)

--游戏作品:密室逃脱(下)

-第6课习题作业

-第6课导学帖

--第6课导学帖

第7课:从单机到联网

-联网目的和资源共享模式的变迁

--中央主机-终端联网

--资源共享模式

--异构网互联

-物联网连入互联网

--互联网与因特网

-访谈:PC在智能穿戴生态系统中的定位

--对话联想(上)

--对话联想(下)

-参观:联想创新中心掠影

--探秘联想创新中心

-第7课习题作业

-第7课导学帖

--第7课导学帖

第8课:+互联网

-从网络组织来描述计算机网络

--计算机网络的定义

--通信线路和设备(上)

--通信线路和设备(下)

--网络软件

-从功能角度来认识计算机网络

--网络体系结构

--IPv4(上)

--IPv4(下)

--IPv6

--查看IP地址/DNS

-实践:网络不通怎么办

--网络连接

--用ping测试连通性

--ipconfig确定配置

--默认网关的MAC地址

--如何知道数据走哪条路

-第8课习题作业

-第8课导学帖

--第8课导学帖

第9课:从图像传感器看世界的物联

-认识图像传感器

--认识图像传感器

--图像传感器的应用

--图像传感器的市场

--图像传感器发展阶段

-图像传感器的应用

--在汽车中的应用1

--在汽车中的应用2

--物联网中的应用

-了解图像传感器技术

--图像传感器的技术

-图像传感器的挑战

--问题与挑战

-讲座:如何在大数据中精准生活

--走进大数据

--探秘腾讯大数据平台

--生活中的大数据

-实践:HTML入门实践

--HTML作业要求

--HTML基本标记

--综合样例(上)

--综合样例(下)

-第9课习题作业

-第9课导学帖

--第9课导学帖

第10课:从信息为王到选择为王

-认识搜索引擎

--这就是搜索引擎

--著名的搜索引擎公司

--搜索引擎技术的发展

--搜索引擎的目标与广告

-信息检索背后的关键技术

--海量数据的获取

--建立快速有效的索引

--搜索结果排名

-搜索引擎的未来

--情境感知的搜索

--社会化搜索

--智能搜索

-实践:Aminer学术搜索

--Aminer介绍

-第10课习题作业

-第10课导学帖

--第10课导学帖

第11课:信息安全知多少

-信息安全的基本要求

--信息安全的基本要求

--早期的计算机安全

-新型的网络攻击有哪些

--联线网络信息安全专家

--信息泄露

--信息安全与社会工程学

--移动安全

-未知攻 焉知防

--未知攻焉知防

--未知攻焉知防2

--信息加密

--安全防范原则

-实践:Excel实践

--认识Excel表格

--实例操作

--实例操作2

--实例操作3

--绘制图表

-第11课习题作业

-第11课导学帖

--第11课导学帖

第12课:说在后面的话

-回顾与展望

--回顾与展望1

--回顾与展望2

--回顾与展望3

--回顾与展望4

-什么是计算

--什么是计算

-访谈:信息技术交叉应用

--对话风投专家1

--对话风投专家2

--对话风投专家3

-嘉宾分享:闲谈数字产业创新

--闲谈数字产业创新(上)

--闲谈数字产业创新(下)

-第12课习题作业

-第12课导学帖

--第12课导学帖

建立快速有效的索引笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。