当前课程知识点:计算机文化基础 > 第10课:从信息为王到选择为王 > 信息检索背后的关键技术 > 建立快速有效的索引
刚才我们介绍完了
海量数据的获取
接下来的内容
是如何建立快速有效的索引
以及索引结果如何排名
我们考虑一下
如何能实现快速索引
面对海量的网页内容
如何能快速
快到不到1秒钟
找到包含用户查询词的网页
那就使用索引
索引在日常生活中是很常见的
如
我们的书籍目录
图书馆的索书单
使用索引的根本目的
就是为了在具体应用中
加快查找速度
具体到搜索引擎
索引更是其中最重要的
核心技术之一
我们简单描述一下
如何进行索引
真实的情况会更加复杂
我们看一下表格
在这个表格中
第一列是单词ID
记录每个单词的单词编号
第二列
关键词
对应用户的搜索信息
第三列
包含该关键词的网页的文件序号
搜索引擎的索引表
是一张超大的表
根据网页的序号
将索引分成很多份
分别存储在不同的服务器中
接受查询时
被分配到许许多多的服务器中
服务器并行处理
结果送回主服务器
进行合并
再返回给用户
有了这个
索引系统
搜索引擎就可以很方便的响应用户的查询
比如
用户输入查询关键词
云计算的应用
搜索系统从查询索引中
读出包含这两个
查询词的文档
搜索引擎会对网页
进行解析
抽取出网页主体内容
以及页面中包含的
指向其他页面的链接
网页内容通过倒排索引
这种高效查询数据结构
来保存
倒排索引
是搜索引擎用来快速查找
包含某个单词的文档
集合的数据结构
如
我们现在看到的
单词文档矩阵
是表达两者之间所具有的
一种包含关系的概念模型
每一列代表一个文档
每一行代表一个单词
而对勾
代表包含关系
网页之间的链接关系
也会通过
链接关系模块予以保存
之所以要保存链接关系
是因为这种关系
在网页相关性排序阶段
是可利用的
存储大量信息的硬件
可以通过使用云存储
与云计算平台的方式
即使用数以万计的普通PC
搭建的海量信息的
可存储与计算架构
以此作为搜索引擎
及其相关应用的基础支撑
但大的商业搜索引擎
如谷歌百度
会建造专门的数据中心
作为硬件支撑
搜索引擎的反作弊模块
也是搜索引擎重要的组成部分
什么叫作弊
就是通过各种手段
将网页的搜索排名
提高到与网页质量不相符的位置
该模块用于自动发现
作弊网页
并对其进行处罚
好我们看一下
在大数据背后强大的硬件支撑
以谷歌为例
谷歌自家设计的低功耗服务器
被安置在标准的海运集装箱里
每个集装箱可容纳
1160台服务器
1个数据中心
被部署约50个集装箱
总功率约一万千瓦
谷歌的搜索速度为什么会这么快
这主要因为
谷歌在全球范围内
部署着众多的数据中心
大部分集中在美国和欧洲
谷歌的所有服务器
均为自己一手打造
比像戴尔惠普IBM
和SUN厂商直接购买服务器
节省了大笔的费用
谷歌一直钟情于开源软件
也一直支持开源技术
谷歌服务器使用的是Linux操作系统
谷歌的数据中心
支撑着全球最大规模的搜索引擎
数据中心是谷歌的核心引擎
和竞争力
多年来
谷歌扮演着大规模web数据中心
技术的创始者和创新者的角色
其数据中心的基础架构设计
走在了行业的前列
数据中心的选址
有着严格的标准
体现在再生能源的利用
低功耗制冷
新能源利用
以及数据中心机房设计
等多个方面
我们再看一下
我们的例子
就是Aminer的研究者索引
在此建索引的目标
是通过查询词
能找到与之相关的研究者
因此
需要对研究者发表的论文
进行解析
具体的
我们对论文的标题和摘要
进行分词
同时
利用关键词抽取技术
对论文的标题和摘要
抽取关键词
然后基于分词结果和抽取的关键词
对专家建立倒排索引
我们看这张图
图中的每一行
表示一个词
或抽取的关键词
以及它们相关的研究者
和该词在这个研究者的论文当中
所出现的次数
结合查询词和用户信息
来给出用户的真正搜索意图
用户在交互界面当中
输入的每个查询词
都隐含了其深层次的查询意图
往往需要深入挖掘
搜索引擎的查询分析模块
能够根据查询词
找出背后用户搜索意图
根据搜索结果的启发
给出改写查询的建议
使查询词更抽象化
比如东北虎
可以抽象成老虎
更具体化
与抽象化相反
或者是同义重构
比如说旧车和二手车
结合查询词
和用户信息
来给出用户的真正搜索意图
在查询意图分析的时候
还可以借助搜索日志
搜索日志一般会记载
用户发出的查询
发出查询的时间
点击过哪些搜索结果等数据
搜索引擎
会重新给出查询请求的建议
用户可以根据建议改写查询
如此形成用户和搜索引擎交互的一个闭合回路
直到解决了用户的需求
或无果而终
搜索出隐藏在用户查询背后的
真正的搜索意图
提供更好的用户体验
构造查询完成后
首先要在缓存当中查找
能在缓存系统中
找到满足用户需求的信息
则直接将搜索结果返回
这样可以大大加快搜索速度
我们再看一下Aminer
查询意图的一个理解
当用户输入一个查询词时
我们会试图理解用户的查询意图
究竟他输入的是一个人名
还是一个主题词
亦或是一篇论文的标题
我们的做法是
为每一个查询词
估计属于每种实体类型的概率
然后按照概率
来推荐相关实体
例如
我们在此输入jiawei
系统估算
它属于人的可能性是最大的
所以
先推荐姓名里面包含jiawei的研究者
然后再推荐论文标题里面
包含jiawei的论文
这个图中
输入data
系统估算它
属于话题的可能性是最大的
所以先推荐话题当中
包含data的词组
然后再推荐论文标题当中
包含data的论文
-由一个短片引出......
-梳理IT产业大脉络(上)
-梳理IT产业大脉络(下)
-你的第一门计算机入门课
--课程介绍及要求
-实践:图像处理入门
--实践小作业要求
--操作前的几点准备
-第1课习题作业
-第1课导学帖
--第1课导学帖
-现代计算机为什么是电子数字的?
-二进制与十进制有什么区别?
--了解二进制
-为什么莱布尼兹没有认识到二进制的重要性?
--与、或、非
-从ENIAC到现代通用计算机
--新材料带来新发展
-摩尔定律会失效吗?
--摩尔定律失效
-讲座:计算机世界中的巨无霸
-参观:感受世界巨无霸(太湖之光)
--神威太湖之光简介
--探秘神威太湖之光
-参观补充:走进济南国家超算中心
--走进国家超算中心
-实践:我的计算机有多快?
-第2课习题作业
-第2课导学帖
--第2课导学帖
-数码相机是如何“计算”出一张数字照片?
--如何拍摄彩色照片
-认识图像数字化过程中的采样和量化
--采样和量化
-计算机是如何感知声音波形的?
--声音量化三要素
-换一种思路来数字化文本信息
--字符集的发展历程
-实践:常用网络资源下载
--常见下载方法介绍
--常见文件类型下载
- 第3课习题作业
-第3课导学帖
--第3课导学帖
-软件解决的目标是什么?
--软件的目的是什么
-我们使用的软件是怎么来的?
--软件是怎么来的1
--软件是怎么来的2
-操作系统拥有什么样的神力?
--操作系统的演变1
--操作系统的演变2
--CPU的管理调度
--虚拟存储技术
-访谈:如何成功研发一款手机APP
-实践:如何利用注册表进行系统优化
--注册表概述
--注册表与信息安全
-第4课习题作业
-第4课导学帖
--第4课导学帖
-数字存储前言
--梳理数字存储历史
--磁、光存储介质
--半导体存储介质
-怎样在存储介质上表示1和0?
-怎样从存储介质读取1和0?
-如何找到所需的数据?
-实践:文章排版基本技能
--引言
--中文输入
--图文混排
--页面设置
--利用表格布局标题
--分栏和首字下沉
--设置页眉与页脚
--设置插图润色排版
--LaTeX入门
-第5课习题作业
-第5课导学帖
--第5课导学帖
-演示文稿制作准备
--操作前的几个概念
--实践前的环境准备
-制作演示文稿
--设置超链接按钮
--设置超链接文本
-作品赏析
-第6课习题作业
-第6课导学帖
--第6课导学帖
-联网目的和资源共享模式的变迁
--资源共享模式
--异构网互联
-物联网连入互联网
--互联网与因特网
-访谈:PC在智能穿戴生态系统中的定位
--对话联想(上)
--对话联想(下)
-参观:联想创新中心掠影
--探秘联想创新中心
-第7课习题作业
-第7课导学帖
--第7课导学帖
-从网络组织来描述计算机网络
--计算机网络的定义
--网络软件
-从功能角度来认识计算机网络
--网络体系结构
--IPv4(上)
--IPv4(下)
--IPv6
-实践:网络不通怎么办
--网络连接
-第8课习题作业
-第8课导学帖
--第8课导学帖
-认识图像传感器
--认识图像传感器
--图像传感器的应用
--图像传感器的市场
-图像传感器的应用
--在汽车中的应用1
--在汽车中的应用2
--物联网中的应用
-了解图像传感器技术
--图像传感器的技术
-图像传感器的挑战
--问题与挑战
-讲座:如何在大数据中精准生活
--走进大数据
--生活中的大数据
-实践:HTML入门实践
--HTML作业要求
--HTML基本标记
--综合样例(上)
--综合样例(下)
-第9课习题作业
-第9课导学帖
--第9课导学帖
-认识搜索引擎
--这就是搜索引擎
-信息检索背后的关键技术
--海量数据的获取
--搜索结果排名
-搜索引擎的未来
--情境感知的搜索
--社会化搜索
--智能搜索
-实践:Aminer学术搜索
--Aminer介绍
-第10课习题作业
-第10课导学帖
--第10课导学帖
-信息安全的基本要求
--早期的计算机安全
-新型的网络攻击有哪些
--信息泄露
--移动安全
-未知攻 焉知防
--未知攻焉知防
--未知攻焉知防2
--信息加密
--安全防范原则
-实践:Excel实践
--实例操作
--实例操作2
--实例操作3
--绘制图表
-第11课习题作业
-第11课导学帖
--第11课导学帖
-回顾与展望
--回顾与展望1
--回顾与展望2
--回顾与展望3
--回顾与展望4
-什么是计算
--什么是计算
-访谈:信息技术交叉应用
--对话风投专家1
--对话风投专家2
--对话风投专家3
-嘉宾分享:闲谈数字产业创新
-第12课习题作业
-第12课导学帖
--第12课导学帖